光學字元辨識 (OCR)
- OCR 技術——印刷文字辨識支援 211 種語言,包括:
- 歐洲語言 (拉丁、斯拉夫、亞美尼亞、希臘字母)
- 中文 (簡體與繁體) 、日文和韓文 (CJK)
- 阿拉伯文、泰文、越南文、希伯來文和波斯文
- 緬甸文——技術預覽版
- FineReader XIX——專為將 17 至 20 世紀出版的舊文件、書籍和報紙數位化及封存而設計的 OCR 模組,其中許多都十分珍貴且獨一無二。這些資料保存於圖書館和政府機構的歷史檔案中,屬於必須妥善保存的國家文化遺產。FineReader XIX 具備獨特的辨識能力,可辨識 1600 年至 1937 年間以英文、法文、德文、義大利文和西班牙文出版的文本。它支援辨識 Fraktur、Schwabacher 以及大多數 Gothic 字體等古老字型。

- 56 種語言支援字典/形態學功能,可大幅提升 OCR 準確度。
- 多語言文件辨識功能可在同一份文件中辨識多種語言,例如德文與中文,或英文、俄文與韓文。
- 點陣列印文件辨識——ABBYY FineReader Engine 可辨識多種類型的點陣列印文字。它已使用數千個由各式印表機產生的樣本進行訓練,包括點陣、菊輪、鏈式和帶式印表機,以及草稿和 Near Letter Quality (NLQ) 列印模式。
- 打字文件辨識。
- 可辨識 OCR-A、OCR-B、MICR (E13B) 和 CMC7 字型。
智慧字元辨識 (ICR)
- ICR 技術——可辨識超過 126 種語言的手寫印刷體字元。
- 39 種語言 (使用拉丁、希臘和西里爾字母) 支援詞形變化/字典。
- 支援阿拉伯國家所使用印度數字的 ICR。
- 支援全球不同國家和地區使用的 30 種區域性手寫印刷體樣式 (適用於支援的 ICR 語言) 。
- 可辨識欄位和框格中的手寫印刷體字元——如帶底線的欄位、方框、梳狀欄位等。
- 多語言 ICR。ABBYY ICR 技術的主要優勢之一是,即使欄位同時包含大小寫字母,對數字及數字與一種或多種語言字母的組合,仍能提供幾乎同樣高的辨識準確率。
光學標記辨識 (OMR)
- 方框內的勾選記號
- 空白背景上的勾選記號
- 非標準類型的勾選記號 (特殊勾選記號必須先經過訓練才能辨識)
Optical Barcode Recognition (OBR)
- 一維與二維條碼。ABBYY OCR SDK 支援辨識常見的一維與二維條碼類型。請參閱支援的條碼類型清單。
- 快速條碼擷取。此功能可自動偵測並辨識文件中任意角度的條碼,適用於一維和二維條碼
辨識模式
- 精確辨識模式
- 快速辨識模式
- 一般辨識模式
全文辨識與欄位層級辨識
| 規格 | 全文辨識 | 欄位層級辨識 |
|---|---|---|
| 使用情境 | 文件轉換、書籍歸檔 | 資料擷取 |
| --- | --- | --- |
| 文件分析 | 一般文件分析、發票文件分析、用於全文索引的文件分析 | 欄位層級辨識的手動區塊設定 |
| 辨識 | OCR,整體準確率通常約為 96–99% | OCR、ICR、OMR、條碼辨識,搭配預先定義的資料類型和值域。準確率約為 100% |
| 驗證 | 建議用於內容再利用 | 多數情況下為必要 |
| 合成 | 用於文件擷取 | 不使用 |
| 匯出辨識結果 | 文件檔案 (RTF、DOCX、PDF 等) | 匯出至 XML 檔案或資料庫 |
- 文件歸檔
- 用於內容再利用的文件轉換
- 用於欄位偵測與文件分類的全文擷取
- 從具有各種邊框與框線的欄位擷取資料,包括下拉式方塊、底線欄位、方框,甚至資料超出欄位邊界的欄位
- 透過設定字母表、字典、正規表示式、分段類型、手寫樣式 (僅限 Windows) 等來定義欄位內容
- 偵測欄位內空格,準確辨識允許空格的欄位。ABBYY FineReader Engine 12 也支援使用包含帶空格詞組的字典
- 智慧處理具有相交部分與線條的區塊,可辨識完全位於區塊邊界內的文字 (單字和符號) ,節省辨識無關文字區塊所耗費的時間
- 文字區塊去斑點,並可指定白色或黑色「雜訊」的大小
使用者語言
- 在手寫填寫的文件中,表單欄位中的值通常屬於特定集合,例如城市名稱、國家、郵遞區號、產品代碼、金額等。為了提升 ICR 辨識品質,您可以使用使用者語言來描述各欄位可能輸入的資訊。
- 如果文件包含產品代碼、電話號碼、護照號碼等「結構」資料,就可能發生辨識錯誤。這是因為程式會逐字母讀取這類結構。為了改善產品代碼及類似內容的辨識效果,您可以建立新的辨識語言,協助程式正確讀取特定類型的資料。
