跳轉到主要內容

比較文件

全新「比較文件」模組為了快速驗證文件內容的完整性,ABBYY FineReader Engine 中全新的「比較文件」模組可偵測同一份文件兩個版本之間的內容差異。
雙語文件比較「比較文件」模組中的新選項可自動偵測此類文件的雙語特性及其複雜的版面配置,並分別比較每一欄 (也就是各語言版本) 。

Linux 和 Windows 中的 Office 格式輸入

Office 文件處理

除了支援多種影像格式之外,FineReader Engine 現在也能處理以以下 Office 文件格式建立的輸入文件:

  • 文字文件:.doc, .docx, .rtf, .htm / .html, .txt, .odt
  • 試算表:.xls, .xlsx, .ods
  • 簡報:.ppt, .pptx, .odp

從記憶體開啟 Office 文件

可直接從記憶體開啟 Microsoft Office 與 Apache OpenOffice 檔案的新方法,可加快文件匯入步驟,從而提升整體文件處理速度。

MRZ 擷取

從機器可讀區 (MRZ) 擷取資料這項新功能可從身分證件中的機器可讀區 (MRZ) 自動擷取資料,並在客戶註冊或驗證流程中,加快個人資料的輸入與核對。

強化的日文 OCR

頂尖的識別準確度隨著新版 ABBYY Fine Reader Engine 的推出,日文 OCR 大幅提升,將識別準確度提升至多數解決方案過去難以達到的新境界。

提升版阿拉伯語 OCR

適用於低品質影像的阿拉伯語端對端識別可在低品質影像上進行阿拉伯語 OCR;在這類情況下,通用技術通常只能產生信心度低且錯誤較多的結果。

改進後的韓文 OCR

韓文深度學習語言模型針對韓文訓練的模型會從識別候選結果中選出最佳的單字識別變體,甚至可根據識別情境 (前後單字) 產生新的變體。
以神經網路為基礎的新 OCR 技術

OCR 技術的改進

藉助 OCR 技術中的神經網路方法,ABBYY FineReader Engine 強化了對手寫與正楷手寫拉丁字元的處理能力:

  • 語言模型可一致且精準地選擇單字變體
  • 適用於拉丁文字的端對端識別,可處理多語言文件

機器學習條碼識別技術

此神經網路架構引入了新的條碼識別模型,可偵測條碼的大致區域、進行分類,並輸出以區域形式表示的結果,其中包含最可能的條碼類型。

新的識別模式

新的 Accurate 模式可讓您取得最高品質的輸出文件,但識別速度會在合理範圍內變慢。此模式最適合用於低品質或以照片拍攝的發票、合約、收據和 ID 卡。

印章和簽名附近文字的 OCR 品質提升

偵測印章和簽名附近的文字當合約包含印章或簽名時,系統會將其附近的文字與這些元素分開識別,從而提升處理後文件的品質。

新的授權選項

將線上授權用於網路版與獨立版FineReader Engine 12 的開發人員說明已新增關於 SDK 各種授權方式的資訊,並以淺顯易懂的比較表說明各類授權選項。
使用寬限期透過這個新選項,客戶可在到期日後的一段時間內繼續使用 ABBYY FineReader Engine 授權,進而延長授權有效期間。

Linux 與 macOS 版本中的 ICR 與 OMR 技術

手寫文字與核取記號識別使用 ABBYY FineReader Engine 12,您可以識別手寫字元、正楷手寫字元及各種類型的核取記號。系統已導入 ICR 與 OMR 技術,可從手寫文件中擷取資料,並開發新的資料擷取解決方案。
可在雲端環境中執行 Engine
新的部署選項新的授權類型支援在虛擬與雲端環境中部署,讓您能提供更廣泛的解決方案。授權機制需要網際網路連線,並支援 Proxy 伺服器。 <Note> 適用於 Linux 和 Windows 版 FineReader Engine。 </Note>
Windows 版 FRE 中的 .NET Core 封裝器
新的開發框架為了提升使用容器及其他原生環境進行軟體開發與部署的開發團隊效率,ABBYY FineReader Engine 現在提供預先建置的 .NET Core 6 封裝器。
ABBYY FineReader Engine 中的新程式庫
NeoML 程式庫的用途NeoML 是一套開源的端對端機器學習框架,可讓您建置、訓練及部署機器學習模型。工程師可使用此框架處理電腦視覺與自然語言處理工作,包括影像預先處理、分類、文件版面分析、OCR,以及從結構化與非結構化文件中擷取資料。
內嵌 PDFium 以處理 PDFPDFium 是一套符合 PDF 標準的跨平台原生程式庫,可處理所有與 PDF 相關的作業,包括處理、剖析、轉譯及輸出擷取。
增強的文件分類
使用 NLP 與機器學習進行文件分類使用 ABBYY FineReader Engine 12,傳入文件可自動分類到不同類別。系統採用機器學習、OCR 與自然語言處理技術,根據具代表性的文件來訓練影像式與文字式分類器,然後在分類步驟中使用所取得的資訊。
文字式分類器:訓練資料的進階安全性若要訓練並最佳化文字式分類器,必須匯入代表各文件類別的文件。為保護這些文件中所含的資料,所導入的雜湊演算法可避免從範例文件中還原資訊。
增強的分類 Demo SampleABBYY FineReader Engine 能夠處理 PDF、掃描或拍攝的文件影像,以及 Office 格式的文件。為了在分類流程中反映此能力,所提供的預先編譯分類 Demo Sample 已經增強,現在除了 PDF 與影像格式外,也支援匯入 Office 文件。

命令列介面 (CLI) 的程式碼範例

可直接使用的程式碼範例透過此程式碼範例,開發人員可有效運用 ABBYY FineReader Engine 程式庫,並將文件處理功能整合到命令列應用程式中。
PDF 中繼資料擷取器的實作
數位原生 PDF 檔案處理AuxInfo 是 PDFium 的輔助物件,可提供 PDF 檔案的中繼資料資訊。ABBYY R&D PDFTools 團隊開發了可與 PDFium 搭配運作的自有 AuxInfo 物件。

改進的 PDF 處理

針對「混合」內容 PDF 的改進
內容

ABBYY FineReader Engine 提供了處理同時包含純圖像頁面與數位原生頁面之 PDF 文件的全新功能:

  • 自適應識別,改善並加速 PDF 處理效率
  • 文字層品質分類器,可在輸出格式中保留高品質的文字層
  • 偵測 PDF 中數位簽章的存在
  • 全新的內容重用模式,用於處理混合內容的文件

在 PDF 中使用附加內容

為確保更靈活地組成 PDF 內容,ABBYY FineReader Engine 提供以下新選項:

  • 開啟 PDF Portfolio 並處理其內容
  • 將自訂圖像新增至輸出 PDF 並管理其位置
額外的語言支援
波斯語 OCRABBYY FineReader Engine 提供更新且改進的波斯語識別選項,為更有效地處理來自伊朗、阿富汗及中東眾多國家的文件開拓了新途徑。
喬治亞語 OCR喬治亞語已作為新的 OCR 語言加入。
簡單數學公式的 OCR提取簡單數學公式的字元,有助於更準確地識別文字中含有簡單單行數學公式的科學文件。
緬甸語 OCR 技術預覽緬甸語 OCR 已作為技術預覽版加入,以展示未來的功能潛力。
用於阿拉伯語和日語日期擷取的特殊語言FineReader Engine 支援在 Windows 版 FineReader Engine 中進行欄位識別的特殊語言。新版本新增了改進的阿拉伯語和日語日期識別功能。
孟加拉語 OCR 技術預覽孟加拉語 OCR 已作為技術預覽版加入,以展示潛在功能。

改進的文件版面重建

改進的表格重建使用 ABBYY FineReader Engine 12,從文件擷取的表格比以往更能完整保留原有格式。
平衡欄的偵測與重建當文件包含配置平衡的文字欄 (例如合約、科學論文、文章等) 時,現在可保留其原始結構,進而簡化文件處理。
新的「單欄」文件模型新演算法的主要改進,在於表格與圖表的偵測及分析。
強化的表格結構分析透過改良的文件轉換機制,ABBYY FineReader Engine 能夠偵測欄位中的數字採用「會計」格式的表格。

加快處理速度的內部流程最佳化

ILayout 物件迭代的新方案一種新方案,可加快對在主處理程序外處理文件後取得的 ILayout 物件進行迭代的速度。 <Note> 適用於 Linux 和 Windows 的 FineReader Engine。 </Note>

FRE for Windows 的新掃描選項

更多掃描功能

ABBYY FineReader Engine 12 提供多種裝置端掃描功能:

  • 自動刪除文件中的空白頁
  • 自動裁切頁面
  • 自動校正傾斜
  • 自動偵測彩色模式
線上文件
線上提供的文件除了內建文件外,您現在也可以使用線上版本,隨時取得 ABBYY FineReader Engine 功能與特性的相關資訊。

Windows 版 FRE 中最新的 .NET Framework 版本

.NET COM Interop 包裝器支援

目前的發行套件已包含適用於下列 .NET Framework 版本的 .NET COM Interop 包裝器:

  • 3.5 SP1
  • 4.6
  • 4.7
  • 4.8
新的匯出格式
JSONJSON (JavaScript 物件表示法) 是一種開放標準、與程式語言無關的檔案格式,用於傳輸由屬性值配對和陣列資料型別組成的資料物件。FineReader Engine 現在支援將 OCR 結果匯出為 JSON 格式。
新的 ALTO 版本ALTO (Analyzed Layout and Text Object) 是一種 XML 結構描述,用於詳述描述實體文字資源版面配置與內容的技術中繼資料,例如書籍或報紙的頁面。FineReader Engine 12 支援此結構描述的最新版本 (4.0、4.1、4.2) 。
PDF/A-2b 和 PDF/A-3bPDF/A 是可攜式文件格式 (PDF) 的 ISO 標準化版本,專為電子文件的封存與長期保存而設計。現在,FineReader Engine 支援所有 PDF/A 符合性等級。

完整功能