文件分析

基本文件分析功能

文件分析是一組可在頁面上自動偵測下列物件的功能：

文字區塊
圖片
表格與儲存格
條碼
分隔線

此外，文件分析還提供一些用於 OCR 影像前處理的特殊功能：

偵測頁面方向 — 90、180 與 270 度
分割對開頁面
偵測表格儲存格中的直排文字
偵測並標記頁面上的雜訊區塊

這項前處理對於明確指定頁面上哪些欄位應予以辨識，以及哪些內容應保留原始形式，非常重要。此外，也可以手動選取要辨識的欄位。在此情況下，您必須設定該欄位的座標以及其中資料的類型。這主要用於資料擷取的 Field-Level Recognition 情境。 ABBYY FineReader Engine 12 提供 3 種自動文件分析類型和 1 種手動文件分析類型：

一般文件分析

這是預設的文件分析類型，會搜尋所有物件：文字區塊、圖片、表格、條碼和分隔線。此分析結果會用於在內容重用案例中擷取文件結構與版面配置。所有圖片和圖表都會以原始形式保留，不會辨識其中的文字。

發票文件分析

這是一種預處理引擎，用於處理發票、付款匯票、帳單、託運單、名片、協議、健康理賠表單、履歷等半結構化文件。它專為精準定位這些文件中的所有文字而設計，包括字元和數字——即使這些資訊位於印章、圖片、標誌或小字區域中也不例外。不同於標準的整頁文件分析，此引擎假設文件上所有印刷資訊皆為文字。它也可確保重要的文字資訊不會被識別為圖形元素，且字詞或數值不會被拆分為多個字元。因此，系統可取得最完整的文字資訊 (包括其座標) ，供後續處理階段進行分析、逐欄位處理，以及由其他系統進一步解析。

用於全文索引的文件分析

可自動偵測並辨識文件上的所有文字，包括嵌入在圖片、圖表和示意圖中的文字。開發人員可選擇使用此文件分析模式，擷取建立文件索引所需的完整全文資訊 (例如 DMS、CMS 和歸檔系統) 。

欄位層級辨識的手動區塊指定

此案例不需要進行任何分析，因為要辨識的欄位是由使用者或應用程式直接定義。Recognizer 會接收欄位座標和文字類型，並在指定區域內執行 OCR。

另請參閱

主要功能

總覽

重要新功能

基本文件分析功能

一般文件分析

發票文件分析

用於全文索引的文件分析

欄位層級辨識的手動區塊指定

另請參閱

總覽

重要新功能

​基本文件分析功能

​一般文件分析

​發票文件分析

​用於全文索引的文件分析

​欄位層級辨識的手動區塊指定

​另請參閱

基本文件分析功能

一般文件分析

發票文件分析

用於全文索引的文件分析

欄位層級辨識的手動區塊指定

另請參閱