跳轉到主要內容

基本文件分析功能

文件分析是一組可在頁面上自動偵測下列物件的功能:
  • 文字區塊
  • 圖片
  • 表格與儲存格
  • 條碼
  • 分隔線
此外,文件分析還提供一些用於 OCR 影像前處理的特殊功能:
  • 偵測頁面方向 — 90、180 與 270 度
  • 分割對開頁面
  • 偵測表格儲存格中的直排文字
  • 偵測並標記頁面上的雜訊區塊
這項前處理對於明確指定頁面上哪些欄位應予以辨識,以及哪些內容應保留原始形式,非常重要。 此外,也可以手動選取要辨識的欄位。在此情況下,您必須設定該欄位的座標以及其中資料的類型。這主要用於資料擷取的 Field-Level Recognition 情境。 ABBYY FineReader Engine 12 提供 3 種自動文件分析類型和 1 種手動文件分析類型:

一般文件分析

這是預設的文件分析類型,會搜尋所有物件:文字區塊、圖片、表格、條碼和分隔線。此分析結果會用於在內容重用案例中擷取文件結構與版面配置。所有圖片和圖表都會以原始形式保留,不會辨識其中的文字。

發票文件分析

這是一種預處理引擎,用於處理發票、付款匯票、帳單、託運單、名片、協議、健康理賠表單、履歷等半結構化文件。它專為精準定位這些文件中的所有文字而設計,包括字元和數字——即使這些資訊位於印章、圖片、標誌或小字區域中也不例外。 不同於標準的整頁文件分析,此引擎假設文件上所有印刷資訊皆為文字。它也可確保重要的文字資訊不會被識別為圖形元素,且字詞或數值不會被拆分為多個字元。因此,系統可取得最完整的文字資訊 (包括其座標) ,供後續處理階段進行分析、逐欄位處理,以及由其他系統進一步解析。

用於全文索引的文件分析

可自動偵測並辨識文件上的所有文字,包括嵌入在圖片、圖表和示意圖中的文字。開發人員可選擇使用此文件分析模式,擷取建立文件索引所需的完整全文資訊 (例如 DMS、CMS 和歸檔系統) 。 intro_KeyFeatures_DocumentAnalysis

欄位層級辨識的手動區塊指定

此案例不需要進行任何分析,因為要辨識的欄位是由使用者或應用程式直接定義。Recognizer 會接收欄位座標和文字類型,並在指定區域內執行 OCR。

另請參閱

主要功能