跳轉到主要內容
為版面各異的半結構化文件設定自訂規則,用於偵測並擷取欄位 Extraction Rules 活動可用來設定在半結構化文件上偵測與擷取欄位的規則,並驗證這些規則在實際文件上的運作情況。通常在欄位所在位置可能因文件而異、導致資料擷取變得複雜時使用,而此時您可以提供額外資訊來偵測這些欄位:例如欄位相對於文件上其他物件的位置,或是以規則運算式指定物件的搜尋條件。舉例來說,您可以指定發票號碼欄位可能位於影像的右側,或是直接位於「Order number」、「Order #」或其他類似關鍵字的正下方。 我們也建議在處理流程中加入 Fast Learning 活動,啟用 Online Learning 以收集執行階段的文件,之後將透過機器學習自動重建該技能。

使用情境

在以下情況下,將 Extraction Rules 活動加入您的文件處理流程:
  • 當您的文件集不夠一致,無法使用 Fast Learning 活動來擷取資料,同時您沒有足夠的文件來訓練 Deep Learning 活動,但這些文件具有可以形式化的既定結構時。
  • 當您希望對 AI 有更高的控制力,先分析 Deep Learning 和 Fast Learning 活動的預測結果,再將這些值寫入文件欄位時。舉例來說,如果您預期要擷取一個位於某個關鍵字附近的數字,您可以篩除看起來不像數字的候選結果,以及不位於該關鍵字附近的候選結果。一般而言,如果需要使用規則進行後處理,通常表示 Deep Learning 和 Fast Learning 活動的訓練集應該擴充,因為機器學習技術可以「摸索」並學習欄位的資料類型、典型位置及其周邊環境。
  • 當您有一個來自 ABBYY FlexiLayout Studio 的 FlexiLayout 檔案並希望重複使用時。如需詳細資訊,請參閱從 ABBYY FlexiLayout Studio 匯入 FlexiLayouts
  • 當您的文件包含複雜結構(例如巢狀表格,即在其他表格內部的重複結構),而這些結構無法由其他針對半結構化文件的活動擷取時。

運作方式

Extraction Rules 活動是對一組文件的形式化描述,讓資料擷取人員能使用自訂規則在文件上定位資料欄位,並從這些欄位擷取資訊。換句話說,Extraction Rules 活動可讓您為文件影像中的欄位指定搜尋演算法。 您可以指定欄位相對於其他物件的位置,或使用絕對座標來指定欄位的位置。文件影像上的各種物件會透過搜尋元素偵測出來。對於每一個需要在影像上偵測的物件,您都必須建立相應的元素,以完整描述所需物件的類型(例如文字、影像、條碼)、其特性,以及該物件的預期搜尋區域。這些元素組成一個 搜尋元素 (Search Elements) 樹狀結構,這是一個邏輯連結的結構(可具有任意巢狀層級),其中各元素會彼此相對地進行搜尋。樹中元素的順序直接對應到活動搜尋它們的順序,也就是說,在將描述與影像比對時,活動會依樹中由上而下的順序尋找元素。將元素分組有助於最佳化搜尋,並可建立相互獨立的子階層。 若要將資料擷取到欄位中,您應將該欄位對應到某個搜尋元素。如果在影像上找到了該元素,其區域就會成為對應欄位的區域。 如需詳細資訊,請參閱設定 Extraction Rules 活動

結合多個 Extraction Rules 活動

您可以建立一個包含多個 Extraction Rules 活動的工作流程項目。要套用到文件的活動會根據某個欄位的值來選取。此欄位可能包含分類結果或其他有助於區分不同文件變體的資料。指定的值會作為條件,用於選擇對應的活動。若需更多資訊,請參閱在單一活動中使用多個 Extraction Rules