適用於半結構化文件的擷取規則活動

為版面各異的半結構化文件設定自訂規則，用於偵測並擷取欄位 Extraction Rules 活動可用來設定在半結構化文件上偵測與擷取欄位的規則，並驗證這些規則在實際文件上的運作情況。通常在欄位所在位置可能因文件而異、導致資料擷取變得複雜時使用，而此時您可以提供額外資訊來偵測這些欄位：例如欄位相對於文件上其他物件的位置，或是以規則運算式指定物件的搜尋條件。舉例來說，您可以指定發票號碼欄位可能位於影像的右側，或是直接位於「Order number」、「Order #」或其他類似關鍵字的正下方。我們也建議在處理流程中加入 Fast Learning 活動，啟用 Online Learning 以收集執行階段的文件，之後將透過機器學習自動重建該技能。

使用情境

在以下情況下，將 Extraction Rules 活動加入您的文件處理流程：

當您的文件集不夠一致，無法使用 Fast Learning 活動來擷取資料，同時您沒有足夠的文件來訓練 Deep Learning 活動，但這些文件具有可以形式化的既定結構時。
當您希望對 AI 有更高的控制力，先分析 Deep Learning 和 Fast Learning 活動的預測結果，再將這些值寫入文件欄位時。舉例來說，如果您預期要擷取一個位於某個關鍵字附近的數字，您可以篩除看起來不像數字的候選結果，以及不位於該關鍵字附近的候選結果。一般而言，如果需要使用規則進行後處理，通常表示 Deep Learning 和 Fast Learning 活動的訓練集應該擴充，因為機器學習技術可以「摸索」並學習欄位的資料類型、典型位置及其周邊環境。
當您有一個來自 ABBYY FlexiLayout Studio 的 FlexiLayout 檔案並希望重複使用時。如需詳細資訊，請參閱從 ABBYY FlexiLayout Studio 匯入 FlexiLayouts。
當您的文件包含複雜結構 (例如巢狀表格，即在其他表格內部的重複結構) ，而這些結構無法由其他針對半結構化文件的活動擷取時。

運作方式

Extraction Rules 活動是對一組文件的形式化描述，讓資料擷取人員能使用自訂規則在文件上定位資料欄位，並從這些欄位擷取資訊。換句話說，Extraction Rules 活動可讓您為文件影像中的欄位指定搜尋演算法。您可以指定欄位相對於其他物件的位置，或使用絕對座標來指定欄位的位置。文件影像上的各種物件會透過搜尋元素偵測出來。對於每一個需要在影像上偵測的物件，您都必須建立相應的元素，以完整描述所需物件的類型 (例如文字、影像、條碼) 、其特性，以及該物件的預期搜尋區域。這些元素組成一個 搜尋元素 (Search Elements) 樹狀結構，這是一個邏輯連結的結構 (可具有任意巢狀層級) ，其中各元素會彼此相對地進行搜尋。樹中元素的順序直接對應到活動搜尋它們的順序，也就是說，在將描述與影像比對時，活動會依樹中由上而下的順序尋找元素。將元素分組有助於最佳化搜尋，並可建立相互獨立的子階層。若要將資料擷取到欄位中，您應將該欄位對應到某個搜尋元素。如果在影像上找到了該元素，其區域就會成為對應欄位的區域。如需詳細資訊，請參閱設定 Extraction Rules 活動。

結合多個 Extraction Rules 活動

您可以建立一個包含多個 Extraction Rules 活動的工作流程項目。要套用到文件的活動會根據某個欄位的值來選取。此欄位可能包含分類結果或其他有助於區分不同文件變體的資料。指定的值會作為條件，用於選擇對應的活動。若需更多資訊，請參閱在單一活動中使用多個 Extraction Rules。

Advanced Designer

​使用情境

​運作方式

​結合多個 Extraction Rules 活動

使用情境

運作方式

結合多個 Extraction Rules 活動