跳轉到主要內容
ABBYY Vantage 提供一種機器學習模式,用於處理結構化文件,例如欄位位置在每一份文件上都相同的文件。此類文件的例子包括問卷、申請表以及報稅表單。部分結構化文件可能具有多個變體,其欄位及欄位位置可能略有差異。

範例影像

IRS Form 1040-2020 年 IRS Form 1040-2019 年 IRS Form 1040 的 2020 年與 2019 年兩種版本。

為結構化文件建立技能

您可以在 Vantage 和 Advanced Designer 中建立用於處理結構化文件的技能。不過,如需編輯此類技能,您必須使用 Advanced Designer。 在 Vantage 中,您可以透過開啟該 skill 的 Fixed-form documents 切換鈕,建立用於處理結構化文件的 skill。您也需要上傳並標註一些空白表單。
注意: 如需建立用於處理具有多個變體之結構化文件的 skill 的詳細說明,請參閱為處理結構化文件設定 Document skill
您在 Vantage 中建立的 skill 會出現在 Advanced Designer 中。其文件處理流程將包含一個專為處理結構化文件設計的 Forms 活動。
注意: 如果您未啟用 Fixed-form documents 切換鈕,您的 skill 的文件處理流程將只包含 Fast Learning 活動。
在 Advanced Designer 中,當您需要將結構化文件的處理與其他 Vantage 技術結合時,可以建立和編輯用於結構化文件的 skill。在此情況下,Forms 活動需要搭配在 Advanced Designer 中建立並設定的其他活動。
注意: 如果您的文件處理流程包含一個與其他活動搭配使用的 Forms 活動,或是包含多個 Forms 活動,您在 Vantage 中的編輯選項將僅限於變更該 skill 的屬性,且無法進行訓練。若需要更進階的編輯,請使用 Advanced Designer。

從包含非結構化元素或混合結構的表單中擷取資料

結構化文件有時可能包含非結構化元素,例如可放置在文件任意位置的條碼或圖章,而這些也必須加以偵測。另一個例子是混合結構的文件:其中一部分是結構化的,而另一部分則是可變長度的表格(例如列數不固定的表格)。要處理這類文件,請先使用一個 Forms 活動,再接上一個處理非結構化元素的活動。在以下步驟中,我們使用 Forms 活動來處理結構化欄位,並使用 Extraction Rules 活動來偵測條碼。

建立文件 Skill 的步驟

  1. 開啟 Advanced Designer。在起始頁面按一下 Create Document Skill 以建立新的 skill。
  2. 前往 Activities 分頁,將一個 Forms 活動新增至文件處理流程。
  3. 按一下 Activity Editor。在 Blank Form 分頁中,為您的每一種文件變體各上傳一份空白表單樣本(不建議上傳超過 10 種不同的變體)。標註必須擷取資料的欄位。關於標註指引,請參閱 Labeling documents。
  4. 按一下 Train Activity
  5. 按一下 Test Set 分頁並上傳已填寫完成的測試文件。請確認每份文件上的所有欄位皆已正確標註。按一下 Test Activity。作業完成後,檢視結果。
  6. 返回 Activities 分頁,將一個 Extraction Rules 活動新增至文件處理流程。
  7. 按一下 Activity Editor 並設定 Extraction Rules 活動。
  8. 按一下 Test Skill Using Selected Documents。作業完成後,檢視結果。若您對結果滿意,請發佈您的 skill;否則請調整標註,然後再次訓練並測試該活動。

使用表格與重複群組

在處理結構化文件時,如果事先已知表格列數或群組實例數的最大值,且表格或群組的邊界是固定的,Vantage 可以處理表格與重複群組。您需要在所有可能的表單版本上標記所有可能出現的列。
**注意:**只有包含資料的列會顯示在處理結果中,任何空白列都會被忽略。
如果事先無法知道群組中的列數或實例數量,則必須使用其他 Vantage 技術。
**注意:**目前只能處理具有文字內容的表格。如果您的表格包含核取方塊或條碼欄位,請改用重複群組。

在單一流程中從表單與非結構化文件擷取資料

有時可能會同時透過表單與非結構化文件來收集資訊。例如,問卷的答案可能會以列印的表單或以自由書寫方式撰寫的非結構化文件形式收到。若要處理此類混合型文件,請同時使用 Forms 活動(用於處理表單)以及 Fast Learning 或 Extraction Rules 活動(用於處理非結構化文件)。接著必須套用 Classify 活動,將表單與非結構化文件加以區分。

建立文件 Skill 的步驟

  1. 開啟 Advanced Designer。在起始頁面中,按一下 Create Document Skill 以建立新的 skill。
  2. 前往 Activities 分頁,將 Forms activity 新增到文件處理流程中。
  3. 按一下 Activity Editor。在 Blank Form 分頁上,上傳一份空白表單範例,並為需要擷取資料的欄位加上標註。若需標註的指引,請參閱「標註文件」。
  4. 按一下 Train Activity
  5. 按一下 Test Set 分頁並上傳已完成的測試文件。請確保每份文件上的所有欄位都已正確標註。按一下 Test Activity。操作完成後,檢閱結果。
  6. 前往 Activities 分頁,將 Fast Learning activity 新增到文件處理流程中。
  7. 開啟 Activity Editor 來設定並訓練此 activity。
  8. 前往 Activities 分頁,並在文件處理流程的開頭新增一個 Classify activity。
  9. 按一下 Activity Editor 並設定 Classify activity。您需要為每一種文件變體建立一個類別,將類別指派給您的文件,並訓練此 activity。
  10. 返回 Activities 分頁,新增一個 IF activity,為文件處理流程建立條件分支。將此 activity 連接到 Forms 和 Fast Learning 這兩個 activities。
  11. 按一下 Test Skill Using Selected Documents。操作完成後,檢閱結果。若您對結果感到滿意,請發布您的 skill;否則,調整標註並再次訓練該 activity。