跳轉到主要內容在從半結構化文件中擷取資料時,會使用 Advanced Designer 來處理複雜的文件集 (例如包含許多彼此差異極大的文件變體的情況) 。文件處理流程將包含專門針對從半結構化文件中擷取資料的活動。
假設你必須處理由相同類型但版面配置不同的文件,而且在技能開發期間無法提供所有文件變體。當你建立一個技能來處理來自不同供應商的發票時,就有可能出現這種情況。通常,每個供應商都會有自己的發票範本,而且可以確定的是,未來還會出現新的範本。如果你擁有足夠多的文件樣本,可以先使用 Deep Learning 活動,然後再使用 Fast Learning 活動。
Deep Learning 活動將負責處理預期之外的文件變體,而 Fast Learning 活動則會學習客戶所提供的特定文件變體,進一步提升這些文件的處理品質。Fast Learning 活動也可以透過來自手動審核的 Online Learning 回饋循環進行訓練。
- 開啟 Advanced Designer。在起始頁面按一下 Create Document Skill 來建立新的 skill。
- 在開啟的「Documents」分頁中,上傳將用於設定 skill 的文件。
- 上傳影像後,前往「Fields」分頁,在該分頁中建立並設定將由 skill 抽取的欄位,以定義 skill 的欄位結構。在 Reference 區段中標記文件。
- 前往「Activities」分頁,將 Deep Learning activity 新增到文件處理流程中以處理半結構化文件。
- 開啟 Activity Editor 以設定並訓練 Deep Learning activity。請注意,用於訓練此 activity 的文件集應至少包含 100 份已標註的文件。
- 回到「Activities」分頁,將 Fast Learning activity 新增到文件處理流程中。
- 開啟 Activity Editor 以設定並訓練此 activity。
- 按一下 Test Skill Using Selected Documents 測試您的 skill,並分析取得的結果。
- 當測試結果足夠理想時,發布您的 skill。
假設在您的文件集合中,多數文件變體都可以使用 Deep Learning 和 Fast Learning 活動來處理。不過,仍然可能有少數文件包含巢狀表格,或在其他方面與所有用於訓練的文件完全不同。
若要處理這類文件,您需要使用 Classification 活動,將它們從主要文件集合中分離出來:
-
如果文件變體是由不同公司開立,且公司名稱與/或地址印在文件上,請使用 Classify By Company 活動。
例如,在處理來自不同銀行的銀行對帳單時,您可以輕鬆提供這些銀行的資料庫清單,妥善區分所有需要個別處理的變體。
-
在所有其他情況下,請使用 Classify By Text and Image 活動。這項多模態分類技術會利用文字、空間結構與影像模式來區分不同的文件變體,因此可以輕鬆辨識出偏離一般格式的文件變體。
使用 IF 活動將文件處理流程分支,分離處理品質較差的文件變體 (例如前面提到含有巢狀表格的文件) ,然後使用 Extraction Rules 活動,從這些文件中擷取目標欄位與表格。
- 開啟 Advanced Designer。於起始頁面按一下 Create Document Skill 以建立新的 skill。
- 在開啟的 Documents 分頁中,上傳將用來設定 skill 的文件。為了確保您的文件集足以用於設定分類器,請為每個變體新增數量大致相同的文件。
- 上傳影像後,前往 Fields 分頁,為該 skill 建立並設定要透過 skill 擷取的欄位,以設定欄位結構。並在 Reference 區段中為文件加上標記。
- 前往 Activities 分頁,將 Classify activity 新增至文件處理流程中。
- 開啟 Activity Editor 並設定 Classify activity。為此,請為每個變體建立對應的類別,將這些類別指派給您的文件,並訓練該 activity。
- 回到 Activities 分頁,透過新增 IF activity,以及新增個別 activities 來處理每種文件變體,設定處理流程的條件式分支。
- 設定您所建立的各個 activities。
- 按一下 Test Skill Using Selected Documents 測試您的 skill,並分析取得的結果。
- 當測試結果達到可接受水準時,發布您的 skill。
假設您需要從少量的文件變體中擷取資料,但沒有足夠的文件來訓練 Deep Learning 活動,不過您具備某種專業知識,能夠描述每種文件變體的主要資料擷取原則。比如說,如果您正在建立一個技能來處理不同年度的報稅表單,您可以使用 Classify 活動將所有文件分成不同的變體。接著應該使用一組 Extraction Rules 活動,其中每個活動都針對某一特定的文件變體進行調整。如果您希望 Vantage 進一步訓練您的技能,請新增一個 Fast Learning 活動。
- 開啟 Advanced Designer。在開始頁面按一下 Create Document Skill 來建立新的 skill。
- 在隨即開啟的 Documents 分頁中,上傳將用於設定 skill 的文件。為了確保您的文件集足以用於設定分類器,請為每個變體新增大致相同數量的文件。
- 上傳影像後,前往 Fields 分頁,建立並設定將由該 skill 擷取的欄位,以設定此 skill 的欄位結構。在 Reference 區段中標記文件。
- 前往 Activities 分頁,將 Classify activity 新增至文件處理流程。
- 開啟 Activity Editor 並設定 Classify activity。為此,請為每個變體建立對應的類別,將這些類別指派給文件,然後訓練此 activity。
- 返回 Activities 分頁並建立一個 Extraction Rules activity。將其他 Extraction Rules activities 新增到此工作流程項目。透過選取由 Classify activity 填入的欄位,並將其值對應到各個 Extraction Rules activities,來設定分支條件。您也可以針對不需要特殊擷取規則的特定類別文件略過此步驟。
- 設定您建立的各個擷取 activities。
- 按一下 Test Skill Using Selected Documents 測試您的 skill,並分析取得的結果。
- 當測試結果足夠理想時,發佈您的 skill。