處理半結構化文件 - ABBYY Documentation

在從半結構化文件中擷取資料時，會使用 Advanced Designer 來處理複雜的文件集 (例如包含許多彼此差異極大的文件變體的情況) 。文件處理流程將包含專門針對從半結構化文件中擷取資料的活動。

開發完成後可能出現新的文件變體

假設你必須處理由相同類型但版面配置不同的文件，而且在技能開發期間無法提供所有文件變體。當你建立一個技能來處理來自不同供應商的發票時，就有可能出現這種情況。通常，每個供應商都會有自己的發票範本，而且可以確定的是，未來還會出現新的範本。如果你擁有足夠多的文件樣本，可以先使用 Deep Learning 活動，然後再使用 Fast Learning 活動。 Deep Learning 活動將負責處理預期之外的文件變體，而 Fast Learning 活動則會學習客戶所提供的特定文件變體，進一步提升這些文件的處理品質。Fast Learning 活動也可以透過來自手動審核的 Online Learning 回饋循環進行訓練。

建立文件 Skill 的步驟

開啟 Advanced Designer。在起始頁面按一下 Create Document Skill 來建立新的 skill。
在開啟的「Documents」分頁中，上傳將用於設定 skill 的文件。
上傳影像後，前往「Fields」分頁，在該分頁中建立並設定將由 skill 抽取的欄位，以定義 skill 的欄位結構。在 Reference 區段中標記文件。
前往「Activities」分頁，將 Deep Learning activity 新增到文件處理流程中以處理半結構化文件。
開啟 Activity Editor 以設定並訓練 Deep Learning activity。請注意，用於訓練此 activity 的文件集應至少包含 100 份已標註的文件。
回到「Activities」分頁，將 Fast Learning activity 新增到文件處理流程中。
開啟 Activity Editor 以設定並訓練此 activity。
按一下 Test Skill Using Selected Documents 測試您的 skill，並分析取得的結果。
當測試結果足夠理想時，發布您的 skill。

有些文件包含無法透過機器學習擷取的結構

假設在您的文件集合中，多數文件變體都可以使用 Deep Learning 和 Fast Learning 活動來處理。不過，仍然可能有少數文件包含巢狀表格，或在其他方面與所有用於訓練的文件完全不同。若要處理這類文件，您需要使用 Classification 活動，將它們從主要文件集合中分離出來：

如果文件變體是由不同公司開立，且公司名稱與/或地址印在文件上，請使用 Classify By Company 活動。例如，在處理來自不同銀行的銀行對帳單時，您可以輕鬆提供這些銀行的資料庫清單，妥善區分所有需要個別處理的變體。
在所有其他情況下，請使用 Classify By Text and Image 活動。這項多模態分類技術會利用文字、空間結構與影像模式來區分不同的文件變體，因此可以輕鬆辨識出偏離一般格式的文件變體。

使用 IF 活動將文件處理流程分支，分離處理品質較差的文件變體 (例如前面提到含有巢狀表格的文件) ，然後使用 Extraction Rules 活動，從這些文件中擷取目標欄位與表格。

搭配 Deep Learning 與 Extraction Rules 的 IF

建立文件 Skill 的步驟

開啟 Advanced Designer。於起始頁面按一下 Create Document Skill 以建立新的 skill。
在開啟的 Documents 分頁中，上傳將用來設定 skill 的文件。為了確保您的文件集足以用於設定分類器，請為每個變體新增數量大致相同的文件。
上傳影像後，前往 Fields 分頁，為該 skill 建立並設定要透過 skill 擷取的欄位，以設定欄位結構。並在 Reference 區段中為文件加上標記。
前往 Activities 分頁，將 Classify activity 新增至文件處理流程中。
開啟 Activity Editor 並設定 Classify activity。為此，請為每個變體建立對應的類別，將這些類別指派給您的文件，並訓練該 activity。
回到 Activities 分頁，透過新增 IF activity，以及新增個別 activities 來處理每種文件變體，設定處理流程的條件式分支。
設定您所建立的各個 activities。
按一下 Test Skill Using Selected Documents 測試您的 skill，並分析取得的結果。
當測試結果達到可接受水準時，發布您的 skill。

您的文件數量不足以使用機器學習

假設您需要從少量的文件變體中擷取資料，但沒有足夠的文件來訓練 Deep Learning 活動，不過您具備某種專業知識，能夠描述每種文件變體的主要資料擷取原則。比如說，如果您正在建立一個技能來處理不同年度的報稅表單，您可以使用 Classify 活動將所有文件分成不同的變體。接著應該使用一組 Extraction Rules 活動，其中每個活動都針對某一特定的文件變體進行調整。如果您希望 Vantage 進一步訓練您的技能，請新增一個 Fast Learning 活動。

建立文件 Skill 的步驟

開啟 Advanced Designer。在開始頁面按一下 Create Document Skill 來建立新的 skill。
在隨即開啟的 Documents 分頁中，上傳將用於設定 skill 的文件。為了確保您的文件集足以用於設定分類器，請為每個變體新增大致相同數量的文件。
上傳影像後，前往 Fields 分頁，建立並設定將由該 skill 擷取的欄位，以設定此 skill 的欄位結構。在 Reference 區段中標記文件。
前往 Activities 分頁，將 Classify activity 新增至文件處理流程。
開啟 Activity Editor 並設定 Classify activity。為此，請為每個變體建立對應的類別，將這些類別指派給文件，然後訓練此 activity。
返回 Activities 分頁並建立一個 Extraction Rules activity。將其他 Extraction Rules activities 新增到此工作流程項目。透過選取由 Classify activity 填入的欄位，並將其值對應到各個 Extraction Rules activities，來設定分支條件。您也可以針對不需要特殊擷取規則的特定類別文件略過此步驟。
設定您建立的各個擷取 activities。
按一下 Test Skill Using Selected Documents 測試您的 skill，並分析取得的結果。
當測試結果足夠理想時，發佈您的 skill。

Advanced Designer

​開發完成後可能出現新的文件變體

​建立文件 Skill 的步驟

​有些文件包含無法透過機器學習擷取的結構

​建立文件 Skill 的步驟

​您的文件數量不足以使用機器學習

​建立文件 Skill 的步驟

開發完成後可能出現新的文件變體

建立文件 Skill 的步驟

有些文件包含無法透過機器學習擷取的結構

建立文件 Skill 的步驟

您的文件數量不足以使用機器學習

建立文件 Skill 的步驟