跳轉到主要內容
若要將包含多個文件之檔案中的一連串頁面分割成可供進一步處理的個別文件,請建立 Document Splitter 技能。

分離相同類型的文件

假設你有一個檔案,其中包含多個相同類型的文件(例如,在某一期間內來自同一供應商的一批發票)。每張發票都有自己的發票號碼,並且可能印有頁碼。這些以及其他資料都可以用來將文件彼此區分開來。你可以使用 Extraction Rules 活動來設定發票號碼和頁碼的擷取。若文件的第一頁與其他頁面有明顯差異,你也可以使用 Classify 活動。接著,你可以使用 Splitter Script 活動來分析已擷取的值,並判斷目前頁面是否為新文件的第一頁。

分離文件並移除附件

假設要處理的文件附帶了說明文件,這些說明文件需要保留,但不需要從中擷取任何資料。此時,您可以使用 Classify 活動,將頁面分類為所需類型的文件及其附件。您也可以使用 Extraction Rules 活動來檢查頁面上是否能找到任何有用的資料。沒有任何有用資料的頁面很可能是附件頁面。接著,您可以使用 Splitter Script 活動,將附件頁面附加到各個文件,或將它們放入獨立的文件中。

分離文件並判定其類型

假設您有一個檔案,其中包含多份不同類型的文件(例如,一份貸款申請書,並附有身分證明文件、收入報表、銀行對帳單、水電費帳單及其他文件)。在這種情況下,您可以使用 Classify 活動對每個頁面進行分類,並使用 Extraction Rules 活動擷取判斷目前頁面是否為新文件第一頁所需的資料。接著,您可以使用 Splitter Script 活動來設定分離文件以及判定其類型的規則。

重新排序頁面並移除空白頁面

假設必須重新排序頁面,或移除因雜亂掃描而產生的空白或雜訊頁面。當然,只有在頁面包含能指出正確順序的資料(例如頁碼)時,才有可能重新排序。在這種情況下,可以建立一個欄位來擷取頁碼。也可以建立一個欄位,用於在頁面上搜尋任意文字,以進一步將空白頁面判定為雜訊頁面並予以捨棄。使用 Splitter Script 活動,可以依頁碼重新排序頁面,並建立一個獨立的文件,將所有空白或雜訊頁面集中在其中。 文件分割工作流程

建立文件分割技能的步驟

  1. 開啟 ABBYY Vantage Advanced Designer,並在開始頁面按一下 Create Splitter Skill 來建立新的 Document Splitter 技能。
  2. 在 Documents 索引標籤上上傳檔案。每個文件集應包含屬於同一個處理作業的檔案。此來源檔案集將會被轉換為個別的頁面。請注意,除了 Splitter Script 活動以外,所有活動都會分別處理每個頁面。
  3. 設定文件處理流程,以擷取有助於判斷處理作業中每個頁面的文件類型,並找出每份文件結束與下一份文件開始位置的資料。 a. 設定 Classify 活動以分類頁面,如果來源頁面的流程包含多種類型的文件,或是每份文件的第一頁與其他頁面有明顯差異。 b. 視需要標記欄位或新增其他活動,以擷取可用來分割同類型文件或判定文件類別的資料。
  4. Splitter Script Properties 窗格中新增文件類型,並設定 Splitter Script 活動,使其能將頁面流轉換為一組文件。此指令碼可以存取單一處理作業的所有頁面,並可分析其他活動的資料,以判定哪些頁面是新文件的第一頁。
  5. 按一下 Test Skill Using Selected Documents 測試您的技能,並分析取得的結果。
  6. 當您對結果感到滿意時,發佈您的技能。