跳轉到主要內容
文件 Skill 用於從不同種類的文件中擷取欄位值:結構化文件(例如稅務表單或申請表單)、半結構化文件(例如發票、訂單帳單或航空提單),以及非結構化文件(例如合約、租賃協議或電子郵件訊息)。 文件 Skill 可以在 ABBYY Vantage 或 Advanced Designer 中建立。如果需要為具有非標準版面與欄位結構的文件建立複雜的文件 Skill,後者應作為您的首選工具。Advanced Designer 也允許您在文件 Skill 中結合不同技術、加入 NLP 以處理非結構化文件,或為不同類型的文件設定處理條件(如需典型案例總覽,請參閱 Use cases)。

文件類型變體

同一類型的文件幾乎一律具有相同的一組欄位、驗證規則和結構。單一文件類型的變體之間可能會有些許差異,例如會依據文件的發行年度而有所不同。 同一類型的文件可以由一個針對此文件類型不同變體訓練而成的文件 Skill 來處理。Vantage 和 Advanced Designer 可以在一個文件類型內處理任意數量的變體:
  • 對於數百種變體,在 Vantage 中透過 Online Learning 訓練的技能,幾乎可以完美地擷取資料。
  • 對於數千種變體,使用 Deep Learning 活動訓練的技能,根據文件類型的複雜度不同,能以大約 80% 至 90% 的準確率擷取資料。
  • 對於某一文件類型中最關鍵的變體,使用 Fast Learning 和/或 Extraction Rules 活動訓練的技能,可確保從複雜文件中準確擷取資料。
  • 對於結構化文件,其相同類型的資訊一律位於完全相同的位置,我們建議最多使用 10 種變體。若某個固定表單具有許多變體,我們建議將它們全部視為不同的文件類型。欲了解更多資訊,請參閱處理結構化文件

訓練與測試文件 Skill

為了獲得最佳的資料擷取效果,我們建議使用三個不同的文件集合來訓練與測試文件 Skill:
  • 訓練集
  • 測試集
  • 盲測集(額外的測試集,包含未納入上述兩個集合中的範例文件)

訓練集需求

對於訓練集,請使用具代表性的文件集合,且每個變體至少包含 2-3 份範例文件。若變體很多且集合中無法為每個變體至少提供一份範例文件,請考慮使用 Deep Learning 活動。此活動能理解影像模式、文件結構、欄位內容與周邊標籤,並能處理未用於訓練的變體。 各活動所需的範例文件數量,取決於您在文件 Skill 中所使用的技術:
  • 適用於半結構化文件的 Deep Learning 活動
    • 對於高變異性的文件,至少需要 200-300 份範例文件(每個變體 2-3 份範例文件)。一般建議在訓練集中準備約 1,000 份文件。
    • 對於低變異性的文件,通常 100 份範例文件就足夠。
  • Segmentation 活動
    • 對於高變異性的文件,建議至少準備 100 份範例文件。
    • 對於低變異性的文件,建議至少準備 20 份範例文件。
  • 適用於 NLP 的 Deep Learning 活動
    • 對於高變異性的文件,建議至少準備 300 份範例文件(每個變體 2-3 份範例)。
    • 對於低變異性的文件,建議至少準備 50 份範例文件。
注意: 即使沒有達到建議的範例文件數量,每個變體至少有一份範例文件也比完全沒有要好。

測試集要求

對於測試集,範例文件的分佈必須與實際生產環境中的文件處理流程相似。如此才能確保準確度估算有效。 例如,如果來自某個特定供應商的發票佔生產文件流程的 30%,則測試集中的範例文件約有 30% 也應來自該供應商。也可以透過對生產文件流程中隨機抽取的文件樣本測試 skill,以達到所需的比例。

盲測集的要求

對於盲測集(blind set),請務必使用尚未用於訓練或測試 skill 的文件。從盲測集中獲得的擷取結果將有助於評估 skill 的品質。
注意: 請務必為訓練與測試 skill 使用不同的文件。

設定文件 Skill

在你在起始頁面建立文件 skill 之後,請依照以下步驟設定你的 skill:
  1. 按一下 skill 名稱旁邊的設定按鈕,以檢視並調整 skill 設定。
  2. 在 Documents 分頁上,上傳一些文件。
  3. 在 Fields 分頁上,標記要擷取值的資料欄位,並指定其位置。
  4. 在 Activities 分頁上,設定文件處理流程。
  5. 在 Results 分頁上,測試你的 skill,查看其在範例文件上的效能。
  6. 在 Publish 分頁上,發佈你的 skill。
在設定並發佈你的文件 skill 之後,它即可在 ABBYY Vantage 的技能目錄中使用。 在技能目錄中,你可以檢視並管理你的 skills,包括內建 skills、唯讀 skills,以及衍生 skills。