跳轉到主要內容
文件 Skill 可讓您從單一類型的結構化與半結構化文件中擷取欄位值。相同類型的文件具有完全相同的一組欄位和驗證規則,以及相同的結構;例如發票、合約和出貨單就是三種不同類型的文件。 結構化文件是指其欄位位置在每一份文件中都相同的表單。結構化文件的範例包括問卷、申請表與報稅表等。
提示: 當您需要將結構化文件的處理與其他 Vantage 技術結合時,也可以在 Advanced Designer 中建立與編輯結構化文件的 skill。
半結構化文件具有特定的一組欄位,但這些欄位的標籤、數量與位置會在同一類型的文件之間有所不同。半結構化文件的一個典型例子是不同公司開立的發票,其明細項目的數量與格式各不相同。每張發票都會列印發票號碼與總計金額,但這些資訊在每張發票上的確切位置都可能不同。 若要開始訓練您的文件 Skill,請先在一份文件上標記欄位。隨著您訓練 skill,系統會開始自動建議欄位位置,以協助加速欄位標記流程。
注意: 目前,在單一處理作業中,文件 Skill 一次只能處理一個檔案。若您需要處理多個檔案,請使用流程技能的 Extract 活動。

文件類型變體

同一類型的文件幾乎一律具有相同的一組欄位、驗證規則和結構。同一文件類型的變體之間可能會有些微差異,例如會因文件開立年度而不同。 同一類型的文件可以由一個使用此文件類型不同變體訓練出的文件 Skill 來處理。Vantage 和 Advanced Designer 可以在單一文件類型中處理任意數量的變體:
  • 對於數百種變體,使用 Vantage 中 Online Learning 活動所訓練的 skill 幾乎可以完美地擷取資料。
  • 對於數千種變體,使用 Deep Learning 活動所訓練的 skill 能夠以約 80% 至 90% 的準確度擷取資料,具體取決於文件類型的複雜度。
  • 對於最關鍵的文件類型變體,使用 Fast Learning 和/或 Extraction Rules 活動所訓練的 skill 能夠確保從複雜文件中精確擷取資料。
  • 對於結構化文件(其相同類型的資訊始終位於完全相同的位置),我們建議最多使用 10 種變體。若固定版式表單具有許多變體,我們建議將它們都視為不同的文件類型。
在訓練和測試 skill 時,我們建議如下:
  • 在訓練 skill 時,請使用具代表性的文件集,其中每一種變體至少包含 2–3 份文件。若變體很多,而文件集中未至少包含每一種變體的一份文件,則可以使用 Deep Learning 活動。它能理解影像樣式、文件的空間結構、欄位內容及周圍標籤,並可處理未用於訓練的變體。
  • 在測試 skill 時,請使用與實際生產流程中文件流向類似的文件分佈:訓練集中某一特定變體文件所佔的百分比,應能代表此變體在實際文件流中出現的頻率。這將確保準確度評估是有效的。為此,您應使用實際生產文件流中的隨機文件樣本來測試 skill。
  • 至少有一個變體樣本總比完全沒有樣本好。