提示: 當您需要將結構化文件的處理與其他 Vantage 技術結合時,也可以在 Advanced Designer 中建立與編輯結構化文件的 skill。半結構化文件具有特定的一組欄位,但這些欄位的標籤、數量與位置會在同一類型的文件之間有所不同。半結構化文件的一個典型例子是不同公司開立的發票,其明細項目的數量與格式各不相同。每張發票都會列印發票號碼與總計金額,但這些資訊在每張發票上的確切位置都可能不同。 若要開始訓練您的文件 Skill,請先在一份文件上標記欄位。隨著您訓練 skill,系統會開始自動建議欄位位置,以協助加速欄位標記流程。
注意: 目前,在單一處理作業中,文件 Skill 一次只能處理一個檔案。若您需要處理多個檔案,請使用流程技能的 Extract 活動。
文件類型變體
- 對於數百種變體,使用 Vantage 中 Online Learning 活動所訓練的 skill 幾乎可以完美地擷取資料。
- 對於數千種變體,使用 Deep Learning 活動所訓練的 skill 能夠以約 80% 至 90% 的準確度擷取資料,具體取決於文件類型的複雜度。
- 對於最關鍵的文件類型變體,使用 Fast Learning 和/或 Extraction Rules 活動所訓練的 skill 能夠確保從複雜文件中精確擷取資料。
- 對於結構化文件(其相同類型的資訊始終位於完全相同的位置),我們建議最多使用 10 種變體。若固定版式表單具有許多變體,我們建議將它們都視為不同的文件類型。
- 在訓練 skill 時,請使用具代表性的文件集,其中每一種變體至少包含 2–3 份文件。若變體很多,而文件集中未至少包含每一種變體的一份文件,則可以使用 Deep Learning 活動。它能理解影像樣式、文件的空間結構、欄位內容及周圍標籤,並可處理未用於訓練的變體。
- 在測試 skill 時,請使用與實際生產流程中文件流向類似的文件分佈:訓練集中某一特定變體文件所佔的百分比,應能代表此變體在實際文件流中出現的頻率。這將確保準確度評估是有效的。為此,您應使用實際生產文件流中的隨機文件樣本來測試 skill。
- 至少有一個變體樣本總比完全沒有樣本好。
