文件類型變體
- 對於數百種變體,在 Vantage 中透過 Online Learning 訓練的技能,幾乎可以完美地擷取資料。
- 對於數千種變體,使用 Deep Learning 活動訓練的技能,根據文件類型的複雜度不同,能以大約 80% 至 90% 的準確率擷取資料。
- 對於某一文件類型中最關鍵的變體,使用 Fast Learning 和/或 Extraction Rules 活動訓練的技能,可確保從複雜文件中準確擷取資料。
- 對於結構化文件,其相同類型的資訊一律位於完全相同的位置,我們建議最多使用 10 種變體。若某個固定表單具有許多變體,我們建議將它們全部視為不同的文件類型。欲了解更多資訊,請參閱處理結構化文件。
訓練與測試文件 Skill
- 訓練集
- 測試集
- 盲測集(額外的測試集,包含未納入上述兩個集合中的範例文件)
訓練集需求
- 適用於半結構化文件的 Deep Learning 活動:
- 對於高變異性的文件,至少需要 200-300 份範例文件(每個變體 2-3 份範例文件)。一般建議在訓練集中準備約 1,000 份文件。
- 對於低變異性的文件,通常 100 份範例文件就足夠。
- Segmentation 活動:
- 對於高變異性的文件,建議至少準備 100 份範例文件。
- 對於低變異性的文件,建議至少準備 20 份範例文件。
- 適用於 NLP 的 Deep Learning 活動:
- 對於高變異性的文件,建議至少準備 300 份範例文件(每個變體 2-3 份範例)。
- 對於低變異性的文件,建議至少準備 50 份範例文件。
注意: 即使沒有達到建議的範例文件數量,每個變體至少有一份範例文件也比完全沒有要好。
測試集要求
盲測集的要求
注意: 請務必為訓練與測試 skill 使用不同的文件。
設定文件 Skill
- 按一下 skill 名稱旁邊的設定按鈕,以檢視並調整 skill 設定。
- 在 Documents 分頁上,上傳一些文件。
- 在 Fields 分頁上,標記要擷取值的資料欄位,並指定其位置。
- 在 Activities 分頁上,設定文件處理流程。
- 在 Results 分頁上,測試你的 skill,查看其在範例文件上的效能。
- 在 Publish 分頁上,發佈你的 skill。
