跳轉到主要內容
若要訓練與測試 skill,您需要一組已標註的文件,也就是在其中明確標示各欄位位置及其資料類型的文件。取得這樣的一組文件,最直接的方法是手動為一些文件加上標註,但這可能相當耗時——特別是在您打算使用深度學習時,因為深度學習需要大量已標註的文件。為了節省時間與精力,ABBYY 提供多種方式,可重複利用其他 skills 的已標註文件,或經人工複核之處理結果。

手動標註文件

為每個已上傳的文件標註所有欄位的位置,並指定這些欄位預期包含的資料類型。為了確保訓練結果可靠,請遵循這些指引

從資料夾匯入已標註文件

已標註文件也可以從以下來源取得: 在每種情況下,您需要先將已標註的文件匯出到一個資料夾中。之後,您即可從該資料夾匯入這些已標註文件,並用於訓練您的 skill。

技能訓練集

在將 skill 發佈至正式環境使用時,通常會移除訓練集,只在已發佈版本中保留少量範例文件。若您打算使用相同的訓練集來訓練 skill 的新版本,也可以選擇將訓練集匯出到資料夾。 若要將文件及其標註匯出到資料夾,請按一下文件集名稱旁邊的更多圖示,然後選取 Export Set with Labeling。目標資料夾將包含以下檔案與子資料夾:
  • documentdefinition.json
  • skillsettings.json
  • 一個 <文件名稱> 子資料夾,其中包含文件影像、documentinfo.json,以及每個文件對應的 labeling.json 檔案。

已手動審核的處理結果

當處理結果由手動審核人員更正後,會建立一組已標記的文件。若要再次使用這些已標記的文件,請設定將欄位資料匯出為 JSON,並啟用 Values, metadata, and field structure for each document 選項,並將文件影像匯出為任一影像格式。目的地資料夾會為每個處理作業建立各自的子資料夾。每個 <Transaction ID> 子資料夾包含下列內容:
  • 含欄位資料的 <Applied skill name>.json 檔案。
  • 依所選格式匯出的影像:<Applied skill name>.pdf<Applied skill name>.tiff,或 <Applied skill name>/Pages 子資料夾,其中包含每個頁面的 page_*.jpg 檔案。

FlexiCapture

您可以重複使用之前在 FlexiCapture 中標記的文件。詳細資訊,請參閱 從 FlexiCapture 匯入已標記文件

如何匯入

若要從匯出時建立的資料夾匯入已標註的文件,請選取 All Documents 集合,按一下 Upload 按鈕旁的下拉式選單,然後在下拉清單中選取 Import Labeled Documents From Folder… 選項。接著,選取您先前建立的資料夾。
請勿對匯出時建立的資料夾進行任何變更。若您變更了子資料夾結構或重新命名部分檔案,匯入程序可能會發生錯誤。

如何處理重複文件

如果任何匯入的文件名稱與現有文件相同,Advanced Designer 會詢問您是要更新現有文件的標註,還是將這個重複文件匯入為新文件。 如果您選擇 Update Labeling (更新標註) :
  • 如果有同名的欄位,現有文件中這些欄位的位置與設定將會被匯入文件中的對應內容覆寫。
  • 任何出現在匯入文件中但不存在於現有文件中的欄位,都會被新增到現有文件。
如果您選擇 Import As New Documents (匯入為新文件) ,重複文件會被重新命名,並在保留其標註的情況下匯入。