跳轉到主要內容
建立文件 Skill 之後,請依照下列步驟來設定此技能:
  1. 上傳您打算用來訓練與測試分類器的文件(每個檔案只能包含一張文件影像)。 若要上傳文件,請移至 Skill Designer 中的 Documents 分頁,然後按一下位於設計工具中央、工具列上或 Actions 窗格中的 Upload documents 按鈕。 上傳文件時,進度指示器會顯示在 Skill Designer 頂端書籤的右側。指示器的工具提示會顯示尚需上傳與處理的文件數量。 您可以按一下文件名稱左側的圖示來開啟文件預覽視窗。該視窗的預設寬度為瀏覽器視窗寬度的 35%。如有需要,您可以拖曳預覽視窗的左邊界,將其寬度調整至最多為瀏覽器視窗寬度的 80%。使用者指定的寬度會一直保留,直到清除瀏覽器快取為止。
  2. 在訓練文件中,標註所有必須擷取資料的欄位,並指定它們在影像上的位置。如有需要,您也可以新增驗證規則與技能參數。 若要在訓練文件中標註欄位,請移至 Skill Designer 的 Editor 分頁。您可以按一下分頁名稱,或是在清單中選取一或多個文件,然後在 Actions 窗格中按一下 Label Fields and Create Business Rules
  3. 訓練您的技能並分析其資料擷取的準確度。若有錯誤,請加以修正。 若要開始訓練技能,請在 Actions 窗格中按一下 Train 按鈕。訓練完成後,Train 按鈕旁會顯示:Completed 您可以在 Actions 窗格中按一下 Train 按鈕下方的 Cancel 來停止技能訓練。
  4. 重複步驟 1 到 3,直到您對結果感到滿意為止。
  5. 將您的正式作業技能發佈至技能目錄 (Skill Catalog),以供使用。
  6. 如有需要,您可以從現有技能進一步衍生新的技能。這些衍生技能會繼承其基礎技能的所有規則與欄位。此外,在保留您所做所有變更的同時,衍生技能也可以無縫更新到其基礎技能的最新版本。

設定文件 Skill 以處理結構化文件

ABBYY Vantage 提供一種用於處理結構化文件的機器學習模式,也就是每一份文件中欄位位置都相同的文件。例如問卷、申請表與報稅表單等。此模式甚至可以處理具有多個變體的文件,例如 IRS 的 Form 1040 會依不同年度有不同版本,各年度的欄位集合與位置會略有差異。這些變體中的每一個都視為一份獨立的結構化文件,且你必須為每一個變體分別上傳一份空白表單。 若要為處理結構化文件設定一個 Skill,請依照以下步驟操作:
  1. 建立新的文件 Skill,並為該 Skill 開啟 Fixed-form documents 切換開關。 Fixed-form documents 切換開關
  2. 為你的文件每一個變體上傳一份空白樣本表單。為此,請在 Skill Designer 中切換到 Blank Form 索引標籤,然後按一下位於設計工具中央的 Upload Blank Form 按鈕(可在工具列或 Actions 窗格中找到)。如果你沒有空白表單,也可以上傳一份已填寫完成的表單,並將其標記為空白表單。
注意: 一個 Skill 最多可以處理同一表單的 10 種不同變體(例如 IRS Form 1040 在不同年度的各種變體)。
  1. 標記必須擷取資料的欄位。
  2. 在欄位設定中,對背景可能會影響辨識的欄位啟用 Eliminate field background 選項。
  3. Actions 窗格中按一下 Train
  4. 按一下 Test Set 索引標籤並上傳已填寫完成的測試文件。請確保每份文件上的所有欄位都已正確標記。如果有任何欄位位置與已上傳的任何空白表單樣本不相符,請為該文件變體另外新增一份空白表單樣本。
  5. Actions 窗格中測試你的 Skill。作業完成後,檢閱結果。如果你對結果不滿意,請調整標記後重新訓練 Skill。
  6. 將你的 Skill 發佈到技能目錄 (Skill Catalog),以便可供使用。
Fixed Form 索引標籤 針對處理結構化文件的 Skill,在 Skill Designer 中顯示的索引標籤 在處理文件的過程中,你可能會發現,這些文件更適合作為半結構化文件,而非結構化文件來處理。在這種情況下:
  1. 在 Skill Designer 中按一下 Skill 名稱右側的圖示。
  2. 關閉 Fixed-form documents 切換開關。
注意: 所有已標記的欄位都會被保留。
  1. 重新訓練你的 Skill。
如果你在 Advanced Designer 中編輯 Skill,並將 Forms 活動與其他活動組合使用,則在 Vantage 中 Fixed-form documents 切換開關會被停用,而且你將無法再在 Advanced Designer 之外編輯該 Skill。

使用表格與重複群組

在處理結構化文件時,如果事先知道表格的最大列數或群組實例的最大數量,且表格或群組的邊界是固定的,Vantage 便可以處理表格與重複群組。您必須在表單的所有版本上標註所有可能出現的列。
注意: 處理結果中只會顯示包含資料的列,任何空白列都會被忽略。
如果事先無法知道群組中的列數或實例數量,您必須改用另一項 Vantage 技術,請參閱處理結構化文件
提示: 目前僅能處理包含文字資料的表格。如果您的表格包含核取方塊或條碼欄位,請改用重複群組。

設定辨識語言

在處理文件時,Vantage 會從指定語言清單中選擇處理語言。設定新 skill 時,預設會選取以下四種語言:英文、法文、德文和西班牙文。 可以在 Skill Designer 中按一下 skill 名稱右側的圖示來修改辨識語言清單。顯示於設定對話方塊中的語言會依字母順序排序。已選取的語言會顯示在清單頂端。必須至少選取一種語言。 若要關閉設定對話方塊,請按一下 Save 以保留變更,或按一下 Cancel 以捨棄變更。
Note: 已選取語言的數量可能會影響文件處理速度。如果您完全確定 Vantage 在您的文件中會遇到哪些語言,建議您將已選取語言限制為這些特定語言。
即使某個 skill 已經完成訓練,您仍然可以修改該 skill 的辨識語言清單。若要套用變更,請重新上傳文件並重新訓練該 skill。

設定線上學習模式

線上學習適用於文件 Skill 和分類技能。Online Learning 服務會將文件收集到訓練集,然後使用所收集的文件進一步訓練該 skill。 在 Document Skill Settings 中,可用的線上學習模式如下:
  • Collect and learn:預設選項。
  • Collect only:當您只需在 Skill Designer 中收集文件而不進行訓練時使用。
若要在不訓練的情況下啟用文件收集,請在 Skill Designer 中按一下 skill 名稱右側的圖示,並在設定對話方塊中選取 Collect only 模式。此模式可讓您在重新訓練 skill 之前,先檢閱已新增到訓練集的文件。 Collect Only 模式

另請參閱