跳轉到主要內容
當單一文件 Skill 需要處理在欄位位置上差異很大的文件(即便屬於相同類型)時,為其指定欄位擷取屬性可能會很困難。舉例來說,同一個 Skill 可以用來處理不同供應商開立的發票,而相同的欄位在不同供應商的發票上可能位於不同位置。為了提升此類 Skill 的擷取品質,您可以選擇將其文件分類成不同類別,這些類別是在單一文件類型下具備共同屬性的文件子群組,並為每個類別分別設定獨立的擷取活動。 當您需要提升其中某個類別的擷取品質時,也可能需要將文件分類為不同類別。舉例來說,單一 Skill 可能用來處理由不同銀行編製的銀行對帳單。其中某一種對帳單類型的擷取品質可能低於其他類型。為了提升該 Skill 的擷取品質,您可以將對帳單劃分為不同類別,並為擷取品質不佳的類別設定一個「Extraction Rules」活動。 「Classify By Text and Image」活動的目的,是將某個 Skill 的文件依類別加以分類,讓這些類別各自擁有並設定自己的擷取活動。

設定概覽

若要建立並設定「依文字與影像分類」活動,請依照下列步驟操作:
  1. 在文件處理流程中建立一個「依文字與影像分類」活動。
  2. 上傳影像、建立類別,並將預期類別指派給文件。
  3. 訓練該活動並分析訓練結果。
  4. 若需要改善分類結果,請修改屬性設定。

使用 Activities 分頁建立與設定

在工作流程中建立一個「Classify By Text and Image」活動。建立後,會在技能結構中建立一個用於記錄分類結果的欄位。此欄位的值將用於對文件進行分類。此欄位會顯示在技能的欄位結構中,但會被標記為隱藏且無法編輯。
注意:「Classify By Text and Image」活動不會為類別傳回置信度數值,只會傳回其名稱。
若要前往 Activity Editor,按一下 Activity Editor,或按兩下活動區塊。

使用 Activity Editor 進行設定

步驟 1:上傳文件

在工具列中按一下 Upload 並選擇一種上傳方式,上傳用於設定此活動的文件: a. Upload Documents… 使用隨即開啟的對話方塊選擇適當的文件。選取的文件會顯示在 No Class 清單中。 b. Upload Folder Like Classes… 使用隨即開啟的對話方塊選擇一個包含影像子資料夾的資料夾。每個子資料夾都應只包含單一類別的影像。以此方式上傳文件時,系統會自動建立對應於各子資料夾的類別,並將這些子資料夾中的文件分類為該類別。因此,您就不需要在 Activity Editor 中手動建立類別。

步驟 2:建立類別

在工具列中按一下 Create Class,或在 Assign class 窗格中按一下 Create,以建立與要處理的各種文件類型相對應的類別。若您的文件是使用 Upload folder like classes 上傳的,請確保已建立所有所需的類別。

步驟 3:分類文件

使用下列任一方法來分類您的文件:
  • 在清單中選取屬於同一類別的所有文件,然後在 Assign class 窗格中按一下適當的類別名稱。
  • 若尚未建立適當的類別,請在清單中選取所有相應的文件,然後按一下工具列中的 Create ClassAssign class 窗格中的 Create 來建立類別。
  • 選取屬於同一類別的所有文件,並將它們拖曳到對應此類別的清單中。

其他選項

如有需要,您可以使用工具列上的 Rotate 下拉式選單來變更文件頁面的旋轉方向。您可以選擇下列其中一個選項:Rotate All Pages LeftRotate All Pages RightRotate All Pages 180º 若要切換檢視模式,請使用工具列中的下列按鈕:
  • 清單檢視。以清單方式顯示文件
  • 縮圖檢視。以縮圖方式顯示文件
若要在縮圖檢視中查看某份文件的完整影像,請使用預覽按鈕。

訓練分類器並檢視分類結果

文件完成分類後,使用 Train Activity 按鈕來訓練活動。訓練完成後,與分類結果相關的統計資料會顯示在 Results 索引標籤上。分析這些統計資料有助於識別有問題的類別,並評估分類器的整體品質。

一般統計資料

上方窗格顯示此活動中所有文件與類別的一般統計資料。這些統計可協助評估分類器的整體品質:
  • accuracy。預期類別與程式指派類別相符之文件所佔的百分比。
  • F-Measure。用於評估分類結果的精確度與完整性。
  • Recall。被正確分類為某一特定類別的文件數量,與該類別所有文件數量之比值。
  • Precision。被正確分類為某一特定類別的文件數量,與所有被分類為該類別(包含正確與錯誤)的文件數量之比值。

類別統計資料

在「Classes」窗格中,您可以檢視每個類別的統計資料。對於每個類別,會顯示其預期類別與程式指派之類別相符的文件所佔百分比,以及類別指派正確與錯誤的文件數量。若要檢視類別指派錯誤的文件,請在「Classes」窗格中選取相應的類別,並展開以紅色顯示的錯誤指派文件清單。分析這些文件應能協助您了解,為何程式會將某個特定文件指派為與預期類別不同的類別。這種情況往往發生在一開始就將預期類別指派錯誤時,例如不同類別的文件過於相似時。

修正分類錯誤

錯誤的預期類別

分類錯誤的一個可能原因是預期類別設定不正確。若要修正此類錯誤,只需將正確的預期類別指派給文件。在 Results 分頁上,選取錯誤指派給某個文件的類別。展開具有錯誤指派類別的文件清單,選取該類別的所有文件,然後在 Assign class 窗格中的清單裡,將正確的預期類別指派給它們。

不同類別中的相似文件

造成分類錯誤的另一個可能原因,是將非常相似的文件劃分到不同的類別中。如果分類器會混淆兩個相似文件變體所屬的類別,很可能這些變體需要合併到同一個類別中,並共用單一的擷取活動。在這種情況下,請檢查類別的數量,並將被混淆的類別合併為一個。它們之間的差異接著應該在 Extraction Rules 活動中,透過規則加以描述。

訓練資料不足

分類錯誤的另一個可能原因是類別集合中的文件數量不足。在這種情況下,您可以透過在集合中新增更多文件來提升分類器的品質。 在新增文件或變更類別之後,您需要重新訓練分類器。