跳轉到主要內容
在訓練分類器的過程中,系統會收集與分類結果相關的統計資訊。透過分析這些統計資料,可以了解如何提升分類器的品質。 分類統計資料可以在 Classification Skill Designer 的 Result 分頁中找到,且每次分類器重新訓練後都會自動更新。 Classification Skill 分析分頁 此分頁包含以下資訊:
  • 整體分類準確率:在此資料集中,相對於資料集中所有文件數量,被正確分類的文件所佔的百分比。
  • 各類別的分類準確率:對於每個特定類別,被正確分類的文件所佔的百分比。
  • 每個類別中正確分類與錯誤分類的文件數量。
  • 分類器上次訓練的日期與時間。
結果表格包含所有非空的使用者類別(不含「No class」)。表格中的類別會依序依下列規則排序:先依分類器準確率(由低到高)、再依類別中的文件數量、最後依名稱的字母順序排序。如果表格中的所有列無法同時顯示在螢幕上,會顯示捲動條。 在結果表中按一下某一列,會導向 文件 分頁中對應的類別。在 文件 分頁中修改類別名稱,也會同步更新 Result 分頁中的名稱。如果在訓練對應的分類器之後刪除了某個類別,其名稱會在 Result 分頁中以灰色顯示。只有在分類器再次訓練後,包含該類別的那一列才會從結果表中移除。

分類錯誤

大多數分類不正確的情況,都是在建立訓練集時所犯的錯誤所造成的(例如,參考類別指派不正確,或文件集中某些特定頁面的數量不足)。

指派錯誤的參考類別

若要修正此類錯誤,請將該訓練集中的文件指派到正確類別,並依照下列步驟重新訓練分類器:
  1. Actions 窗格中按一下 Review Prediction in Document Set,前往 Documents 分頁。或者,在結果表中按一下具有適當類別的那一列。
  2. 選取一份被指派到錯誤參考類別的文件。
  3. Actions 窗格中按一下正確類別的名稱。
  4. 對每一份被指派到錯誤參考類別的文件重複步驟 2 與 3。
  5. Actions 窗格中按一下 Train 按鈕。

文件集中的頁面數量不足

分類器品質不佳可能由以下原因造成:
  • 上傳的文件數量不足
  • 各類別之間的文件分佈嚴重不均衡
  • 在給定類別中,最常見文件變體的樣本數量不足
在這種情況下,可以透過將缺失的文件新增到訓練集中來提升分類器品質。我們建議為每個類別上傳 100 到 1000 份文件。同時也建議在您的文件集中,為每個類別中最常見的文件變體提供樣本文件,並大致維持一對一的比例。 在您將新文件新增到訓練集之後,請為每份文件指派一個類別,然後重新訓練分類器。

易混淆的類別

分類錯誤也可能是由於各類別在其 Parameter 方面沒有明顯差異所造成。在這種情況下,您應檢查類別的數量,並在必要時將這些易混淆的類別合併為單一類別。 例如,一個用於金額少於 10,000 USD 的發票類別,以及一個用於金額超過 10,000 USD 的發票類別,如果它們之間唯一顯著的差異是應付總計金額,則可能會被混淆。 在這種情況下,必須將這些類別在 Classification skill 中合併為單一類別,並且只在後續階段(例如,當應付總計金額已從發票中抽取出來時)在需要時再將發票彼此區分開來。

另請參閱