メインコンテンツへスキップ分類器の学習中は、分類結果に関する統計が収集されます。これらの統計を分析することで、分類器の品質をどのように改善すべきかを把握できます。
分類統計は Classification Skill Designer のResultタブで確認でき、分類器を学習するたびに自動的に更新されます。
このタブには、次の情報が含まれます。
- 全体の分類精度:セット内のドキュメント総数に対する、正しく分類されたドキュメントの割合。
- クラスごとの分類精度:各クラスについて正しく分類されたドキュメントの割合。
- 各クラスにおける正しく分類されたドキュメント数と誤って分類されたドキュメント数。
- 分類器が最後に学習された日時。
結果テーブルには、空ではないユーザークラス(No class を除く)がすべて含まれます。テーブル内のクラスは、まず分類器の精度(低い順)、次にそのクラス内のドキュメント数、最後に名前のアルファベット順で並び替えられます。テーブルのすべての行が一度に画面へ表示しきれない場合は、スクロールバーが表示されます。
結果テーブルの行をクリックすると、Documentsタブの対応するクラスに移動します。Documentsタブでクラス名を変更すると、Resultタブにも反映されます。対応する分類器の学習後にクラスを削除した場合、Resultタブではそのクラス名がグレー表示になります。このクラスを含む行は、分類器を再学習したときにのみ結果テーブルから削除されます。
誤分類の大半は、学習用データセットの作成時に生じたミス(例:参照クラスの誤った割り当て、ドキュメントセット内の特定のページ数の不足)に起因します。
この種のエラーを修正するには、該当するトレーニングセットのドキュメントに正しいクラスを割り当て、次の手順で分類器を再学習します。
- Actions ペインで Review Prediction in Document Set をクリックして Documents タブに移動します。あるいは、結果テーブルで該当クラスの行をクリックします。
- 参照クラスが誤って割り当てられたドキュメントを選択します。
- Actions ペインで正しいクラス名をクリックします。
- 参照クラスが誤って割り当てられたすべてのドキュメントについて、手順 2 と 3 を繰り返します。
- Actions ペインで Train ボタンをクリックします。
分類器の品質が低下する原因として、次の点が考えられます。
- アップロードしたドキュメント数が不足している
- クラス間でドキュメントの分布に大きな偏りがある
- 該当クラスで最も一般的なドキュメントのバリアントのサンプル数が不足している
この場合、不足しているドキュメントを学習用セットに追加することで分類器の品質を改善できます。各クラスにつき100〜1000件のドキュメントをアップロードすることを推奨します。さらに、各クラスで最も一般的なドキュメントのバリアントについて、サンプルドキュメントをおおむね1対1の比率で含めることをおすすめします。
新しいドキュメントを学習用セットに追加したら、各ドキュメントにクラスを割り当て、分類器を再学習してください。
分類エラーは、パラメータの点で相互に大きな差がないクラスが存在することでも発生します。この場合は、クラス数を見直し、必要に応じて混同されやすいクラスを1つに統合してください。
たとえば、10,000 USD 未満の請求書用クラスと 10,000 USD 超の請求書用クラスは、唯一の重要な違いが合計金額である場合、混同される可能性があります。
この場合、これらのクラスは Classification Skill 用に単一のクラスへ統合し、必要であれば後段で請求書を分離するようにします(たとえば、請求書から合計金額がすでに抽出された時点など)。