分類結果を解析する - ABBYY Documentation

分類スキルの学習後、Classification Skill Designer の Result タブを開くと、分類器が各クラスをどの程度正確に判定しているかを確認し、トレーニングセット内のエラーを特定できます。統計は、分類器を学習するたびに自動的に更新されます。精度が低い場合は、一般的な原因と対処方法について分類エラーを参照してください。

前提条件

少なくとも1回は分類器のトレーニングを実行した分類スキル。

Resultタブに表示される内容

全体の分類精度 — データセット全体において正しく分類されたドキュメントの割合。
クラスごとの精度 — 各クラスで正しく分類されたドキュメントの割合。
クラスごとのドキュメント数 — クラスごとに、正しく分類されたドキュメント数と誤って分類されたドキュメント数。
最終学習日時 — 直近の学習実行の日時。

結果テーブル

結果テーブルには、空でないすべてのユーザークラス (No class を除く) が表示されます。クラスは、まず精度 (低い順) 、次にドキュメント数、最後に名前のアルファベット順で並べ替えられます。すべての行が画面内に収まらない場合は、スクロールバーが表示されます。行をクリックすると、対応するクラスが Documents タブで開きます。Documents タブでクラス名を変更すると、Result タブの名前も自動的に更新されます。トレーニング後にクラスを削除すると、その名前は Result タブで灰色表示されます。行が削除されるのは、次回分類器をトレーニングしたときだけです。

反復を止めるタイミング

分類スキルには固定の精度しきい値はありません。適切な目標は、後続工程で誤分類された文書をどの程度許容できるか、またどこまで手動確認を許容できるかによって異なります。実践的な目安としては、全体精度だけでなくクラスごとの精度も高い水準を目指し、差が縮まり続けている間は下記の原因に対処しながら改善を重ね、各クラスが業務要件を満たすか、またはバランスを調整したクリーンな学習データを使っても明らかに頭打ちになった時点で止めます。あるクラスだけが他よりかなり低い水準で頭打ちになる場合は、そのクラスは判別不能とみなし、最も近いクラスに統合してください。 Skill を本番環境で運用し始めた後も、分析ダッシュボードで Document Classifier Accuracy を継続的に追跡し、継続的な改善のためにオンラインラーニングの利用を検討してください。

分類エラー

誤分類の大半は、トレーニングセット内の誤り (たとえば、参照クラスの誤った割り当てや、特定のクラスに対するドキュメント数の不足) に起因します。

参照クラスの誤割り当て

これを修正するには、該当するドキュメントを正しいクラスに再割り当てし、分類器を再学習します。

該当するクラスを Documents タブで開きます

Actions ペインで Review Prediction in Document Set をクリックするか、結果テーブル内の行をクリックします。

誤分類されたドキュメントを選択します

誤って参照クラスが割り当てられているドキュメントを選択します。

正しいクラスを割り当てます

Actions ペインで、正しいクラス名をクリックします。

該当するすべてのドキュメントで繰り返します

誤って参照クラスが割り当てられている各ドキュメントについて、前の 2 つの手順を繰り返します。

分類器を再学習します

Actions ペインで Train ボタンをクリックします。

学習データが不足している、または偏っている

分類器の品質が低下する原因として、次の点が考えられます。

アップロードしたドキュメント数が不足している
クラス間でドキュメントの分布に大きな偏りがある
該当クラスで最も一般的なドキュメントのバリアントのサンプル数が不足している

不足しているドキュメントをトレーニングセットに追加することで、分類器の品質を改善できます。各クラスにつき100〜1,000件のドキュメントを目安とし、さらに各クラスで最も一般的なドキュメントのバリアントについて、サンプルドキュメントをおおむね1対1の比率で含めてください。新しいドキュメントをトレーニングセットに追加したら、各ドキュメントにクラスを割り当て、分類器を再学習してください。

混同されるクラス

2 つのクラスが、形状、レイアウト、テキストに実質的な違いがないために繰り返し混同される場合は、1 つのクラスに統合してください。区別が依然として必要であれば、後続のパイプラインで抽出したfieldの値を使って文書を分けてください。

たとえば、

10,000 未満の請求書用クラスと

10,000 超の請求書用クラスは、違いが支払うべき合計金額だけなので、混同される可能性が高くなります。これらは 1 つの 請求書 クラスに統合し、合計金額の抽出後に後続工程で金額に基づいて分岐してください。

​前提条件

​Resultタブに表示される内容

​結果テーブル

​反復を止めるタイミング

​分類エラー

​参照クラスの誤割り当て

​学習データが不足している、または偏っている

​混同されるクラス

​関連トピック