メインコンテンツへスキップ

分類器の改善に関するヒント

分類器の結果に満足できない場合は、次の点をお試しください。
  • 選択した分類プロファイルが適切かどうかを確認します。
  • 再現率と適合率のバランスを調整します。
  • 参照クラスが正しく割り当てられているかどうかを確認します。
  • サンプル文書の数を増やします。学習用バッチには、できるだけ多くの文書バリアントを含めてください。学習用バッチが大きく、多様であるほど、分類器は同じクラス内のより多くの文書バリアントを識別できるようになります。

Document Definition の信頼度

ドキュメントクラスにマッピングされた Document Definition のセクションは、一定の信頼度で対応するドキュメントセクションとマッチングされます。信頼度の低いセクションの名前は赤色で表示されます。一致時にセクションタイプを自動確認する オプションが有効になっており、選択したドキュメントクラスにマッピングされた Document Definition セクションが正常にマッチングされた場合、そのセクション名は赤色で強調表示されません。この場合、最初はクラスが低信頼度で判定されていても、Document Definition のマッチング時にそのクラスが確認されます。
一致時にセクションタイプを自動確認する オプションは、Document Definition セクションのプロパティにある General タブにあります。このオプションを選択すると手動検証を効率化できますが、特定の Document Definition 用に作成されたドキュメントにしかマッチングされないセクションに対してのみ選択してください。たとえば、識別子 を持つ fixed セクション用の fixed Document Definition や、必須要素を含む FlexiLayout セクションなどです。このようなマッチについては、オペレーターが手動で確認する必要はありません。どのドキュメントにもマッチング可能な Document Definitions には、このオプションを選択しないことをお勧めします。
Document Definition がページまたはドキュメントに低信頼度でマッチングされた場合は、次のいずれかを実行できます。
  • ページまたはドキュメントのショートカットメニューで Confirm Document Definition コマンドをクリックします。
  • 低信頼度のページを修正します (たとえば、セクションタイプを変更したり、ページを別のドキュメントに移動したりします) 。
  • ページまたはドキュメントに対して選択されている Document Definition を変更します。
オペレーターがすべてのエラーを修正し、低信頼度でマッチングされた Document Definition を持つセクションがなくなると、“low-confidence” エラーは自動的に削除されます。
エラーペインには、低信頼度の Document Definition を持つドキュメントについてアセンブリ エラーが報告されます。低信頼度の Document Definitions 以外にもエラーがあるドキュメントは、アセンブリ検証ステージに送られます。低信頼度の分類以外にエラーがないドキュメントは、検証ステージに送られます。

分類器の学習用バッチ内のエラーの検出

分類エラーの多くは、参照クラスの割り当てミス、または学習用バッチ内のサンプルページ不足が原因で発生します。こうしたエラーを検出するには、誤分類されたページに似たページをプログラムで検索できます。操作するには、誤分類されたページを右クリックし、ショートカットメニューで次の 3 つのコマンドのいずれかをクリックします (これらのコマンドは、上部の Classification Training メニューからも実行できます) 。
  • [類似ページを表示] は、選択したページの参照クラスや結果クラスに関係なく、バッチ全体から類似ページを検索します。
  • [参照クラスから類似ページを表示] は、選択したページの参照クラスと同じ参照クラスを持つ類似ページを検索します。
  • [結果クラスから類似ページを表示] は、選択したページの結果クラスと同じ参照クラスを持つ類似ページを検索します。
プログラムは、For Training、For Testing、Unused のどれに設定されているかにかかわらず、すべてのドキュメント内で類似ページを検索します。
類似ページは、類似度の高い順に表示されます。

実践例

混同行列で誤分類されたページを見つけ、そのページの参照クラスが ID、結果クラスが Invoice になっているとします。 混同行列内の該当するセルをクリックして、誤分類されたページを開きます。 ページを右クリックし、ショートカットメニューで 結果クラスから類似ページを表示 をクリックします (このコマンドは上部の Classification Training メニューからも実行できます) 。すると、分類器バッチ内で ID ページに類似しているものの、参照クラスとして Invoice が指定されているすべてのページが表示されます。ページは類似度の高い順に表示されます。 これで、ID ページが請求書として分類される原因となった、参照クラスが誤って割り当てられているページを特定できます。必要に応じて参照クラスを変更し、分類器を再学習します。 参照クラスから類似ページを表示 コマンドをクリックすると、そのページが固有のものかどうかを確認できます。たとえば、学習用バッチ内に、参照クラスとして ID が指定された類似の ID ページがあるかどうかを確認できます。類似の ID ページが見つからない場合は、その問題のあるページを学習用バッチに追加し、分類器を再学習します。 類似ページを表示 コマンドをクリックすると、参照クラスや結果クラスに関係なく、類似するすべてのページが表示されます。これにより、分類器バッチ内でそのパスポートページに類似しているものの、参照クラスとして ID 以外が指定されているすべてのページが表示されます。必要に応じて参照クラスを変更し、分類器を再学習します。