同一の Document skill で、同じ種類でありながら field の配置が大きく異なるドキュメントを処理する場合、field 抽出プロパティの指定が難しくなることがあります。たとえば、同じ Skill を使用して異なるベンダーの請求書を処理する場合、同じ field でもベンダーごとに配置が異なることがあります。このような Skill の抽出品質を高めるには、ドキュメントをクラス(単一のドキュメントタイプ内で共通特性を持つサブグループ)に分類し、各クラスに対して個別の抽出アクティビティを設定します。
ドキュメントをクラスに分類するのは、特定のクラスの抽出品質をさらに改善したい場合にも有効です。たとえば、同一の Skill で複数の銀行が発行した銀行取引明細書を処理するケースでは、ある明細書タイプだけ抽出品質が他より低いことがあります。その Skill の抽出品質を向上させるには、明細書をクラスに分類し、抽出品質が不十分なクラスに対して Extraction Rules アクティビティを設定します。
Classify By Text and Image アクティビティは、独自の抽出アクティビティの作成と設定が必要なクラスに、Skill のドキュメントを分類するために設計されています。
Classify By Text and Image アクティビティを作成・設定するには、次の手順に従います。
- ドキュメント処理フローで Classify By Text and Image アクティビティを作成します。
- 画像をアップロードし、クラスを作成して、想定するクラスをドキュメントに割り当てます。
- アクティビティをトレーニングし、トレーニング結果を分析します。
- 分類結果の精度を改善する必要がある場合は、プロパティを調整します。
ワークフローで Classify By Text and Image アクティビティを作成します。作成時に、分類結果を記録するための field が Skill 構造内に作成されます。この field の値がドキュメントの分類に使用されます。この field は Skill の field 構造内に表示されますが、非表示としてマークされ、編集はできません。
Classify By Text and Image アクティビティはクラスの信頼度を返しません。クラス名のみを返します。
Activity Editor に移動するには、Activity Editor をクリックするか、アクティビティ ブロックをダブルクリックします。
ステップ 1: Documents をアップロードする
ツールバーの Upload をクリックし、アップロード方法を選択して、アクティビティの設定に使用するドキュメントをアップロードします:
- Upload Documents… 表示されるダイアログボックスで適切なドキュメントを選択します。選択したドキュメントは No Class リストに表示されます。
- Upload Folder Like Classes… 表示されるダイアログボックスで、画像を含むサブフォルダーを持つフォルダーを選択します。各サブフォルダーには単一クラスの画像のみを含めてください。この方法でドキュメントをアップロードすると、サブフォルダーに対応するクラスが自動的に作成され、それぞれのサブフォルダー内のドキュメントはそのクラスとして自動分類されます。したがって、Activity Editor でクラスを手動で作成する必要はありません。
ツールバーのCreate Class、またはAssign classペインのCreateをクリックして、処理対象の各ドキュメントタイプに対応するクラスを作成します。ドキュメントを「Upload folder like classes」を使ってアップロードした場合は、必要なクラスがすべて作成済みであることを確認してください。
次のいずれかの方法で documents を分類します:
- 1 つのクラスに属するすべての documents をリストで選択し、Assign class ペインで該当するクラス名をクリックします。
- 該当するクラスがまだ作成されていない場合は、リストで該当する documents をすべて選択し、ツールバーの Create Class または Assign class ペインの Create をクリックしてクラスを作成します。
- 1 つのクラスに属するすべての documents を選択し、そのクラスに対応するリストへドラッグします。
必要に応じて、ツールバーの Rotate ドロップダウンメニューでドキュメントのページの向きを変更できます。次のいずれかを選択します: Rotate All Pages Left、Rotate All Pages Right、Rotate All Pages 180º。
表示モードを切り替えるには、ツールバーの次のボタンを使用します。
- リストビュー: documents をリストで表示します
- サムネイルビュー: documents をサムネイルで表示します
サムネイルビューで表示されているドキュメントの画像全体を表示するには、プレビューボタンを使用します。
ドキュメントの分類が完了したら、Train Activity ボタンでアクティビティを学習させます。学習が完了すると、分類結果に関する統計が Results タブに表示されます。これらの統計を分析することで、問題のあるクラスを特定し、分類器の総合的な品質を評価できます。
上部ペインには、アクティビティ内のすべてのドキュメントとクラスに関する一般統計が表示されます。これらの統計は、分類器の全体的な品質を評価するのに役立ちます。
- accuracy:期待されるクラスと、プログラムが割り当てたクラスが一致したドキュメントの割合。
- F-Measure:分類の適合率と再現率を総合的に評価する指標。
- Recall:特定のクラスに属するすべてのドキュメントのうち、正しくそのクラスに分類されたドキュメントの比率。
- Precision:特定のクラスとして分類されたすべてのドキュメント(正誤を含む)のうち、正しく分類されたドキュメントの比率。
Classes ペインでは、各クラスの統計を確認できます。各クラスについて、プログラムが割り当てたクラスと期待されるクラスが一致した Document の割合に加え、正しく割り当てられたクラスと誤って割り当てられたクラスの Document 数が表示されます。誤ってクラスが割り当てられた Document を表示するには、Classes ペインで該当クラスを選択し、誤割り当ての Document リスト(赤色表示)を展開します。これらの Document を分析することで、プログラムが特定の Document に期待されるクラスとは異なるクラスを割り当てた理由の把握に役立ちます。これは、そもそも期待されるクラスの設定が誤っていた場合、たとえば異なるクラスの Document が過度に類似している場合などによく発生します。
誤分類の原因として、想定クラスの誤った割り当てが考えられます。この種のエラーを修正するには、対象のドキュメントに正しい想定クラスを割り当ててください。Results タブで、誤ってドキュメントに割り当てられたクラスを選択します。誤割り当てのドキュメント一覧を展開し、そのクラスのすべてのドキュメントを選択して、Assign class ペインのリストから正しい想定クラスを割り当てます。
分類エラーのもう一つの原因として、非常によく似たドキュメントが別々のクラスに分けられていることが考えられます。分類器が類似した2つのドキュメントのバリアントでクラスを取り違える場合、それらは単一の抽出アクティビティを持つ1つのクラスにまとめる必要がある可能性が高いです。この場合、クラス数を見直し、混同されているクラスを1つに統合してください。違いは、Extraction Rules アクティビティでルールとして記述してください。
分類エラーのもう一つの原因として、クラスセット内のDocument数の不足が考えられます。この場合、セットにDocumentを追加することで分類器の精度を改善できます。
新しいDocumentを追加したりクラスを変更した後は、分類器を再学習する必要があります。