NLPモデルの学習 - ABBYY Documentation

Document Definitionを公開したら、Document Definition ダイアログを閉じ、Field Extraction Training Batches セクションに移動して、新しいドキュメントバッチを作成します。

File をクリックし、New Batch を選択します。
開いたダイアログで、先ほど作成したDocument Definitionを選択し、次に field を設定したセクションを選択して OK をクリックします。
Look up Variant for Training Batch ウィンドウで、学習に使用する候補を選択します。
新しく作成した batch を選択し、NLP batch オプションを選択するか、Field extraction training > NLP batch をクリックします。

ABBYY FlexiCapture の Field Extraction Training Batches ビューのスクリーンショット。batch が選択され、その shortcut menu が開かれ、NLP batch オプションがチェックされています。

次に、NLP Modelの学習に使用するドキュメントをロードする必要があります。

作成した batch をダブルクリックして開きます。
File > Load Images…. をクリックします。
開いたダイアログで、Image Processing Settings… をクリックし、One document per file オプションを選択して OK をクリックします。
NLP Modelの学習に使用するドキュメントを選択します。
すべてのドキュメントのロードが完了したら、それらを選択して Recognition > Match Document Definition をクリックします。あるいは、選択範囲を右クリックして Match Document Definition をクリックします。続いて、適切なDocument Definitionを選択します。

学習済みNLP Modelの品質は、学習 batch 内のドキュメント数とそのマークアップの品質に左右されます。次の点に注意してください。

Document Definitionで定義されているすべての field は、training documents 内でマークアップされている必要があります。
各学習 batch には 100～500 件のドキュメントを含めることをお勧めします。この件数があれば、学習処理を遅くすることなく、プログラムがNLP Modelに最適な parameters を選択できます。

ドキュメントのロードが完了したら、NLP models が entities を検出する位置を把握できるよう、各ドキュメント上の field を手動でマークアップする必要があります。これを行うには、各ドキュメントについて次の手順を実行します。

ドキュメントをダブルクリックして開きます。
ドキュメントから情報を抽出する field を選択します。次に、ドキュメント上でその field の値を選択するか、その周囲に四角形を描きます。この手順を各 field について繰り返します。
ボタンをクリックして次のドキュメントに進みます。残りのすべてのドキュメントについて上記の手順を繰り返します。
変更を保存します。

すべてのドキュメントのマークアップが完了したら、Field Extraction Training Batches ビューに戻ります。batch を右クリックし、shortcut menu で Train をクリックします。学習が完了すると、model を使用できるようになります。学習結果は無効化することも削除することもできます。学習結果を無効化するには、training batch を右クリックし、shortcut menu で Disabled 項目を選択します。学習結果を削除するには、training batch を右クリックし、shortcut menu で Delete 項目を選択します。学習済みNLP Modelを別のプロジェクトで使用する必要がある場合は、その training batch と関連付けられたDocument Definitionをそのプロジェクトにインポートするだけです。