追加学習は、Document DefinitionsにロードされたNLPモデルでは使用できません。
- 検証ステージの後に学習ステージを追加します。学習は、学習バッチに対して指定された条件が満たされたときに開始されます。ワークフローステージの設定の詳細については、Workflow setupを参照してください。
- 文書を手動で学習ステージに送信します。これを行うには、作業バッチ内の文書を右クリックし、ショートカットメニューでTrainを選択します。
- 学習が開始されると、ABBYY FlexiCaptureは学習バッチの一覧に汎用の学習バッチを自動的に作成します (まだ存在しない場合) 。特定のDocument Definitionに関連するすべての文書が、バリアントに関係なくこのバッチにコピーされます。
- 各文書には、For trainingまたはFor testingのいずれかのステータスが割り当てられます。
- For trainingとマークされた文書に対して学習が実行されます。その結果、新しいNLPモデルが作成されます。
- 次に、学習中に作成された新しいモデルが、For testingとマークされた文書を使用してテストされます。
- 新しいモデルの全体的な性能が既存のモデル以上であれば、既存のモデルは新しいモデルに置き換えられます。そうでない場合、新しいモデルは却下されます。
- Project Setup Stationで、NLPモデルを含むプロジェクトを開きます。NLPモデルの設定の詳細については、Creating NLP modelsを参照してください。
- Fields Training > Open フィールド抽出 Training Batchesを選択して、フィールド抽出 Training Batchesを開きます。別の方法として、Ctrl + Alt + B のキーの組み合わせを使用するか、ショートカットメニューでフィールド抽出 Training Batches
を選択することもできます。 - File > New Batchを選択して、新しいバッチを作成します。別の方法として、Ctrl + N のキーの組み合わせを使用することもできます。適切なDocument Definitionとバリアントを選択し、ショートカットメニューで NLP Batch オプションを選択します。
- 文書を追加し、認識を実行してセクションの順序を編集した後、ショートカットメニューでTrainを選択して学習を開始します。別の方法として、Ctrl + F7 のキーの組み合わせを使用するか、ツールバーの Train Batch
ボタンをクリックすることもできます。
- Document Definitionで定義されているすべてのfieldを、学習文書内でマークアップする必要があります。
- 各学習バッチには100〜500件の文書を含めることをお勧めします。この件数があれば、学習プロセスを遅くすることなく、プログラムがNLPモデルに最適なパラメーターを選択できます。
- 既存の学習バッチがあるバリアントについては、その特定のバッチ用に作成されたNLPモデルが使用されます。
- その他すべてのバリアントについては、汎用学習バッチ用に作成されたNLPモデルが使用されます。
- 各学習バッチ内の最大ドキュメント数 最大ドキュメント数に達すると、学習バッチに新たに追加されたドキュメントは古いドキュメントと入れ替えられます。
- 置き換えられるドキュメントの最大割合 1 回の学習セッション中に、新しいドキュメントと置き換え可能な古いドキュメントの割合を示します。学習ステージに送信されてもバッチに含まれなかったドキュメントは、新しい NLP モデルの学習には使用されません。
- バッチに __ 件を超える新規ドキュメント、または __ % を超える新規ドキュメントが含まれている場合に学習を開始 次のいずれか 1 つ以上の条件を満たすと、学習が開始されます。学習バッチに追加された新規ドキュメント数が指定値を超えている場合、またはバッチ内の総ドキュメント数に対する新規ドキュメントの割合が指定値以上である場合です。それ以外の場合、学習は開始されず、学習を開始するのに十分な新規ドキュメントがないことを示すエントリが バックグラウンドタスクログ に追加されます。
- 学習に使用するドキュメントの割合 [For testing] と [For training] としてマークされたドキュメントの割合を指定します。たとえば、[For training] ドキュメントの割合を 70% に制限すると、残りの 30% は [For testing] としてマークされます。
- 学習バッチ設定に関する情報。
- 新旧両方の NLP モデルに関する情報。
- 学習時間。
- NLP モデルの学習に使用された NLP コンポーネントのバージョン。
- ドキュメントおよびfieldの学習統計。
- エクスポートされたデータの新しさに関する情報。 isActual パラメーターが false の場合、学習と新しい NLP モデルの作成後にバッチが変更されています。ドキュメントが追加または削除されたり、ドキュメントのマークアップが変更されたりしている可能性があります。最新の統計を取得するには、学習を再度実行する必要があります。
