フィールド抽出の自動学習の設定

自動学習を有効にすると、文書処理中にオペレーターが行った判断をシステムが学習し、文書内のfield検出の精度向上に役立てることができます。システムが文書内でfieldを見つけられない場合、オペレーターが介入して、そのfieldの正しい位置を指定できます。認識および修正された文書が正常にエクスポートされると、システムはオペレーターによる修正内容を学習用の入力として使用します。

自動学習の設定

自動学習を設定するには、次の手順を実行します。

Document Definition を作成します。
Document Definition のセクションのプロパティで、Allow field location training を選択します。
セクションに必要な field を作成します。各 field のプロパティで Can have region を選択します。
Document Definition を保存して公開します。
バッチタイプのプロパティダイアログで Workflow をクリックし、学習ステージを有効にします。

同じ型の文書でも、文書ごとに見た目が大きく異なる場合に自動学習を設定するには、個々の field layout ごとに候補を作成し、それらの候補を識別する分類器を学習します。候補の詳細については、同じタイプに属する文書上の可変 field の位置を参照してください。

候補を設定するために必要な追加手順

自動学習でシステムが候補を使用できるようにするには、次の手順を実行します。

次の 3 つの方法のいずれかを使用して、セクション候補を追加します。

候補を手動で作成します。これを行うには、セクションのプロパティで Data Sets タブをクリックし、View… ボタンをクリックします。次に、Add… ボタンをクリックして候補を追加します。
- データベースから候補をロードします。これを行うには、セクションのプロパティで Data Sets タブをクリックし、Set Up… ボタンをクリックします。ドロップダウンリストから、データソースとして Database を選択します。
- スクリプトを使用して候補を作成します。これを行うには、セクションのプロパティで Data Sets をクリックし、Set Up… ボタンをクリックします。ドロップダウンリストから、データソースとして Script を選択します。

Document Definition を保存して公開します。
新しく作成した候補で分類器を学習します。

Open Classifier Training Batches モードに切り替え、新しい batch に文書画像をロードします。
- 候補を別々の class として使用し、各文書に参照クラスを割り当てます。
  - Set Class… → Add… → Add… をクリックします
  - Specify variant を選択します。
  - リストから候補を選択します。
- (Project → Classification Training → Train) をクリックして分類器を学習します。

学習結果を扱う際には、どの候補が文書に割り当てられたかを確認し、必要に応じて編集しなければならない場合があります。フォームに候補の ID を表示するには、service field を作成します。詳細については、オペレーターが候補を変更できるようにするを参照してください。

オペレーターが作業を開始する前にプロジェクトを学習する必要がある場合は、フィールド抽出の学習を管理者が行うこともできます。

管理者が Document Definition を設定すると、システムは Verification Station で行われたオペレーターの修正内容から自動的に学習します。

自動学習の手順

オペレーターが field の位置を確認して修正した文書は、学習用バッチに格納されます。これらの文書は、現在の学習済み FlexiLayout のバージョンと照合されます。すべての field が正しく検出された場合、FlexiLayout を再学習する必要はありません。

FlexiLayout が field を正しく検出していても、オペレーターがそれらを変更しなければならないことがあります。これは、文書が古いバージョンの FlexiLayout、または未学習の FlexiLayout を使用して処理されたためです。文書が検証待ちの間に、システムが別の文書を使って FlexiLayout を学習した可能性があります。その結果、対象の文書は現在では正しく処理されます。この場合、文書は For testing ステータスのまま学習用バッチに保持されます。これらは、今後の FlexiLayout のバージョンで性能が低下するのを防ぐための回帰テストに使用されます。

学習済みの FlexiLayout が適用され、一部の field region が一致しない場合、その文書は FlexiLayout の新しいバージョンの学習に使用されます。これらには For training ステータスが割り当てられます。学習の結果、新しいバージョンの FlexiLayout が作成されます。新しいバージョンを以前のバージョンと比較するために、For training ステータスと For testing ステータスを持つ学習用バッチ内の文書に対して両方が適用されます。システムは、検出された field region がユーザーによって確認された layout とどの程度一致するかを確認します。一致度が最も高い FlexiLayout が以後の文書処理に使用され、劣るバージョンは削除されます。

​自動学習の設定

自動学習の設定