管理者によるfield 抽出の学習

field 抽出の学習は、オペレーターが作業を開始する前にプロジェクトを学習させる必要がある場合、管理者が実施できます。自動学習だけでは不十分な場合にも、管理者による学習が必要になることがあります。

標準的なシナリオ

標準的なシナリオでは、次の手順を実行します。

Document Definition を作成します。
Document Definition のセクションプロパティで、[Allow field location training] を選択します。
セクション内に必要なfieldを作成します。各fieldのプロパティで [Can have region] を選択します。
Document Definition を保存して公開します。
Field Extraction Training Batches モードに切り替え、新しいバッチを作成します。
作成した Document Definition を選択します。
候補の一覧から Default 候補を選択します。
文書画像をロードして認識します。文書の種類ごとに 3 ～ 50 枚の画像をロードすることを推奨します。
fieldの位置を調整します。
文書に次の状態を設定します。

文書の一部を選択し、選択範囲を右クリックして、ショートカットメニューで [Set Document State →] [For training] をクリックします。
残りの文書を選択し、選択範囲を右クリックして、ショートカットメニューで [Set Document State →] [For testing] をクリックします。注: 学習用バッチ内の文書の 60% を学習用に、残りの 40% をテスト用に使用することを推奨します。

fieldを抽出できるようにプログラムを学習させます。

(Standalone) [Fields Training →] (Standalone) [Train] をクリックします。
- (Distributed) [Fields Training →] (Distributed) [Train] をクリックすると、Project Setup Station コンポーネントがインストールされている同じマシンで学習が開始されます。
- 学習を Processing Station で実行する場合は、(Distributed) バッチを右クリックし、ショートカットメニューで (Distributed) [Send for Training] を選択します。

複数の文書候補があるプロジェクト

field の位置が可変の文書では、候補を作成し、それらを識別するための分類器を学習させる必要があります。field の位置が可変の文書と候補の詳細については、同じ型に属する文書で field の位置が可変な場合を参照してください。次の手順を実行します。

Document Definition を作成します。
Document Definition のセクションプロパティで、Allow field location training を選択します。
セクションに必要な field を作成します。各 field のプロパティで Can have region を選択します。
次の 3 つの方法のいずれかでセクション候補を追加します。
- 手動で候補を作成します。これを行うには、セクションプロパティの Data Sets タブをクリックし、View… ボタンをクリックします。次に、Add… ボタンをクリックして候補を追加します。
- データベースから候補をロードします。これを行うには、セクションプロパティの Data Sets タブをクリックし、Set Up… ボタンをクリックします。ドロップダウンリストから、データソースとして Database を選択します。
- スクリプトを使用して候補を作成します。これを行うには、セクションプロパティの Data Sets をクリックし、Set Up… ボタンをクリックします。ドロップダウンリストから、データソースとして Script を選択します。
Document Definition を保存して公開します。
新しく作成した候補を使って分類器を学習させます。
- Open Classifier Training Batches モードに切り替え、新しいバッチに文書画像をロードします。
- 候補を個別のクラスとして使用し、各文書に参照クラスを割り当てます。
  - Set Class… → Add… → Add… をクリックします
  - Specify 候補 を選択します。
  - リストから候補を選択します。
- Classification Training → Train をクリックして分類器を学習させます。

注: FlexiLayout Studio で分類器を作成してから、ABBYY FlexiCapture にインポートできます。詳細については、分類器のエクスポートとインポートを参照してください。

各候補の field region を検出できるように ABBYY FlexiCapture を学習させます。
- Field Extraction Training Batches モードに切り替えます。
- 新しいバッチを作成します。Document Definition を選択してから、学習対象の候補を選択します。
- 文書画像をロードして認識します。文書の種類ごとに 3 ～ 50 枚の画像をロードすることをお勧めします。
- field の位置を調整します。
- 文書に次の状態を設定します。
  - 文書の一部を選択し、選択範囲を右クリックして、ショートカットメニューの Set Document State → For training をクリックします。
  - 残りの文書を選択し、選択範囲を右クリックして、ショートカットメニューの Set Document State → For testing をクリックします。
- field を抽出できるようプログラムを学習させます。
  - (Standalone) Fields Training → (Standalone) Train をクリックします
  - (Distributed) Fields Training → (Distributed) Train をクリックすると、Project Setup Station コンポーネントがインストールされている同じマシンで学習が開始されます。
  - (Distributed) Processing Station で学習を実行する場合は、バッチを右クリックし、ショートカットメニューで (Distributed) Send for Training を選択します。

学習結果を扱う際には、文書にどの候補が割り当てられたかを確認し、必要に応じて編集しなければならない場合があります。フォームに候補の ID を表示するには、service field を作成します。詳細については、オペレーターが候補を変更できるようにするを参照してください。

field 抽出の自動学習を構成することをお勧めします。自動学習を構成すると、オペレーターが構成済みプロジェクトで作業するのに合わせて、プログラムが自動的に field の抽出を学習します。

(Distributed) 学習用バッチを学習のために Processing Station に送信する

(Distributed) 学習処理には長時間かかり、多くの計算リソースを消費することがあるため、管理者は Processing Station でバッチを学習させることができます。

(Distributed) 学習用バッチを Processing Station に送信する前に、次の点を確認してください。

(Distributed) 少なくとも 1 つの Processing Station が Processing Server に追加されていること。
(Distributed) プロジェクトがサーバーにアップロードされていること。

(Distributed) 学習用バッチを Processing Station に送信するには、バッチを右クリックし、ショートカットメニューで (Distributed) Send for Training を選択します。バッチを送信すると、Processing Server Monitor のタスクキューに学習タスクが表示されます。実際の学習は Processing Station で実行されます。複数の学習用バッチを Processing Station に送信して学習させることもできます。必要に応じて、管理者は Processing Server Monitor で学習タスクをキャンセルできます。学習のために送信された学習用バッチは、学習が完了するまでロックされるため、管理者はその間、それらの学習用バッチを変更できません。

​(Distributed) 学習用バッチを学習のために Processing Station に送信する

(Distributed) 学習用バッチを学習のために Processing Station に送信する