メインコンテンツへスキップ
field 抽出の学習は、オペレーターが作業を開始する前にプロジェクトを学習させる必要がある場合、管理者が実施できます。自動学習だけでは不十分な場合にも、管理者による学習が必要になることがあります。
標準的なシナリオでは、次の手順を実行します。
  1. Document Definition を作成します。
  2. Document Definition のセクションプロパティで、[Allow field location training] を選択します。
  3. セクション内に必要なfieldを作成します。各fieldのプロパティで [Can have region] を選択します。
  4. Document Definition を保存して公開します。
  5. Field Extraction Training Batches モードに切り替え、新しいバッチを作成します。
  6. 作成した Document Definition を選択します。
  7. 候補の一覧から Default 候補を選択します。
  8. 文書画像をロードして認識します。文書の種類ごとに 3 ~ 50 枚の画像をロードすることを推奨します。
  9. fieldの位置を調整します。
  10. 文書に次の状態を設定します。
  • 文書の一部を選択し、選択範囲を右クリックして、ショートカットメニューで [Set Document State →] [For training] をクリックします。
  • 残りの文書を選択し、選択範囲を右クリックして、ショートカットメニューで [Set Document State →] [For testing] をクリックします。 注: 学習用バッチ内の文書の 60% を学習用に、残りの 40% をテスト用に使用することを推奨します。
  1. fieldを抽出できるようにプログラムを学習させます。
  • (Standalone) [Fields Training →] (Standalone) [Train] をクリックします。
    • (Distributed) [Fields Training →] (Distributed) [Train] をクリックすると、Project Setup Station コンポーネントがインストールされている同じマシンで学習が開始されます。
    • 学習を Processing Station で実行する場合は、(Distributed) バッチを右クリックし、ショートカットメニューで (Distributed) [Send for Training] を選択します。
field の位置が可変の文書では、候補を作成し、それらを識別するための分類器を学習させる必要があります。field の位置が可変の文書と候補の詳細については、同じ型に属する文書で field の位置が可変な場合を参照してください。次の手順を実行します。
  1. Document Definition を作成します。
  2. Document Definition のセクションプロパティで、Allow field location training を選択します。
  3. セクションに必要な field を作成します。各 field のプロパティで Can have region を選択します。
  4. 次の 3 つの方法のいずれかでセクション候補を追加します。
    • 手動で候補を作成します。これを行うには、セクションプロパティの Data Sets タブをクリックし、View… ボタンをクリックします。次に、Add… ボタンをクリックして候補を追加します。
    • データベースから候補をロードします。これを行うには、セクションプロパティの Data Sets タブをクリックし、Set Up… ボタンをクリックします。ドロップダウンリストから、データソースとして Database を選択します。
    • スクリプトを使用して候補を作成します。これを行うには、セクションプロパティの Data Sets をクリックし、Set Up… ボタンをクリックします。ドロップダウンリストから、データソースとして Script を選択します。
  5. Document Definition を保存して公開します。
  6. 新しく作成した候補を使って分類器を学習させます。
    • Open Classifier Training Batches モードに切り替え、新しいバッチに文書画像をロードします。
    • 候補を個別のクラスとして使用し、各文書に参照クラスを割り当てます。
      • Set Class… → Add… → Add… をクリックします
      • Specify 候補 を選択します。
      • リストから候補を選択します。
    • Classification Training → Train をクリックして分類器を学習させます。
注: FlexiLayout Studio で分類器を作成してから、ABBYY FlexiCapture にインポートできます。詳細については、分類器のエクスポートとインポートを参照してください。
  1. 各候補の field region を検出できるように ABBYY FlexiCapture を学習させます。
    • Field Extraction Training Batches モードに切り替えます。
    • 新しいバッチを作成します。Document Definition を選択してから、学習対象の候補を選択します。
    • 文書画像をロードして認識します。文書の種類ごとに 3 ~ 50 枚の画像をロードすることをお勧めします。
    • field の位置を調整します。
    • 文書に次の状態を設定します。
      • 文書の一部を選択し、選択範囲を右クリックして、ショートカットメニューの Set Document State → For training をクリックします。
      • 残りの文書を選択し、選択範囲を右クリックして、ショートカットメニューの Set Document State → For testing をクリックします。
    • field を抽出できるようプログラムを学習させます。
      • (Standalone) Fields Training → (Standalone) Train をクリックします
      • (Distributed) Fields Training → (Distributed) Train をクリックすると、Project Setup Station コンポーネントがインストールされている同じマシンで学習が開始されます。
      • (Distributed) Processing Station で学習を実行する場合は、バッチを右クリックし、ショートカットメニューで (Distributed) Send for Training を選択します。
学習結果を扱う際には、文書にどの候補が割り当てられたかを確認し、必要に応じて編集しなければならない場合があります。フォームに候補の ID を表示するには、service field を作成します。詳細については、オペレーターが候補を変更できるようにするを参照してください。
field 抽出の自動学習を構成することをお勧めします。自動学習を構成すると、オペレーターが構成済みプロジェクトで作業するのに合わせて、プログラムが自動的に field の抽出を学習します。

(Distributed) 学習用バッチを学習のために Processing Station に送信する

(Distributed) 学習処理には長時間かかり、多くの計算リソースを消費することがあるため、管理者は Processing Station でバッチを学習させることができます。
(Distributed) 学習用バッチを Processing Station に送信する前に、次の点を確認してください。
  • (Distributed) 少なくとも 1 つの Processing Station が Processing Server に追加されていること。
  • (Distributed) プロジェクトがサーバーにアップロードされていること。
(Distributed) 学習用バッチを Processing Station に送信するには、バッチを右クリックし、ショートカットメニューで (Distributed) Send for Training を選択します。バッチを送信すると、Processing Server Monitor のタスクキューに学習タスクが表示されます。実際の学習は Processing Station で実行されます。複数の学習用バッチを Processing Station に送信して学習させることもできます。必要に応じて、管理者は Processing Server Monitor で学習タスクをキャンセルできます。学習のために送信された学習用バッチは、学習が完了するまでロックされるため、管理者はその間、それらの学習用バッチを変更できません。