メインコンテンツへスキップDocument skill を作成したら、次の手順に従って Skill をセットアップします。
-
分類器の学習とテストに使用するドキュメントをアップロードします(各ファイルにはドキュメント画像を1枚だけ含めてください)。
ドキュメントをアップロードするには、Skill Designer の Documents タブに移動し、デザイナー中央、ツールバー、または Actions ペインにある Upload documents ボタンをクリックします。
ドキュメントのアップロード中は、Skill Designer の上部(ブックマークの右側)に進行状況インジケーターが表示されます。インジケーターのツールチップには、アップロードおよび処理がまだ必要なドキュメント数が表示されます。
ドキュメント名の左側にある icon をクリックすると、ドキュメントのプレビューウィンドウを開けます。このウィンドウの既定の幅はブラウザーウィンドウ幅の35%です。必要に応じて、プレビューウィンドウの左端をドラッグして、幅をブラウザーウィンドウ幅の最大80%まで広げられます。ユーザーが指定した幅は、ブラウザーのキャッシュをクリアするまで保持されます。
-
学習用ドキュメント内で、データを抽出する必要があるすべての field に対して、画像上の位置を指定してラベル付けします。必要に応じて、バリデーションルールや Skill の Parameter を追加できます。
学習用ドキュメントの field にラベルを付けるには、Skill Designer の Editor タブに移動します。タブ名をクリックするか、リストから1つ以上のドキュメントを選択して Actions ペインの Label Fields and Create Business Rules をクリックします。
-
Skill をトレーニングし、抽出精度を分析します。必要に応じてエラーを修正します。
Skill のトレーニングを開始するには、Actions ペインの Train ボタンをクリックします。トレーニングが完了すると、Train ボタンの横に Completed と表示されます。
Actions ペインの Train ボタンの下にある Cancel をクリックすると、Skill のトレーニングを停止できます。
-
結果に満足するまで、手順1〜3を繰り返します。
-
本番用の Skill を Skill Catalog に発行して、使用可能にします。
-
必要に応じて、Skill から派生 Skill を作成できます。これらの Skill は、ベースとなる Skill からすべてのルールと field を継承します。さらに、派生 Skill は、加えた変更を保持したまま、ベース Skill の最新バージョンへシームレスに更新できます。
構造化ドキュメントを処理するための Document skill の設定
ABBYY Vantage には、構造化ドキュメント(各ドキュメントのインスタンスで field の位置が同一のドキュメント)を処理するための機械学習モードがあります。質問票、申請書、税申告書などが該当します。このモードは、IRS の Form 1040 のように年度ごとに field のセットや位置が少しずつ異なる複数のバリアントを持つドキュメントにも対応可能です。各バリアントは別個の構造化ドキュメントとなるため、バリアントごとに空白フォームをアップロードする必要があります。
構造化ドキュメントを処理するための Skill を設定するには、次の手順に従います。
-
新しい Document skill を作成し、その Skill の Fixed-form documents トグルをオンにします。
-
ドキュメントの各バリアントについて、空白フォームのサンプルを 1 つずつアップロードします。これを行うには、Skill Designer の Blank Form タブに移動し、デザイナー中央、ツールバー、または Actions ペインにある Upload Blank Form ボタンをクリックします。空白フォームがない場合は、記入済みフォームをアップロードして空白フォームとしてマークできます。
Note: 1 つの Skill で 1 つのフォームに対して最大 10 種類のバリアントを処理できます(例:年度ごとに異なる IRS の Form 1040 のバリアント)。
- データを抽出する必要がある field にラベル付けをします。
- 背景が認識に影響し得る field については、field 設定で Eliminate field background オプションを有効にします。
- Actions ペインで Train をクリックします。
- Test Set タブをクリックして、記入済みのテストドキュメントをアップロードします。各ドキュメントで、すべての field に正しくラベルが付いていることを確認します。field の位置が、アップロード済みの空白フォームサンプルのいずれとも一致しない場合は、そのドキュメントのバリアント用に空白フォームサンプルを追加します。
- Actions ペインで Skill をテストします。処理が完了したら結果を確認します。結果に満足できない場合は、ラベル付けを調整して再度トレーニングします。
- Skill を公開して Skill Catalog で利用可能にします。
構造化ドキュメントを処理する Skill のために Skill Designer に表示されるタブ
ドキュメントを処理する過程で、それらは構造化ドキュメントというより半構造化ドキュメントとして扱うのが適切だと判明する場合があります。その場合は次の手順に従います。
- Skill Designer で、Skill 名の右側にある icon をクリックします。
- Fixed-form documents トグルをオフにします。
Note: ラベル付けされたすべての field は保持されます。
- Skill を再トレーニングします。
Advanced Designer で Skill を編集して Forms アクティビティを他のアクティビティと組み合わせた場合、Vantage では Fixed-form documents トグルが無効化され、Advanced Designer の外ではその Skill を編集できなくなります。
構造化ドキュメントを処理する際、テーブルまたはグループの境界が固定され、テーブル行数またはグループのインスタンス数の最大値が事前に分かっている場合、Vantage はテーブルおよび繰り返しグループを処理できます。フォームのすべてのバリエーションで発生し得る行には、漏れなくラベルを付ける必要があります。
注: 処理結果にはデータのある行のみが表示され、空行は無視されます。
グループ内の行数またはインスタンス数が事前に分からない場合は、別の Vantage テクノロジーを使用してください。Processing structured documents を参照してください。
Tip: 現在、Text 値のみのテーブルに対応しています。テーブルにチェックボックスやバーコードの列がある場合は、代わりに繰り返しグループを使用してください。
ドキュメントを処理する際、Vantage は指定した言語リストから処理言語を選択します。新しい Skill を設定する場合、既定で選択される言語は次の4つです:English、French、German、Spanish。
認識言語のリストは、Skill Designer で Skill 名の右側にある icon をクリックして変更できます。設定ダイアログに表示される言語はアルファベット順に並びます。選択した言語はリストの上部に表示されます。少なくとも1つの言語を選択する必要があります。
設定ダイアログを閉じるには、変更を保持する場合は Save、破棄する場合は Cancel をクリックします。
Note: 選択する言語の数はドキュメント処理速度に影響する可能性があります。Vantage が対象ドキュメントで使用される言語を確実に特定できている場合は、選択する言語をそれらに限定することを推奨します。
Skill がすでに学習済みでも、認識言語のリストは変更できます。変更を適用するには、ドキュメントを再アップロードし、Skill を再学習してください。
オンラインラーニングは、Document skill と 分類スキル で利用できます。Online Learning サービスは documents を学習用のトレーニングセットに収集し、収集した documents を使って Skill の学習を継続します。
Document Skill Settings では、次のオンラインラーニングモードを使用できます。
- Collect and learn。既定のオプションです。
- Collect only。Skill Designer で学習を行わずに documents を収集する場合。
学習を行わずに documents を収集するには、Skill Designer で Skill 名の右側にある icon をクリックし、設定ダイアログで Collect only モードを選択します。このモードでは、Skill の再学習前にトレーニングセットに追加された documents を確認できます。