メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

構造化文書はレイアウトが固定されており、どの文書でもフィールドが同じ位置に表示されます。代表的な例としては、アンケート、申請フォーム、確定申告書があります。構造化文書の中には、フィールド位置がわずかに異なる少数の候補を持つものもあります。詳細は、Advanced Designerで文書からデータを抽出するを参照してください。
IRS Form 1040(2020年)— 構造化文書の例

Skill を作成する場所

構造化文書向けの Skill は、Skill Designer と Advanced Designer のどちらでも作成できますが、編集できるのは Advanced Designer のみです。
  • Skill Designer (cloud) — Skill で 固定フォーム文書 トグルをオンにしてから、いくつかの空白フォームをアップロードし、ラベル付けします。構造化文書を処理するための Document Skill の設定を参照してください。作成された Skill には Forms アクティビティ が含まれ、後で Advanced Designer で開くと表示されます。
  • Advanced Designer (Windows desktop) — Forms アクティビティ を他の Vantage の activity と組み合わせる必要がある場合に使用します (以下のシナリオ) 。
Skill Designer で 固定フォーム文書 トグルを有効にしない場合、Skill の processing flow には Fast Learning アクティビティ しか含まれません。
Skill のフローに、Forms アクティビティ が他の activity とともに含まれている場合、または複数の Forms アクティビティ が含まれている場合、Skill のプロパティを変更できるのは Vantage 上のみで、学習やより詳細な編集は Advanced Designer で行う必要があります。

シナリオを選択

シナリオ使用する場合主なアクティビティ
非構造化要素を含むフォームフォームにバーコード、スタンプ、または可変長テーブルが含まれる場合Forms + Extraction Rules
フォームと非構造化文書が混在する場合同じデータがフォームまたはフリーフォームテキストとして届く場合Classify + IF + Forms + Fast Learning

非構造化要素を含むフォーム

構造化文書の中には、ページ上の任意の位置に配置されたバーコードやスタンプなどの非構造化要素を含むものや、固定レイアウトに加えて行数可変のテーブルを含むものがあります。こうした文書を処理するには、Forms アクティビティExtraction Rules アクティビティ を組み合わせて使用します。Forms は構造化された field を処理し、Extraction Rules は非構造化要素 (たとえばバーコード) を処理します。
1

Document skill を作成する

Advanced Designer を開き、スタート ページで Create Document Skill をクリックします。
2

Forms アクティビティ を追加して学習する

Activities タブで Forms アクティビティ を追加します。Activity EditorBlank Form タブで、候補ごとに空白フォームのサンプルを 1 つアップロードし (推奨は最大 10 候補まで) 、抽出したい field をラベル付けします。 ラベル付けガイドライン を参照してください。Train Activity をクリックします。
3

Forms アクティビティ をテストする

Test Set タブを開き、入力済みのテスト文書をアップロードして、field が正しくラベル付けされていることを確認し、Test Activity をクリックします。結果を確認します。
4

Extraction Rules アクティビティ を追加して設定する

Activities タブに戻り、Extraction Rules アクティビティ を追加して、Activity Editor で設定します。
5

テストして公開する

Test Skill Using Selected Documents をクリックします。結果に問題がなければ、Skill を公開 します。問題がある場合は、ラベル付けを調整し、再学習して、もう一度テストします。
テーブルと繰り返しグループ。 Forms アクティビティ でテーブルと繰り返しグループを抽出できるのは、最大行数またはインスタンス数が事前にわかっており、境界が固定されている場合に限られます。すべてのフォーム候補で出現する可能性のある行は、すべてラベル付けしてください。結果で返されるのは、データが入っている行だけです。現在、Forms のテーブルでサポートされているのはテキスト値のみです。チェックボックスやバーコードを含む列には、代わりに繰り返しグループを使用してください。行数が事前にわからない場合は、別の Vantage テクノロジーを使用してください。

混在するフォームと非構造化文書

ワークフローによっては、印刷されたフォームと自由形式の文書のどちらでも同じ情報を受け取ることがあります。たとえば、記入済みフォームとして返送される場合もあれば、非構造化の文章として返送される場合もあるアンケートです。Forms アクティビティFast Learning (または Extraction Rules) アクティビティと組み合わせ、Classify アクティビティと IF アクティビティを使って文書を適切な処理パスに振り分けます。
1

Document Skillを作成する

Advanced Designer を開き、スタート ページで Create Document Skill をクリックします。
2

Forms アクティビティ を追加して学習する

Activities タブで Forms アクティビティ を追加します。Activity EditorBlank Form タブで、空のフォームのサンプルをアップロードし、その field にラベル付けします。ラベル付けガイドライン を参照してください。Train Activity をクリックします。
3

Forms アクティビティ をテストする

Test Set タブを開き、入力済みのテスト文書をアップロードして field のラベル付けを確認し、Test Activity をクリックします。結果を確認します。
4

Fast Learning アクティビティ を追加して学習する

Activities タブで Fast Learning アクティビティ を追加し、Activity Editor で設定して学習します。
5

先頭に Classify アクティビティを追加する

フローの先頭に Classify アクティビティ (Classify By Company または Classify By Text and Image) を追加します。Activity Editor で、文書タイプごとに class を作成し、training documents に class を割り当てて、アクティビティを学習します。
6

IF アクティビティでフローを分岐する

IF アクティビティを追加し、その分岐を Forms アクティビティ と Fast Learning アクティビティ に接続して、各文書タイプが正しい抽出パスに振り分けられるようにします。
7

テストして公開する

Test Skill Using Selected Documents をクリックします。結果に問題がなければ、Skill を公開 します。問題がある場合は、ラベル付けを調整して再学習します。

Forms アクティビティ

固定レイアウトのドキュメントからフィールドを抽出します。

Extraction Rules アクティビティ

バーコードのような非構造化要素に対するルールベースの抽出を定義します。

Fast Learning アクティビティ

手動確認のフィードバックを使用して、自由形式ドキュメントでの抽出精度を向上させます。

Classify アクティビティ

抽出前に、ドキュメントの種類に応じてフローを分岐します。