Advanced Designerで構造化文書を処理する

構造化文書はレイアウトが固定されており、どの文書でもフィールドが同じ位置に表示されます。代表的な例としては、アンケート、申請フォーム、確定申告書があります。構造化文書の中には、フィールド位置がわずかに異なる少数の候補を持つものもあります。詳細は、Advanced Designerで文書からデータを抽出するを参照してください。

Skill を作成する場所

構造化文書向けの Skill は、Skill Designer と Advanced Designer のどちらでも作成できますが、編集できるのは Advanced Designer のみです。

Skill Designer (cloud) — Skill で 固定フォーム文書 トグルをオンにしてから、いくつかの空白フォームをアップロードし、ラベル付けします。構造化文書を処理するための Document Skill の設定を参照してください。作成された Skill には Forms アクティビティが含まれ、後で Advanced Designer で開くと表示されます。
Advanced Designer (Windows desktop) — Forms アクティビティを他の Vantage の activity と組み合わせる必要がある場合に使用します (以下のシナリオ) 。

Skill Designer で 固定フォーム文書 トグルを有効にしない場合、Skill の processing flow には Fast Learning アクティビティしか含まれません。

Skill のフローに、Forms アクティビティが他の activity とともに含まれている場合、または複数の Forms アクティビティが含まれている場合、Skill のプロパティを変更できるのは Vantage 上のみで、学習やより詳細な編集は Advanced Designer で行う必要があります。

シナリオを選択

シナリオ	使用する場合	主なアクティビティ
非構造化要素を含むフォーム	フォームにバーコード、スタンプ、または可変長テーブルが含まれる場合	Forms + Extraction Rules
フォームと非構造化文書が混在する場合	同じデータがフォームまたはフリーフォームテキストとして届く場合	Classify + IF + Forms + Fast Learning

非構造化要素を含むフォーム

構造化文書の中には、ページ上の任意の位置に配置されたバーコードやスタンプなどの非構造化要素を含むものや、固定レイアウトに加えて行数可変のテーブルを含むものがあります。こうした文書を処理するには、Forms アクティビティと Extraction Rules アクティビティを組み合わせて使用します。Forms は構造化された field を処理し、Extraction Rules は非構造化要素 (たとえばバーコード) を処理します。

Document skill を作成する

Advanced Designer を開き、スタートページで Create Document Skill をクリックします。

Forms アクティビティを追加して学習する

Activities タブで Forms アクティビティを追加します。Activity Editor の Blank Form タブで、候補ごとに空白フォームのサンプルを 1 つアップロードし (推奨は最大 10 候補まで) 、抽出したい field をラベル付けします。ラベル付けガイドラインを参照してください。Train Activity をクリックします。

Forms アクティビティをテストする

Test Set タブを開き、入力済みのテスト文書をアップロードして、field が正しくラベル付けされていることを確認し、Test Activity をクリックします。結果を確認します。

Extraction Rules アクティビティを追加して設定する

Activities タブに戻り、Extraction Rules アクティビティを追加して、Activity Editor で設定します。

テストして公開する

Test Skill Using Selected Documents をクリックします。結果に問題がなければ、Skill を公開します。問題がある場合は、ラベル付けを調整し、再学習して、もう一度テストします。

テーブルと繰り返しグループ。 Forms アクティビティでテーブルと繰り返しグループを抽出できるのは、最大行数またはインスタンス数が事前にわかっており、境界が固定されている場合に限られます。すべてのフォーム候補で出現する可能性のある行は、すべてラベル付けしてください。結果で返されるのは、データが入っている行だけです。現在、Forms のテーブルでサポートされているのはテキスト値のみです。チェックボックスやバーコードを含む列には、代わりに繰り返しグループを使用してください。行数が事前にわからない場合は、別の Vantage テクノロジーを使用してください。

混在するフォームと非構造化文書

ワークフローによっては、印刷されたフォームと自由形式の文書のどちらでも同じ情報を受け取ることがあります。たとえば、記入済みフォームとして返送される場合もあれば、非構造化の文章として返送される場合もあるアンケートです。Forms アクティビティを Fast Learning (または Extraction Rules) アクティビティと組み合わせ、Classify アクティビティと IF アクティビティを使って文書を適切な処理パスに振り分けます。

Document Skillを作成する

Advanced Designer を開き、スタートページで Create Document Skill をクリックします。

Forms アクティビティを追加して学習する

Activities タブで Forms アクティビティを追加します。Activity Editor の Blank Form タブで、空のフォームのサンプルをアップロードし、その field にラベル付けします。ラベル付けガイドラインを参照してください。Train Activity をクリックします。

Forms アクティビティをテストする

Test Set タブを開き、入力済みのテスト文書をアップロードして field のラベル付けを確認し、Test Activity をクリックします。結果を確認します。

Fast Learning アクティビティを追加して学習する

Activities タブで Fast Learning アクティビティを追加し、Activity Editor で設定して学習します。

先頭に Classify アクティビティを追加する

フローの先頭に Classify アクティビティ (Classify By Company または Classify By Text and Image) を追加します。Activity Editor で、文書タイプごとに class を作成し、training documents に class を割り当てて、アクティビティを学習します。

IF アクティビティでフローを分岐する

IF アクティビティを追加し、その分岐を Forms アクティビティと Fast Learning アクティビティに接続して、各文書タイプが正しい抽出パスに振り分けられるようにします。

テストして公開する

Test Skill Using Selected Documents をクリックします。結果に問題がなければ、Skill を公開します。問題がある場合は、ラベル付けを調整して再学習します。

​Skill を作成する場所

​シナリオを選択

​非構造化要素を含むフォーム

​混在するフォームと非構造化文書

​関連アクティビティ

Skill を作成する場所

シナリオを選択

非構造化要素を含むフォーム

混在するフォームと非構造化文書

関連アクティビティ