Advanced Designerで文書からデータを抽出する

Advanced Designerで文書からデータを抽出するには、Document skill を作成します。使用するアクティビティは文書の構造によって異なります。Vantageでは、文書は大きく4つのカテゴリに分けられます。

文書タイプ

構造化文書 (固定フォームとも呼ばれます) は、常に同じfieldが同じレイアウト、またはごく少数のレイアウトで配置されています。例：フォーム、質問票、アンケート。

半構造化文書には、ドキュメント間で類似した情報が含まれますが、field の位置・サイズ・数は異なります。Vantage は、要素間の空間的・論理的な関係を利用してデータを特定します。例: 請求書、支払指図書、船荷証券。

非構造化文書とは、段落や文から成る自由形式のテキストで、必要なfieldが複数のページにまたがることがあります。例: 契約書、メール、研究論文。

混在ドキュメントセット には、異なる種類のドキュメントが含まれます。たとえば、半構造化ドキュメントと非構造化ドキュメントが混在している場合や、1つのドキュメント内で両者が混在している場合 (プレーンテキストの段落とテーブルが交互に現れる場合など) です。

文書タイプを特定したら、該当するシナリオに進んでください。

固定または限られたレイアウトのフォーム向けのSkillを作成します。

請求書、船荷証券など、レイアウトが変動する文書向けのSkillを作成します。

契約書、メール、その他の自由形式テキスト向けのSkillを作成します。

複数の構造タイプが混在する文書セットを処理します。

⌘I