メインコンテンツへスキップドキュメントからデータを抽出するには、Document skill を作成します。
利用するシナリオやテクノロジー(アクティビティとして提供)は、処理対象のドキュメント構造に大きく左右されます。一般に、ドキュメントは次のタイプに分類できます。
構造化ドキュメント(固定フォームとも呼ばれます)は、常に同じ情報を含み、レイアウトが同一、もしくはごく限られた数のレイアウトしかありません。構造化ドキュメントの例としては、フォーム、質問票、アンケートなどが挙げられます。
半構造化ドキュメントには一般的に同じ情報が含まれますが、field の位置・サイズ・数はドキュメントごとに異なる場合があり、データ抽出を難しくします。Vantage は、特定の要素や field 間の空間的・論理的な関係に基づいて、必要なデータを特定して抽出します。半構造化ドキュメントの例としては、請求書、支払指図書、船荷証券などがあります。
ドキュメントセットが構造化または半構造化ドキュメントで構成されている場合は、構造化ドキュメントの処理および半構造化ドキュメントの処理の各セクションをご参照ください。
非構造化ドキュメントは、抽出が必要なデータを含む自由形式のテキストで構成され、段落や文に分割されています。非構造化ドキュメントによっては、field が次のページにまたがる場合があります。非構造化ドキュメントの例として、契約書、メール、研究論文などがあります。
ドキュメントセットが非構造化ドキュメントで構成されている場合は、非構造化ドキュメントの処理セクションをご参照ください。
ドキュメントセットに半構造化ドキュメントと非構造化ドキュメントの両方が含まれる場合、または1つのドキュメント内に半構造化コンテンツと非構造化コンテンツが混在する可能性がある場合(例:プレーンテキストの段落と表が交互に現れるなど)は、混在ドキュメントセットおよび混合構造のドキュメントを処理するセクションのシナリオをご参照ください。