メインコンテンツへスキップ
Document skill は、単一のタイプの構造化ドキュメントおよび半構造化ドキュメントから field の値を抽出できます。同じタイプの Documents は、まったく同じ field セットとバリデーションルール、および同じ構造を持ちます。たとえば、請求書、契約書、出荷明細はそれぞれ異なるドキュメントタイプです。 構造化ドキュメントは、各ドキュメントインスタンスで field の位置が同一に配置されたフォームです。構造化ドキュメントの例には、アンケート、申請書、確定申告書などがあります。
Tip: 構造化ドキュメントの処理を他の Vantage のテクノロジーと組み合わせる必要がある場合は、Advanced Designer で構造化ドキュメント向けの Skill を作成および編集することもできます。
半構造化ドキュメントは特定の field セットを持ちますが、そのラベル付け、数、配置が同一タイプ内でもドキュメントごとに異なります。半構造化ドキュメントの典型例は各社が発行する請求書で、明細の数や書式が異なります。各請求書には請求書番号と合計金額が記載されていますが、これらの情報の正確な位置は請求書ごとに異なります。 Document skill の学習を開始するには、1 つのドキュメント上で field にラベルを付けます。Skill を学習させるにつれて、プログラムが field の位置を自動で提案し、ラベル付け作業を効率化します。
Note: 現在、単一のトランザクション内で Document skill が処理できるファイルは 1 件のみです。複数のファイルを処理する必要がある場合は、Process skill の Extract アクティビティを使用してください。

ドキュメントタイプのバリアント

同一タイプのドキュメントは、ほとんどの場合、同一のfield、バリデーションルール、構造を持ちます。単一のドキュメントタイプでも、たとえば発行年度によってバリアントがわずかに異なる場合があります。 単一タイプのドキュメントは、このドキュメントタイプの異なるバリアントで学習した1つの Document skill で処理できます。Vantage と Advanced Designer は、単一のドキュメントタイプ内で任意の数のバリアントに対応できます。
  • 数百のバリアントに対しては、Vantage の Online Learning で学習した Skill により、ほぼ完璧にデータを抽出できます。
  • 数千のバリアントに対しては、Deep Learning アクティビティで学習した Skill により、ドキュメントタイプの複雑さに応じて約80%〜90%の精度でデータを抽出できます。
  • ドキュメントタイプの重要なバリアントについては、Fast Learning および/または Extraction Rules アクティビティで学習した Skill により、複雑なドキュメントからも正確にデータを抽出できます。
  • 常に同じ種類の情報がまったく同じ位置にある構造化ドキュメントの場合は、最大で10個のバリアントまでを推奨します。固定フォームに多数のバリアントがある場合は、それらをすべて別のドキュメントタイプとして扱うことを推奨します。
Skill の学習およびテスト時の推奨事項は次のとおりです。
  • Skill を学習する際は、各バリアントにつき少なくとも2〜3件のドキュメントを含む代表的なドキュメントセットを使用してください。バリアントが多く、セットにすべてのバリアントのドキュメントが少なくとも1件ずつ含まれていない場合は、Deep Learning アクティビティを使用できます。これは画像パターン、ドキュメントの空間構造、field の内容、周辺のラベルを理解し、学習に未使用のバリアントも処理できます。
  • Skill をテストする際は、本番のドキュメントフローに近いドキュメント分布を使用してください。学習セット内で特定バリアントのドキュメントが占める割合は、実際のドキュメントフローでの出現頻度を反映している必要があります。これにより精度の見積りが妥当になります。そのために、本番のドキュメントフローからランダムサンプルを用いて Skill をテストします。
  • バリアントのサンプルは、1つでもないよりは良いです。