メインコンテンツへスキップ
Document skill は、単一のタイプの構造化ドキュメントおよび半構造化ドキュメントから field の値を抽出できます。同じタイプの Documents は、まったく同じ field セットとバリデーションルール、および同じ構造を持ちます。たとえば、請求書、契約書、出荷明細はそれぞれ異なるドキュメントタイプです。 構造化ドキュメントは、各ドキュメントインスタンスで field の位置が同一に配置されたフォームです。構造化ドキュメントの例には、アンケート、申請書、確定申告書などがあります。 構造化ドキュメントの処理を他の Vantage のテクノロジーと組み合わせる必要がある場合は、Advanced Designer で構造化ドキュメント向けの Skill を作成および編集することもできます。 半構造化ドキュメントは特定の field セットを持ちますが、そのラベル付け、数、配置が同一タイプ内でもドキュメントごとに異なります。半構造化ドキュメントの典型例は各社が発行する請求書で、明細の数や書式が異なります。各請求書には請求書番号と合計金額が記載されていますが、これらの情報の正確な位置は請求書ごとに異なります。 Document skill の学習を開始するには、1 つのドキュメント上で field にラベルを付けます。Skill を学習させるにつれて、プログラムが field の位置を自動で提案し、ラベル付け作業を効率化します。 現在、単一のトランザクション内で Document skill が処理できるファイルは 1 件のみです。複数のファイルを処理する必要がある場合は、Process skill の Extract アクティビティを使用してください。

ドキュメントタイプのバリアント

同一タイプのドキュメントは、ほとんどの場合、同じ field セット、バリデーションルール、および構造を持ちます。単一のドキュメントタイプ内のバリアントは、たとえばそのドキュメントが発行された年度などに応じて、わずかに異なる場合があります。 同一タイプのドキュメントは、このドキュメントタイプのさまざまなバリアントを使って学習させた 1 つの Document skill で処理できます。Vantage と Advanced Designer では、単一ドキュメントタイプ内の任意の数のバリアントを扱うことができます。
  • 何百ものバリアントがある場合、Vantage の Online Learning を使用して学習させた Skill により、ほぼ完璧にデータを抽出できます。
  • 何千ものバリアントがある場合、Deep Learning アクティビティを使用して学習させた Skill により、ドキュメントタイプの複雑さに応じて、約 80~90% の精度でデータを抽出できます。
  • ドキュメントタイプのうち最も重要なバリアントについては、Fast Learning や Extraction Rules アクティビティを使用して学習させた Skill により、複雑なドキュメントからも正確にデータを抽出できます。
  • いつもまったく同じ場所にまったく同じ種類の情報がある構造化ドキュメントについては、最大 10 個のバリアントまで使用することをお勧めします。固定フォームに多数のバリアントがある場合は、それらをすべて別個のドキュメントタイプとして扱うことを推奨します。
Skill をトレーニングおよびテストする際には、次のことをお勧めします。
  • Skill をトレーニングする際には、各バリアントにつき少なくとも 2~3 件のドキュメントを含む代表的なドキュメントセットを使用してください。バリアントが多数あり、セットにすべてのバリアントのドキュメントが少なくとも 1 件ずつ含まれていない場合は、Deep Learning アクティビティを使用できます。Deep Learning は、画像パターン、ドキュメントの空間構造、field の内容および周囲のラベルを理解し、トレーニングに使用していないバリアントも処理できます。
  • Skill をテストする際には、本番環境での実際のドキュメントフローに近い分布のドキュメントを使用してください。トレーニングセット内で特定のバリアントのドキュメントが占める割合は、そのバリアントが実際のドキュメントフローにおいて出現する頻度を反映している必要があります。これにより、精度の見積もりが妥当なものになります。そのためには、本番のドキュメントフローからランダムサンプリングしたドキュメントを使用して Skill をテストします。
  • あるバリアントについては、サンプルが 1 件でもあるほうが、まったくないよりは良好です。