メインコンテンツへスキップ
Document skill は、さまざまな種類のドキュメントから field の値を抽出するために使用します。構造化ドキュメント(税務申告書や申請書など)、半構造化ドキュメント(請求書、注文書、航空貨物運送状など)、非構造化ドキュメント(契約書、賃貸借契約、メールメッセージなど)が対象です。 Document skill は ABBYY Vantage または Advanced Designer で作成できます。レイアウトや field 構造が多様な非標準ドキュメント向けに複雑な Document skill を作成する必要がある場合は、後者の使用を推奨します。Advanced Designer では、Document skill 内で複数の技術を組み合わせたり、非構造化ドキュメントの処理に NLP を追加したり、ドキュメントの種類ごとに処理条件を設定したりできます(典型的なシナリオの概要は Use cases を参照してください)。

ドキュメントタイプのバリアント

同一タイプのドキュメントは、ほとんどの場合、field、バリデーションルール、構造が同一です。単一のドキュメントタイプのバリアントは、たとえばドキュメントの発行年度によって、わずかに異なる場合があります。 同一タイプのドキュメントは、このドキュメントタイプの異なるバリアントで学習された1つの Document skill で処理できます。Vantage と Advanced Designer は、1つのドキュメントタイプ内で任意の数のバリアントを扱うことができます。
  • 何百ものバリアントに対しては、Vantage の Online Learning で学習した Skill により、ほぼ完璧にデータを抽出できます。
  • 何千ものバリアントに対しては、Deep Learning アクティビティで学習した Skill により、ドキュメントタイプの複雑さに応じて約 80%~90% の精度でデータを抽出できます。
  • ドキュメントタイプの最も重要なバリアントに対しては、Fast Learning や Extraction Rules アクティビティで学習した Skill により、複雑なドキュメントからも正確にデータを抽出できます。
  • 常に同じ種類の情報がまったく同じ位置にある構造化ドキュメントの場合は、最大 10 のバリアントの使用を推奨します。定型フォームに多数のバリアントがある場合は、それらをすべて別個のドキュメントタイプとして扱うことを推奨します。詳細については、Processing structured documents を参照してください。

Document Skill のトレーニングとテスト

最良の抽出結果を得るために、3 つの異なる文書セットを用いて Document skill をトレーニングおよびテストすることを推奨します:
  • トレーニングセット
  • テストセット
  • ブラインドセット(上記 2 つのセットに含まれないサンプル文書を含む追加のテストセット)

トレーニングセットの要件

トレーニングセットとしては、各バリアントにつき少なくとも2~3件のサンプルドキュメントを含む代表的なドキュメントセットを使用してください。バリアントが多く、各バリアントのサンプルドキュメントが1件も含まれていない場合は、Deep Learning アクティビティの使用を検討してください。このアクティビティは、画像パターン、ドキュメントの構造、field の内容、および周囲のラベルを理解し、学習に使用していないバリアントも処理できます。 アクティビティごとのサンプルドキュメント数は、Document skill で使用するテクノロジーによって異なります。
  • Deep Learning activity for semi-structured documents:
    • 変動が大きいドキュメントの場合、少なくとも200~300件のサンプルドキュメント(バリアントごとに2~3件のサンプル)が必要です。一般的には、セット内に約1,000件のドキュメントを用意することを推奨します。
    • 変動が小さいドキュメントの場合、通常は100件のサンプルドキュメントで十分です。
  • Segmentation activity:
    • 変動が大きいドキュメントの場合、少なくとも100件のサンプルドキュメントを用意することを推奨します。
    • 変動が小さいドキュメントの場合、少なくとも20件のサンプルドキュメントを用意することを推奨します。
  • Deep Learning for NLP activity:
    • 変動が大きいドキュメントの場合、少なくとも300件のサンプルドキュメント(バリアントごとに2~3件のサンプル)を用意することを推奨します。
    • 変動が小さいドキュメントの場合、少なくとも50件のサンプルドキュメントを用意することを推奨します。
注: 推奨数に満たない場合でも、バリアントごとに1件のサンプルドキュメントがある方が、まったくないよりは良いです。

テストセットの要件

テストセットでは、サンプル文書の分布が本番環境の文書フローにおける分布と同様である必要があります。これにより、精度の見積もりの妥当性が確保されます。 たとえば、特定のベンダーの請求書が本番の文書フローの30%を占めている場合、テストセット内のサンプル文書も約30%をそのベンダーのものにする必要があります。また、本番の文書フローからランダムに抽出したdocumentsのサンプルでSkillをテストすることでも、必要な比率を満たせます。

ブラインドセットの要件

ブラインドセットには、Skillの学習やテストに使用していないドキュメントを必ず用いてください。ブラインドセットで得られた抽出結果は、Skillの品質評価に役立ちます。
注: Skillの学習用とテスト用には、必ず別のドキュメントを使用してください。

Document Skill の設定

スタートページで Document skill を作成した後、次の手順に従って Skill を設定します。
  1. Skill 名の横にある設定ボタンをクリックして、Skill の設定を表示・調整します。
  2. Documents タブで、ドキュメントをアップロードします。
  3. Fields タブで、値を抽出する field にラベルを付け、その位置を指定します。
  4. Activities タブで、ドキュメント処理フローを設定します。
  5. Results タブで、サンプルドキュメントでの性能を確認するために Skill をテストします。
  6. Publish タブで、Skill を公開します。
Document skill を設定して公開すると、ABBYY Vantage の Skill Catalog で利用可能になります。 Skill Catalog では、組み込みの Skill、読み取り専用の Skill、派生 Skill を含む Skill を表示および管理できます。