Document skill は、単一の文書タイプの構造化文書および半構造化文書から field 値を抽出します。同じタイプの文書は、同じ field、バリデーションルール、および構造を共有します。たとえば、請求書、契約書、出荷明細書は、それぞれ 1 つの文書タイプに該当します。Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
Document skill で処理できるファイルは、1 つのトランザクションにつき 1 つだけです。1 つのトランザクションで複数のファイルを処理するには、Process skill の Extract activity を使用します。
構造化文書と半構造化文書
| 種類 | field の位置 | 例 | 作成場所 |
|---|---|---|---|
| 構造化 | どのインスタンスでも固定 | アンケート、申請フォーム、税務フォーム | Vantage。構造化文書処理を他の Vantage テクノロジーと組み合わせる必要がある場合は、Advanced Designer を使用します。 |
| 半構造化 | インスタンスごとにラベル、数、配置が異なる | 請求書、契約書、出荷明細書 | Vantage または Advanced Designer。 |
Document skill の学習
文書タイプの候補
規模に応じたactivityの選択
| 文書セット内の候補 | 推奨アプローチ | 想定される精度 |
|---|---|---|
| 数百 | Vantage のオンラインラーニング | ほぼ完璧な抽出精度 |
| 数千 | Deep Learning activity | 文書の複雑さに応じて約80~90% |
| 主要な候補の一部 | Fast Learning および/または Extraction Rules activity | 複雑な文書で高い精度 |
Deep Learning、Fast Learning、Extraction Rules の各activityは、Advanced Designer でのみ使用できます。使用するには、Advanced Designer で Document skill を開きます。公開後は、その Skill を引き続き Skill Designer や Process skill から参照できます。
学習とテストに関する推奨事項
- 代表性のあるトレーニングセットを使用してください。 候補ごとに少なくとも 2~3 件のドキュメントを含めてください。各候補にサンプルが 1 件しかなくても、まったくないよりは有効です。トレーニングセットですべての候補を網羅できない場合は、Deep Learning activity を使用してください。これは、画像パターン、空間構造、field の内容、周囲のラベルから一般化し、学習していない候補も処理できます。
- 本番環境に近い分布でテストしてください。 実際のドキュメントフローから無作為に抽出したサンプルを使用し、各候補が本番環境における出現頻度とおおむね同じ頻度でテストセットに含まれるようにしてください。これにより、精度の推定値の妥当性を保てます。
次のステップ
Document skill のセットアップ
構造化フォームやオンラインラーニングを含む Document skill を作成、学習、公開します。
field の追加
Editor タブで field をマークし、型ごとに field のプロパティを設定します。
文書のラベル付け
学習時に構造化文書および半構造化文書をラベル付けするためのガイドライン。
抽出データを分析する
field 抽出の統計を確認し、Result Review タブで参照ラベル付けを修正します。
