Document skill - ABBYY Documentation

Document skill は、単一の文書タイプの構造化文書および半構造化文書から field 値を抽出します。同じタイプの文書は、同じ field、バリデーションルール、および構造を共有します。たとえば、請求書、契約書、出荷明細書は、それぞれ 1 つの文書タイプに該当します。

Document skill で処理できるファイルは、1 つのトランザクションにつき 1 つだけです。1 つのトランザクションで複数のファイルを処理するには、Process skill の Extract activity を使用します。

構造化文書と半構造化文書

種類	field の位置	例	作成場所
構造化	どのインスタンスでも固定	アンケート、申請フォーム、税務フォーム	Vantage。構造化文書処理を他の Vantage テクノロジーと組み合わせる必要がある場合は、Advanced Designer を使用します。
半構造化	インスタンスごとにラベル、数、配置が異なる	請求書、契約書、出荷明細書	Vantage または Advanced Designer。

Document skill の学習

Document skill の学習を開始するには、1 つのドキュメント上で field にラベルを付けます。学習を進めるにつれて、Vantage が field の位置を自動で提案し、ラベル付け作業を迅速化します。

文書タイプの候補

同一タイプのドキュメントは、ほとんどの場合、同じ field セット、バリデーションルール、および構造を持ちますが、同じタイプの候補でも、たとえばそのドキュメントが発行された年度に応じて、わずかに異なる場合があります。1 つの Document skill で任意の数の候補を扱うことができ、適切なトレーニング方法は、カバーする必要がある候補数によって決まります。

規模に応じたactivityの選択

構造化フォーム (最大10候補) には、Vantage Document skill を使用します。追加の候補は別の文書タイプとして扱います。 半構造化文書では、推奨アプローチは候補数によって異なります。

文書セット内の候補	推奨アプローチ	想定される精度
数百	Vantage のオンラインラーニング	ほぼ完璧な抽出精度
数千	Deep Learning activity	文書の複雑さに応じて約80～90%
主要な候補の一部	Fast Learning および/または Extraction Rules activity	複雑な文書で高い精度

Deep Learning、Fast Learning、Extraction Rules の各activityは、Advanced Designer でのみ使用できます。使用するには、Advanced Designer で Document skill を開きます。公開後は、その Skill を引き続き Skill Designer や Process skill から参照できます。

学習とテストに関する推奨事項

代表性のあるトレーニングセットを使用してください。 候補ごとに少なくとも 2～3 件のドキュメントを含めてください。各候補にサンプルが 1 件しかなくても、まったくないよりは有効です。トレーニングセットですべての候補を網羅できない場合は、Deep Learning activity を使用してください。これは、画像パターン、空間構造、field の内容、周囲のラベルから一般化し、学習していない候補も処理できます。
本番環境に近い分布でテストしてください。 実際のドキュメントフローから無作為に抽出したサンプルを使用し、各候補が本番環境における出現頻度とおおむね同じ頻度でテストセットに含まれるようにしてください。これにより、精度の推定値の妥当性を保てます。

次のステップ

Document skill のセットアップ

構造化フォームやオンラインラーニングを含む Document skill を作成、学習、公開します。

field の追加

Editor タブで field をマークし、型ごとに field のプロパティを設定します。

文書のラベル付け

学習時に構造化文書および半構造化文書をラベル付けするためのガイドライン。

抽出データを分析する

field 抽出の統計を確認し、Result Review タブで参照ラベル付けを修正します。

​構造化文書と半構造化文書

​Document skill の学習

​文書タイプの候補

​規模に応じたactivityの選択

​学習とテストに関する推奨事項

​次のステップ

Document skill のセットアップ

field の追加

文書のラベル付け

抽出データを分析する

構造化文書と半構造化文書

Document skill の学習

文書タイプの候補

規模に応じたactivityの選択

学習とテストに関する推奨事項

次のステップ