ドキュメントタイプのバリアント
- 何百ものバリアントに対しては、Vantage の Online Learning で学習した Skill により、ほぼ完璧にデータを抽出できます。
- 何千ものバリアントに対しては、Deep Learning アクティビティで学習した Skill により、ドキュメントタイプの複雑さに応じて約 80%~90% の精度でデータを抽出できます。
- ドキュメントタイプの最も重要なバリアントに対しては、Fast Learning や Extraction Rules アクティビティで学習した Skill により、複雑なドキュメントからも正確にデータを抽出できます。
- 常に同じ種類の情報がまったく同じ位置にある構造化ドキュメントの場合は、最大 10 のバリアントの使用を推奨します。定型フォームに多数のバリアントがある場合は、それらをすべて別個のドキュメントタイプとして扱うことを推奨します。詳細については、Processing structured documents を参照してください。
Document Skill のトレーニングとテスト
- トレーニングセット
- テストセット
- ブラインドセット(上記 2 つのセットに含まれないサンプル文書を含む追加のテストセット)
トレーニングセットの要件
- Deep Learning activity for semi-structured documents:
- 変動が大きいドキュメントの場合、少なくとも200~300件のサンプルドキュメント (バリアントごとに2~3件のサンプル) が必要です。
- 変動が小さいドキュメントの場合、少なくとも10件のサンプルドキュメント (バリアントごとに2~3件のサンプル) が必要です。
- Segmentation activity:
- 変動が大きいドキュメントの場合、少なくとも100件のサンプルドキュメントを用意することを推奨します。
- 変動が小さいドキュメントの場合、少なくとも20件のサンプルドキュメントを用意することを推奨します。
- Deep Learning for NLP activity:
- 変動が大きいドキュメントの場合、少なくとも150件のサンプルドキュメント (バリアントごとに2~3件のサンプル) が必要です。
- 変動が小さいドキュメントの場合、1件のサンプルドキュメントから学習を開始できますが、バリアントごとに少なくとも2~3件のサンプルドキュメントが必要です。
推奨数に満たない場合でも、バリアントごとに1件のサンプルドキュメントがある方が、まったくないよりは良いです。
テストセットの要件
ブラインドセットの要件
Skillの学習用とテスト用には、必ず別のドキュメントを使用してください。
Document Skill の設定
- Skill 名の横にある設定ボタンをクリックして、Skill の設定を表示・調整します。
- Documents タブで、ドキュメントをアップロードします。
- Fields タブで、値を抽出する field にラベルを付け、その位置を指定します。
- Activities タブで、ドキュメント処理フローを設定します。
- Results タブで、サンプルドキュメントでの性能を確認するために Skill をテストします。
- Publish タブで、Skill を公開します。
