ドキュメントタイプのバリアント
- 何百ものバリアントがある場合、Vantage の Online Learning を使用して学習させた Skill により、ほぼ完璧にデータを抽出できます。
- 何千ものバリアントがある場合、Deep Learning アクティビティを使用して学習させた Skill により、ドキュメントタイプの複雑さに応じて、約 80~90% の精度でデータを抽出できます。
- ドキュメントタイプのうち最も重要なバリアントについては、Fast Learning や Extraction Rules アクティビティを使用して学習させた Skill により、複雑なドキュメントからも正確にデータを抽出できます。
- いつもまったく同じ場所にまったく同じ種類の情報がある構造化ドキュメントについては、最大 10 個のバリアントまで使用することをお勧めします。固定フォームに多数のバリアントがある場合は、それらをすべて別個のドキュメントタイプとして扱うことを推奨します。
- Skill をトレーニングする際には、各バリアントにつき少なくとも 2~3 件のドキュメントを含む代表的なドキュメントセットを使用してください。バリアントが多数あり、セットにすべてのバリアントのドキュメントが少なくとも 1 件ずつ含まれていない場合は、Deep Learning アクティビティを使用できます。Deep Learning は、画像パターン、ドキュメントの空間構造、field の内容および周囲のラベルを理解し、トレーニングに使用していないバリアントも処理できます。
- Skill をテストする際には、本番環境での実際のドキュメントフローに近い分布のドキュメントを使用してください。トレーニングセット内で特定のバリアントのドキュメントが占める割合は、そのバリアントが実際のドキュメントフローにおいて出現する頻度を反映している必要があります。これにより、精度の見積もりが妥当なものになります。そのためには、本番のドキュメントフローからランダムサンプリングしたドキュメントを使用して Skill をテストします。
- あるバリアントについては、サンプルが 1 件でもあるほうが、まったくないよりは良好です。
