Extraction Rules アクティビティでは、半構造化文書上の field を検出するためのルールを設定し、そのルールが実ドキュメントでどのように機能するかを検証できます。これは通常、field の位置がドキュメントごとに異なりデータ抽出が複雑になる場合、または当該 field の検出に役立つ追加情報 (ドキュメント上の他のオブジェクトに対する相対位置や、オブジェクトの検索条件を指定する正規表現など) を提供できる場合に適用します。たとえば、請求書番号の field は、画像の右側にあるか、または “Order number”、“Order #” といった語句の直下、もしくはその他の類似キーワードの直下に配置される可能性があると指定できます。 また、処理フローに Fast Learning アクティビティを追加し、Online Learning を有効にして実行時ドキュメントを収集することを推奨します。これにより、機械学習によって後で自動的に Skill が再構築されます。Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
ユースケース
- ドキュメントセットが十分に標準化されておらず Fast Learning アクティビティでの抽出に適さない、Deep Learning アクティビティの学習に十分なドキュメント数がない、かつドキュメントの構造が既知で形式化できる場合。
- AI の制御性を高め、Deep Learning および Fast Learning アクティビティの予測結果をドキュメントの field に反映する前に分析したい場合。たとえば、特定のキーワードの近くにあるはずの数値を抽出したい場合、数値に見えない仮説や、そのキーワード付近に位置しない仮説を除外できます。一般に、ルールによる後処理が必要な場合は、Deep Learning および Fast Learning アクティビティのトレーニングセットを拡充すべきことを示しています。これは、機械学習技術が field のデータ型、典型的な位置、周辺情報を「手探りで」把握して学習できるためです。
- 再利用したい ABBYY FlexiLayout Studio の FlexiLayout ファイルがある場合。詳細は、Importing FlexiLayouts from ABBYY FlexiLayout Studio を参照してください。
- ドキュメントに複雑な構造 (例: 入れ子のテーブル。これは他のテーブル内の繰り返し構造) を含み、半構造化文書を対象とする他のアクティビティでは抽出できない場合。
