フィールド抽出の学習範囲

フィールド抽出の学習は、構造化文書および半構造化文書で使用できます。学習は、単純なフィールド、field グループ、繰り返しグループに対して利用できます。

単純なフィールド

プログラムは、指定したパラメーターに対応する周辺情報を持つフィールドを検索します。プログラムは1つの文書に基づいてフィールドを抽出するよう学習できますが、より高い精度の結果を得るには、少なくとも3つの文書を使用することをお勧めします。

field グループ

プログラムは、グループ化されたフィールドを、それらの間のリレーションを考慮せず、個別のフィールドとして抽出するように学習されます。したがって、学習結果はフィールドの周辺情報によって決まり、グループへの所属は考慮されません。

繰り返しグループ

文書に、周辺情報が類似した複数の横方向に分離可能な繰り返しグループが含まれている場合、プログラムは繰り返しグループを検出するように学習されます。この場合、プログラムは各グループを繰り返し line として処理します。また、line は First、Last、Any のいずれにもなり得るものと見なします。プログラムは、各 line の型ごとに、単純な field グループのフィールドとしてフィールドを抽出するように学習されます。

より良い結果を得るには、学習時に各型について3～50件の文書サンプルをアップロードすることをお勧めします。

フィールド抽出を微調整するには、ABBYY FlexiLayout Studioを使用します。学習済みのDocument DefinitionはFlexiLayout Studioにエクスポートでき、新しいFlexiLayoutのベースとして使用できます。

同じ種類に属する文書でフィールドの位置が異なる場合

このプログラムは、同じ種類に属していても見た目が大きく異なる文書内のフィールドを検出できます。たとえば、異なるベンダーの請求書、銀行取引明細書、州ごとに異なる運転免許証、各種フォームなどです。ABBYY FlexiCapture には、文書バリアントと呼ばれる特別な機能があり、このような文書を処理できます。この機能を使うと、同じ種類に属する文書に対してバリアントのセットを作成でき、各バリアントは特定のフィールド位置に対応します。位置が変動するフィールドの学習には、文書の種類を識別する分類器の作成と学習が含まれます。詳しくは、分類器の作成を参照してください。文書のバリアントが特定されると、プログラムは一般的なフィールド抽出の学習メカニズムを使用します。

フィールド抽出の学習シナリオ

フィールド抽出の自動学習の設定

⌘I

​同じ種類に属する文書でフィールドの位置が異なる場合

同じ種類に属する文書でフィールドの位置が異なる場合