Creating Document Definitions for semi-structured documents
半構造化文書および非構造化文書用の Document Definition の作成
ABBYY FlexiCapture で FlexiLayout、NLP 抽出、主要項目の手動入力、区切りページを使用して半構造化文書および非構造化文書を処理します。
ABBYY FlexiCapture は、契約書、書簡、注文書、別紙など、自由な形式で情報が記載された非構造化文書の処理に使用できます。テキストや画像が空白紙またはバーコード付きのページで区切られた非構造化文書は、検索可能な PDF ファイル または画像ファイルに処理してエクスポートできます。
このような文書の処理では、通常、文書を電子化し、主要項目の値に基づいて検索を実行します。
可能であれば、このような文書内の主要項目 (契約番号など) の検索は、ABBYY FlexiLayout Studio で作成した FlexiLayout を使用して行います。半構造化文書処理用の Document Definition の作成 を参照してください。
NLP を使用して非構造化文書を処理することもできます。このテクノロジでは、NLP モデルを使用してテキストから情報を抽出します。
主要項目の自動検索ができない場合は、オペレーターがその値を手動で入力できます。そのためには、1 つの field (必要に応じて複数の field) を持つ Document Definition を作成し、その field の認識プロパティで Don’t recognize (key from image field - will be entered manually) オプションを有効にします。すると、検証プロセスの実行時にオペレーターが主要項目の値を手動で入力できるようになります。
データを保存できるようにするには、エクスポートを設定 する必要があります。主要項目の値をファイルまたはデータベースにエクスポートし、文書画像を扱いやすい形式で保存できます。文書画像は画像ファイルまたは検索可能な PDF ファイルとして保存できます。
ページを文書にアセンブリする際は特に注意してください。非構造化文書では、特定のページがどの文書に属するかを判断するのが難しい場合があります。非構造化文書のアセンブリを自動化するには、空白紙またはバーコード付きのページで文書を区切ることをお勧めします。その後、画像をバッチに追加する際 (スキャン、ファイルからの追加、またはインポートプロファイルの作成による) は、For images separated by オプションを有効にし、区切りとして使用するページに応じて、ドロップダウンリストから blank pages または pages with barcode を選択する必要があります。ページは自動的に文書へアセンブリされ、次の区切りページが現れるまで現在の文書に追加されます。詳細については、ページ画像の追加 を参照してください。
