メインコンテンツへスキップ
新しい Document Definition を作成する、またはすでに有効な Document Definitions から ドキュメントセット を作成するには、メインメニューで Project Document Definitions… を選択し、New… をクリックします。次に、処理する文書の種類を選択します。 フォーム フォームは固定レイアウトの文書です。つまり、field はすべてのコピーで同じ位置にあり、それぞれが設計者が作成した元のフォームを正確に複製したものです。
  1. 参照コピーとして使用する画像を選択します。
フォーム用の Document Definition は、空白フォームをスキャンして取得した画像に基づいて作成されます。フォームの場合は、その画像上で各 field の位置を指定するため、空白フォームの画像を用意する必要があります。
画像は高品質で、傾きやずれなどの歪みがない必要があります。カラーのフォームの場合、空白フォームをスキャンするときにカラー フィルターを適用しないでください。Document Definition を作成するには背景をそのまま保持しておく必要があるためです。背景除去フィルターは、記入済みフォームをスキャンするときに後で適用してください。
文書に複数ページが含まれている場合は、最初のページを読み込み、残りのページの追加については Creating Document Definitions for multipage documents セクションの推奨事項に従ってください。次の Step に進むには、Next をクリックします。
  1. 名前、説明、文書の言語など、Document Definition の主なプロパティを指定します。
既定では、ドロップダウンの言語リストには languages for which dictionaries are provided のみが表示されます。利用可能なすべての言語を表示するには、Show all languages オプションを選択します。正しい言語を必ず指定してください。誤った言語を指定すると、認識エラーが発生します。“ICR” という略語が付いている言語は、手書き文字手書き活字体、および印字テキストの認識に使用できます。文書の言語が事前にわからない場合は、候補となる複数の言語を指定できます。その後、プログラムが適切な言語を選択します。
言語を指定しすぎると、文書処理が遅くなり、認識エラーの原因になります。
この Step で指定したテキストタイプが既定で使用されますが、後で任意の field のテキストタイプをいつでも変更できます (field ごとに異なる言語のテキストが含まれている場合は、この設定が必要になることがあります) 。バッチタイプに指定された認識設定を使用する場合は、Use recognition settings from batch type オプションを選択します。
同期を無効にすると、Document Definition のマッチングが遅くなる場合があります。
次の Step に進むには、Next をクリックします。
  1. 自動的に検出する field の種類を指定します。プログラムは、specially marked text entry fieldscheckmarks inside boxes を問題なく見つけることができます。ただし、フォーム上のテキスト入力フィールドに特別なマークがない場合や、説明文の横にチェックマーク用の特別なボックスがない場合は、それらのおおよその位置を手動で指定したほうがよいことがあります。
プログラムは常にフォーム上の anchor の検出を試みます。
Finish をクリックします。Document Definition エディターが開くので、そこでページ画像上の fieldsstatic elements をマークアップし、それらのプロパティを定義します。
半構造化文書または非構造化文書 半構造化文書および非構造化文書では、field のレイアウトが文書ごとに異なる場合があります。この種の文書から field を抽出するには、FlexiLayout が使用されます。さらに、非構造化文書から field を抽出するために、自然言語処理 (NLP) 技術が使用されることもあります。
  1. 参照コピーとして使用する画像を選択します (FlexiLayout を作成する場合は省略できます) 。
ABBYY FlexiLayout Studio で作成した FlexiLayout を使用する場合は、Load FlexiLayout オプションを選択し、FlexiLayout が含まれるファイルのパスを指定します。詳しくは、柔軟な記述に基づく Document Definition の作成セクションを参照してください。Allow field location training オプションを選択すると、FlexiLayout を自動的に作成できます。次のStepに進むには、Next をクリックします。
  1. Document Definition の名前、説明、文書の言語など、主なプロパティを指定します。
デフォルトでは、ドロップダウンの言語リストには辞書が提供されている言語のみが表示されます。使用可能なすべての言語を表示するには、Show all languages オプションを選択します。必ず正しい言語を指定してください。誤った言語を指定すると、認識エラーが発生します。横に “ICR” という略称が付いている言語は、手書き文字手書き活字体、および印字テキストの認識に使用できます。文書の言語が事前にわからない場合は、候補となる複数の言語を指定すると、プログラムがその中から適切な言語を選択します。
言語を指定しすぎると、文書処理が遅くなり、認識エラーの原因になります。
このStepで指定したテキストタイプがデフォルトで使用されますが、後で任意のfieldのテキストタイプをいつでも変更できます (fieldごとに異なる言語のテキストが含まれている場合は、変更が必要になることがあります) 。バッチタイプに指定された認識設定を使用する場合は、Use recognition settings from batch type オプションを選択します。
同期を無効にすると、Document Definition のマッチングが遅くなる場合があります。
Finish をクリックします。Document Definition エディター が開きます。
自動データ抽出を必要としない文書 これらは、自動field検出を必要としない文書です。全文検索を可能にするために OCR 技術を使用することも、認識せずにそのままにしておくこともできます。 このような文書を処理する目的は、それらをデジタル化し、ユーザーが主要項目の値に基づいて検索できるようにすることです。詳しくは、field抽出を行わない Document Definitionsセクションを参照してください。
  1. 文書サンプルに使用する画像の取得元を選択します (省略可能) 。
次のStepに進むには、Next をクリックします。
  1. Document Definition の名前、説明、文書の言語など、主なプロパティを指定します。
デフォルトでは、ドロップダウンの言語リストには辞書が提供されている言語のみが表示されます。使用可能なすべての言語を表示するには、Show all languages オプションを選択します。必ず正しい言語を指定してください。誤った言語を指定すると、認識エラーが発生します。横に “ICR” という略称が付いている言語は、手書き文字手書き活字体、および印字テキストの認識に使用できます。文書の言語が事前にわからない場合は、候補となる複数の言語を指定すると、プログラムがその中から適切な言語を選択します。
言語を指定しすぎると、文書処理が遅くなり、認識エラーの原因になります。
このStepで指定したテキストタイプがデフォルトで使用されますが、後で任意のfieldのテキストタイプをいつでも変更できます (fieldごとに異なる言語のテキストが含まれている場合は、変更が必要になることがあります) 。バッチタイプに指定された認識設定を使用する場合は、Use recognition settings from batch type オプションを選択します。
同期を無効にすると、Document Definition のマッチングが遅くなる場合があります。
Finish をクリックします。
ドキュメントセット ドキュメントセットは、論理的に関連する文書をまとめたものです。ドキュメントセット用には、他の Document Definitions と、必要に応じてセット内の文書から収集した情報を含む概要セクションを含む Document Definition が作成されます。詳しくは、ドキュメントセットの作成と設定セクションを参照してください。
  1. プロジェクトで使用可能なすべての文書の一覧から、ドキュメントセットに属する文書を選択します。必要に応じて、セットの主要な field を 1 つのセクションにまとめる概要セクションを追加し、同じデータ フォーム上ですべてを検証できるようにします。
次のステップに進むには、Next をクリックします。
  1. 名前、説明、文書の言語など、Document Definition の主要なプロパティを指定します。
既定では、ドロップダウンの言語リストには、辞書が提供されている言語のみが表示されます。使用可能なすべての言語を表示するには、Show all languages オプションを選択します。必ず正しい言語を指定してください。誤った言語を指定すると、認識エラーが発生します。名前の横に “ICR” という略称が付いている言語は、手書き文字手書き活字体、および印字テキストの認識に使用できます。文書の言語が事前に分からない場合は、候補となる複数の言語を指定できます。その場合、プログラムがその中から適切な言語を選択します。
言語を指定しすぎると、文書処理が遅くなり、認識エラーの原因になります。
このステップで指定したテキストタイプは既定で使用されますが、後から任意の field のテキストタイプをいつでも変更できます (field ごとに異なる言語のテキストが含まれている場合は、これが必要になることがあります) 。バッチタイプに指定されている認識設定を使用する場合は、Use recognition settings from batch type オプションを選択します。
同期を無効にすると、Document Definition のマッチングが遅くなる場合があります。
Finish をクリックします。