メインコンテンツへスキップ
ABBYY FlexiCapture で半構造化文書を処理する場合、通常は現在の型に属さない文書を除外したいものです。文書を識別する方法の 1 つは、少なくとも 1 つの要素を 必須 としてマークすることです。必須要素は、特定の型のすべての文書で一貫して検出される必要があります (そうでないと、プログラムは文書とその FlexiLayout を照合できません) 。 この場合、文書の見出し (HALLOWEEN REGISTRATION FORM) は、OCR エンジンで容易に読み取れる明確なテキストを含んでいるため、識別要素として適しています。
事前定義された複合 Header 要素内で、識別要素または要素セットを指定できます (このチュートリアルでは説明しません) 。
文書の見出しは、その文書が指定した型に属することを識別するためだけに使用されます。FlexiLayout では、文書の見出しを型 Static Text の要素として指定します。 ID 要素を作成するには:
  1. プログラムのメインウィンドウで FlexiLayout タブをクリックします。
  2. FlexiLayout ツリーで SearchElements を選択します。
  3. FlexiLayout → Add elementStatic Text コマンド、または要素のショートカット メニューの New → Static Text を選択します。
  4. Name フィールドに、要素名 (例: IDHeader) を入力します。
  5. 文書見出しを必須要素にするには、General タブで Required element を選択します。
  1. Static Text タブをクリックします。
  1. Search text フィールドに、検索するテキスト HALLOWEEN REGISTRATION FORM を入力します。 バッチ内の最初の画像を見ると、文書見出しは 1 行で記載されていると考えられます。したがって、1 行の static text の検索を高速化するには、スペースを入れずに見出しを入力できます。
  2. 見つかったテキストで発生し得るエラーの最大数を設定します (パーセンテージまたは文字数で指定) 。この場合は、文書見出し 25 文字に対して 5 文字のエラーを許容できるよう、Max error percentage を 20 に設定することをお勧めします。
許容エラーの最適な割合は、試行錯誤によってのみ見つけることができます。