メインコンテンツへスキップ
FlexiLayouts分類器 には、認識言語、テキストタイプ、事前認識モード、領域などの事前認識設定を含む、さまざまなユーザー定義の設定があります。適切な事前認識設定を選択することで、文書 の処理に適した FlexiLayouts と分類器を作成できます。 事前認識設定は、事前認識のプロパティダイアログで変更できます。このダイアログを開くには、次のいずれかを実行します。
  • FlexiLayout メニューまたは Classifier メニュー、あるいは FlexiLayout または Classifier のショートカットメニューで Properties… をクリックします。
  • %Name% のプロパティダイアログの General タブで、Advanced Pre-recognition Properties… ボタンをクリックします。
事前認識のプロパティダイアログが開きます。このダイアログで使用できるオプションを以下に示します。

全般 タブ

Name

文書上のテキストの印字に使用された方式:

  • 活字印刷、
  • ドットマトリックスプリンター、
  • タイプライター。

これらのオプションを選択する前に、テキストの種類を見極め、品質を評価してください。

  • Fast mode。カラー画像および中間調画像は、認識前に二値化されます (白黒に変換) 。Fast mode での認識は短時間で完了し、概ね良好な結果が得られます。
  • Balanced mode。プログラムは画像の色も考慮するため、認識速度は遅くなりますが、より高品質な結果が得られます。
    注。 Balanced 認識モードを支えるアルゴリズムについては、速度と品質の最適な水準がすでに達成されているため、今後さらなる変更は予定されていません
  • Normal mode がデフォルトです。また、Fast / Balanced mode での事前認識の結果、エラーが多発する場合にも推奨されます。
  • Accurate mode は、判読が難しいデジタル画像や低品質な文書からデータを抽出することを目的としています
    注。 Accurate mode は最も時間がかかるため、問題のある画像や文書にのみ使用することをお勧めします。

テキスト言語

文書で使用されている言語です。ドロップダウンリストから、1つまたは複数の言語を選択できます。使用可能な言語の一覧については、 ABBYY FlexiLayout™ StudioでサポートされているOCR言語を参照してください。

このオプショングループでは、ユーザー辞書を追加できます。ユーザー辞書は、専門用語、略語、会社名などを追加して 組み込み辞書を補完し、認識精度を向上させるために使用します。

このグループには、バーコード処理に関する 2 つのオプションがあります。

  • バーコードの抽出を無効にする – 画像内でバーコードを検出する必要がない場合は、このオプションを選択します。これにより、文書認識の速度が大幅に向上します。
  • 2D バーコードを抽出: Data Matrix、Aztec、QR Code – 処理対象の画像に Data Matrix、Aztec、QR Code のバーコードが含まれている場合は、このオプションを選択します。このオプションが有効になっていない場合、 これらのバーコードはプログラムによって画像上で検出されず、バーコード要素のプロパティでも使用できません。
  • 郵便バーコードを抽出 - 画像に郵便バーコード (例: Australia Post) が含まれている場合は、このオプションを選択します。このオプションが選択されていない場合、郵便バーコードは画像上で検出されず、 バーコード要素のプロパティでも使用できません。
    重要! 郵便バーコードを抽出すると認識速度が低下します。

CJK

CJK (中国語、日本語、韓国語) の処理に関するオプションが含まれています。

  • 分離ふりがなモード – ふりがな (読み仮名) 付きの日本語テキストを処理する際の認識精度を向上させるには、このオプションを選択します。

固有表現を抽出 — このオプションを選択すると、NLP メソッドを使用して field または field グループから意味のある情報を抽出できます。

注: このオプションは、NLP モジュールを含む License でのみ使用できます。

縦書きテキストの抽出

縦書きテキスト抽出のパラメーター:

  • すべての言語を対象に抽出 – サポートされているすべての言語で書かれた縦書きテキストを検出します。
  • 抽出しない – 縦書きテキストの検出を無効にします。
  • CJK言語を対象に抽出 – 中国語、日本語、または韓国語で書かれた縦書きテキストを検出します。

事前認識を行う領域です。ページの端を基準に、事前認識領域の位置を指定できます。

このオプションでは、PTN または FBT 形式のユーザーパターンを追加できます。 文書に標準的でないフォントや文字が含まれている場合は、これらのユーザーパターンの使用をお勧めします