メインコンテンツへスキップ
What to search for セクションで、Character String 要素には次のプロパティがあります。

メソッド

メソッド はテキストの検索方式を指定します。利用可能な方式は次の2つです:

文字

文字 では、指定した文字セットを用いてテキストを指定します。文字セットとは、検索対象のシーケンスに含めることが許可される文字の集合です。正規表現で文字列シーケンスの形式を表現できない場合や、画像品質が十分でなく認識エラーが生じる場合に、この方法を使用します。Character String 要素には複数の文字セットを指定できますが、各文字セット同士で同一の文字を重複して含めることはできません。テキストの形式が不明な場合は、許可文字セットを指定せず、検索時にあらゆる文字を候補として扱います。文字セットを設定するには、MethodCharacters を選択し、Characters フィールドに移動します。表示されるダイアログ ボックスで、新しい文字セットの追加、既存の文字セットの編集や削除が行えます。

文字セットの設定

  1. ドロップダウンリストで、Code Page フィールドまたは Unicode Subrange フィールドから適切な文字エンコーディング規格を選択します。
  2. 下の表で該当する文字を選択します。
  3. 選択した文字は Selected characters フィールドに表示されます。キーボードで文字セットを指定することもできます。
  4. Portion in text, % フィールドで、検索対象のテキストに含まれる文字の割合(0~100)を指定します。
CharacterSet

正規表現

正規表現 は、正規表現を用いて検索対象のテキストを定義します。正規表現は、専用の記述言語で、単語やその他の入力値の構造を表します。文字の取りうる組み合わせとそれらの位置関係を定義することで、検索対象テキストの構造を表現します。正規表現による検索は厳密であり、作成したパターンは正規表現に正確に一致している必要があります。通常、この検索方法は、文書画像の品質が高く、認識エラーがない場合に使用します。正規表現で検索対象のテキストを定義するには、MethodRegular Expression を選択し、下のフィールドに移動します。開いたエディターで正規表現を指定します。

正規表現のアルファベット

リスト内の名称field 内の記号
任意の文字*“k”*“t” – ‘kit’、‘kat’ などを許可
文字CC”at” – cat、bat、Rat、mat などを許可
大文字AA”at” – Cat、Bat、Rat、Mat などを許可
小文字aa”at” – car、bat、rat、mat などを許可
文字または数字XX – 任意の単一の文字または数字を許可
数字NN”th” – 5th、4th、6th などを許可
string"""cat”
Or”dr”(“i""u”)“nk” – “drink” または “drunk” を許可
セット内の文字[][hm]“at” – ‘hat’ または ‘mat’ を許可
セット外の文字[^][^b]“at” – ‘cat’、‘mat’、‘rat’ を許可、bat は不可
繰り返し回数は任意(左側の式または部分式に適用){-}[AB74]{-} – A、B、7、4 の任意長の任意の組み合わせを許可
繰り返し回数が n{n}N{2}"th" – 25th、84th、11th などを許可
n 回から m 回の繰り返し{n-m}N{1-3}"th" – 5th、84th、111th などを許可
0 回から n 回の繰り返し{-n}N{-2}"th" – th、84th、4th などを許可
n 回以上の繰り返し{n-}N{2-}"th" – 25th、834th、311th、34576th などを許可
部分式()

正規表現の例

  1. 郵便番号: [0-9]{6} サンプル値: “142172”
  2. 郵便番号(USA): [0-9]{5}("-"[0-9]{4}){-1} サンプル値: “55416”, “33701-4313”
  3. 収入: N{4-8}[,]N{2} サンプル値: “15000,00”, “4499,00”
  4. 月(数値形式): ((|"0")[1-9])|("10")|("11")|("12") サンプル値: “4”, “05”, “12”
  5. 小数: ("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-}))) サンプル値: “1234,567”, “0.99”, “100,0”, “-345.6788903”
  6. Eメール: [A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost") サンプル値: “support@abbyy.com”, “my-name@company.org.ru”, “info@gallery.museum

拡張正規表現

拡張正規表現は、開き角括弧に続くパーセント記号と、パーセント記号に続く閉じ角括弧([% および %])で囲まれた追加機能を備えた正規表現です。拡張正規表現には次の追加機能があります。
  1. 角括弧内の1文字以上に、一般的な Optical Character Recognition (OCR) の誤読候補が補完されます。 例えば、[%S%] は S、$、5 を許容する場合があります。
  2. 一般的な文字セットと OCR の誤読に対する [%...%] 内の特別な語: a. LETTERS - 大文字のラテン文字および大文字のラテン文字として一般的に誤認される文字 b. DIGITS - 数字および数字として一般的に誤認される文字 c. LETTERSANDDIGITS - 大文字のラテン文字、数字、およびそれらとして一般的に誤認される文字
例えば、[%DIGITS%]{9} は、連続する9桁の数字または数字に見間違えられやすい文字を指定します(例: “OI234Sb7B9”)。

追加プロパティ

  • 許容エラー は、認識エラーの許容最大割合(パーセンテージ)を指定します。つまり、定義された文字セット外の文字が全体の文字数に占める許容最大割合を示します。オブジェクトの仮説は、その認識エラー率が指定値以下の場合にのみ生成されます。
  • 単語数 は、検索対象テキストの単語数の最小値と最大値を指定します。
  • 文字数 は、検索対象テキストの文字数の最小値と最大値を指定します。
  • 単語の一部を検索 は、仮説に単語の一部(フラグメント)を含めることを許可するかどうかを指定します。単語の一部を含む仮説を除外し、完全一致の単語のみを検索する必要がある場合は、このオプションを無効にします。

詳細プロパティ

  • 埋め込み仮説を許可 は、検索領域内の文字を用いて、交差や埋め込みを含むあらゆる仮説を生成できるようにします。
  • 最大スペース長 は、検出されたオブジェクト内の空白の最大長さを指定します。
  • テキストの向き は、検索対象のテキストの向きを指定します。既定では、このアクティビティは水平方向のテキストのみを検索し、回転したテキストについては仮説を生成しません。特定の向きに回転したテキストのみを検出し、他の向きのテキストを無視したい場合は、時計回り または 反時計回り のいずれかのみを選択してください。向きに関係なくテキストを検出するには、利用可能なすべてのオプションを有効にしてください。
  • 単語の検出方法 は、行を単語に分割する方法を指定します。自動(事前認識)にするか、隣接する文字間の空白が 最小単語間スペース に入力した値以上の場合に行を単語に分割する(単語間スペース)方法にします。
詳細モードでは、単語数文字数 のプロパティは数値ではなくファジィ区間で設定します。詳細は Fuzzy Interval および Fuzzy Interval Editor を参照してください。 詳細プロパティを表示するには、Properties ペインで詳細モードのアイコンをクリックします。