メインコンテンツへスキップ
Character String 要素のプロパティを設定し、文字セットまたは正規表現を使用して、1 行内の文字列を検索します。 Character String 要素には、検索対象 セクションで次のプロパティがあります:

メソッド

メソッド はテキストの検索方式を指定します。利用可能な方式は次の2つです:

文字

文字 では、指定した文字セットを用いてテキストを指定します。文字セットとは、検索対象のシーケンスに含めることが許可される文字の集合です。正規表現で文字列シーケンスの形式を表現できない場合や、画像品質が十分でなく認識エラーが生じる場合に、この方法を使用します。Character String 要素には複数の文字セットを指定できますが、各文字セット同士で同一の文字を重複して含めることはできません。テキストの形式が不明な場合は、許可文字セットを指定せず、検索時にあらゆる文字を候補として扱います。文字セットを設定するには、MethodCharacters を選択し、Characters フィールドに移動します。表示されるダイアログ ボックスで、新しい文字セットの追加、既存の文字セットの編集や削除が行えます。

文字セットの設定

  1. ドロップダウンリストで、Code Page フィールドまたは Unicode Subrange フィールドから適切な文字エンコーディング規格を選択します。
  2. 下の表で該当する文字を選択します。
  3. 選択した文字は Selected characters フィールドに表示されます。キーボードで文字セットを指定することもできます。
  4. Portion in text, % フィールドで、検索対象のテキストに含まれる文字の割合(0~100)を指定します。
CharacterSet

正規表現

正規表現 は、正規表現を用いて検索対象のテキストを定義します。正規表現は、専用の記述言語で、単語やその他の入力値の構造を表します。文字の取りうる組み合わせとそれらの位置関係を定義することで、検索対象テキストの構造を表現します。正規表現による検索は厳密であり、作成したパターンは正規表現に正確に一致している必要があります。通常、この検索方法は、文書画像の品質が高く、認識エラーがない場合に使用します。正規表現で検索対象のテキストを定義するには、MethodRegular Expression を選択し、下のフィールドに移動します。開いたエディターで正規表現を指定します。

正規表現のアルファベット

リスト内の名称field 内の記号
任意の文字*“k”*“t” – 「kit」「kat」などが可能
文字CC”at” – cat、bat、Rat、mat などが可能
大文字AA”at” – Cat、Bat、Rat、Mat などが可能
小文字aa”at” – cat、bat、rat、mat などが可能
文字または数字XX – 任意の単一の文字または数字が可能
数字NN”th” – 5th、4th、6th などが可能
文字列"""cat”
または”dr”(“i""u”)“nk” – “drink” または “drunk” が可能
セット内の文字[][hm]“at” – 「hat」または「mat」が可能
セット外の文字[^][^b]“at” – 「cat」「mat」「rat」は可、bat は不可
任意回数の繰り返し(左の式または部分式に適用){-}[AB74]{-} – A、B、7、4 の任意長の任意の組み合わせが可能
繰り返し回数が n{n}N{2}"th" – 25th、84th、11th などが可能
n から m 回の繰り返し{n-m}N{1-3}"th" – 5th、84th、111th などが可能
0 から n 回の繰り返し{-n}N{-2}"th" – th、84th、4th などが可能
n 回以上の繰り返し{n-}N{2-}"th" – 25th、834th、311th、34576th などが可能
部分式()

正規表現の例

  1. 郵便番号: [0-9]{6} サンプル値: “142172”
  2. ZIPコード(USA): [0-9]{5}("-"[0-9]{4}){-1} サンプル値: “55416”, “33701-4313”
  3. 収入: N{4-8}[,]N{2} サンプル値: “15000,00”, “4499,00”
  4. 月(数値形式): ((|"0")[1-9])|("10")|("11")|("12") サンプル値: “4”, “05”, “12”
  5. 分数(小数): ("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-}))) サンプル値: “1234,567”, “0.99”, “100,0”, “-345.6788903”
  6. Eメール: [A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost") サンプル値: [email protected], [email protected], [email protected]

拡張正規表現

拡張正規表現は、開き角かっこの直後のパーセント記号から始まり、パーセント記号と閉じ角かっこで終わる構文([% and %])で追加機能を記述できる正規表現です。拡張正規表現には次の機能が追加されています。
  1. 角かっこの内側に記述した1文字以上について、一般的なOCR誤認識を許容します。たとえば、[%S%] は S、$、5 を許可する場合があります。
  2. 共通の文字集合とOCR誤認識に対応する [%...%] 内の特別な語: a. LETTERS - 大文字のラテン文字および大文字のラテン文字として一般的に認識される文字; b. DIGITS - 数字および数字として一般的に認識される文字; c. LETERSANDDIGITS - 大文字のラテン文字、数字、および大文字のラテン文字または数字として一般的に認識される文字。
たとえば、[%DIGITS%]{9} は、数字または数字に対する一般的なOCR誤認識を含めて、9文字連続することを指定します。例: “OI234Sb7B9”。

追加プロパティ

  • 許容エラー は、認識エラーの最大許容割合を指定します。言い換えると、定義された文字セット外の文字が全体の文字数に占める最大許容割合を示します。オブジェクトの仮説は、その認識エラー率が指定値を超えていない場合にのみ立てられます。
  • 単語数 は、検索対象テキストに含まれる単語の最小数と最大数を指定します。
  • 文字数 は、検索対象テキストに含まれる文字の最小数と最大数を指定します。
  • 単語の一部を検索 は、仮説に単語の断片を許可するかどうかを指定します。単語の断片を含む仮説を除外し、完全一致の単語のみを検索する必要がある場合は、このオプションを無効にします。

詳細プロパティ

  • 埋め込み仮説を許可 は、検索領域内の文字を用いて、交差および埋め込みの仮説を含むあらゆる可能な仮説を生成できるようにします。
  • 最大スペース長 は、検出されたオブジェクト内の空白の最大長を指定します。
  • テキストの向き は、検索対象のテキストの向きを指定します。既定では、このアクティビティは水平方向のテキストのみを検索し、回転したテキストについては仮説を作成しません。特定の向きに回転したテキストのみを検出し、他の向きのテキストを無視したい場合は、時計回り または 反時計回り のいずれか一方のみを選択してください。向きに関係なくテキストを検出したい場合は、利用可能なすべてのオプションを有効にしてください。
  • 単語の検出方法 は、行を単語に分割する方法を指定します。自動(認識前)にするか、隣接する文字間の空白が 最小単語間スペース に入力した値以上の場合に行を単語に分割する(単語間スペース)かを選択します。
高度なモードでは、プロパティ 単語数文字数 は数値ではなくファジー区間で設定します。詳細は ファジー区間 および ファジー区間エディタ を参照してください。 詳細プロパティを表示するには、Properties ペインで詳細モードのアイコンをクリックします。