メソッド
文字
文字セットの設定
- ドロップダウンリストで、Code Page フィールドまたは Unicode Subrange フィールドから適切な文字エンコーディング規格を選択します。
- 下の表で該当する文字を選択します。
- 選択した文字は Selected characters フィールドに表示されます。キーボードで文字セットを指定することもできます。
Portion in text, %フィールドで、検索対象のテキストに含まれる文字の割合(0~100)を指定します。

正規表現
正規表現のアルファベット
| リスト内の名称 | field 内の記号 | 例 | ||
|---|---|---|---|---|
| 任意の文字 | * | “k”*“t” – ‘kit’、‘kat’ などを許可 | ||
| 文字 | C | C”at” – cat、bat、Rat、mat などを許可 | ||
| 大文字 | A | A”at” – Cat、Bat、Rat、Mat などを許可 | ||
| 小文字 | a | a”at” – car、bat、rat、mat などを許可 | ||
| 文字または数字 | X | X – 任意の単一の文字または数字を許可 | ||
| 数字 | N | N”th” – 5th、4th、6th などを許可 | ||
| string | "" | "cat” | ||
| Or | ”dr”(“i" | "u”)“nk” – “drink” または “drunk” を許可 | ||
| セット内の文字 | [] | [hm]“at” – ‘hat’ または ‘mat’ を許可 | ||
| セット外の文字 | [^] | [^b]“at” – ‘cat’、‘mat’、‘rat’ を許可、bat は不可 | ||
| 繰り返し回数は任意(左側の式または部分式に適用) | {-} | [AB74]{-} – A、B、7、4 の任意長の任意の組み合わせを許可 | ||
| 繰り返し回数が n | {n} | N{2}"th" – 25th、84th、11th などを許可 | ||
| n 回から m 回の繰り返し | {n-m} | N{1-3}"th" – 5th、84th、111th などを許可 | ||
| 0 回から n 回の繰り返し | {-n} | N{-2}"th" – th、84th、4th などを許可 | ||
| n 回以上の繰り返し | {n-} | N{2-}"th" – 25th、834th、311th、34576th などを許可 | ||
| 部分式 | () |
正規表現の例
-
郵便番号:
[0-9]{6}サンプル値: “142172” -
郵便番号(USA):
[0-9]{5}("-"[0-9]{4}){-1}サンプル値: “55416”, “33701-4313” -
収入: N
{4-8}[,]N{2}サンプル値: “15000,00”, “4499,00” -
月(数値形式):
((|"0")[1-9])|("10")|("11")|("12")サンプル値: “4”, “05”, “12” -
小数:
("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-})))サンプル値: “1234,567”, “0.99”, “100,0”, “-345.6788903” -
Eメール:
[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost")サンプル値: “support@abbyy.com”, “my-name@company.org.ru”, “info@gallery.museum”
拡張正規表現
[% および %])で囲まれた追加機能を備えた正規表現です。拡張正規表現には次の追加機能があります。
-
角括弧内の1文字以上に、一般的な Optical Character Recognition (OCR) の誤読候補が補完されます。
例えば、
[%S%]は S、$、5 を許容する場合があります。 -
一般的な文字セットと OCR の誤読に対する
[%...%]内の特別な語: a. LETTERS - 大文字のラテン文字および大文字のラテン文字として一般的に誤認される文字 b. DIGITS - 数字および数字として一般的に誤認される文字 c. LETTERSANDDIGITS - 大文字のラテン文字、数字、およびそれらとして一般的に誤認される文字
[%DIGITS%]{9} は、連続する9桁の数字または数字に見間違えられやすい文字を指定します(例: “OI234Sb7B9”)。
追加プロパティ
- 許容エラー は、認識エラーの許容最大割合(パーセンテージ)を指定します。つまり、定義された文字セット外の文字が全体の文字数に占める許容最大割合を示します。オブジェクトの仮説は、その認識エラー率が指定値以下の場合にのみ生成されます。
- 単語数 は、検索対象テキストの単語数の最小値と最大値を指定します。
- 文字数 は、検索対象テキストの文字数の最小値と最大値を指定します。
- 単語の一部を検索 は、仮説に単語の一部(フラグメント)を含めることを許可するかどうかを指定します。単語の一部を含む仮説を除外し、完全一致の単語のみを検索する必要がある場合は、このオプションを無効にします。
詳細プロパティ
- 埋め込み仮説を許可 は、検索領域内の文字を用いて、交差や埋め込みを含むあらゆる仮説を生成できるようにします。
- 最大スペース長 は、検出されたオブジェクト内の空白の最大長さを指定します。
- テキストの向き は、検索対象のテキストの向きを指定します。既定では、このアクティビティは水平方向のテキストのみを検索し、回転したテキストについては仮説を生成しません。特定の向きに回転したテキストのみを検出し、他の向きのテキストを無視したい場合は、時計回り または 反時計回り のいずれかのみを選択してください。向きに関係なくテキストを検出するには、利用可能なすべてのオプションを有効にしてください。
- 単語の検出方法 は、行を単語に分割する方法を指定します。自動(事前認識)にするか、隣接する文字間の空白が 最小単語間スペース に入力した値以上の場合に行を単語に分割する(単語間スペース)方法にします。
