メソッド
文字
文字セットの設定
- ドロップダウンリストで、Code Page フィールドまたは Unicode Subrange フィールドから適切な文字エンコーディング規格を選択します。
- 下の表で該当する文字を選択します。
- 選択した文字は Selected characters フィールドに表示されます。キーボードで文字セットを指定することもできます。
Portion in text, %フィールドで、検索対象のテキストに含まれる文字の割合(0~100)を指定します。

正規表現
正規表現のアルファベット
| リスト内の名称 | field 内の記号 | 例 | ||
|---|---|---|---|---|
| 任意の文字 | * | “k”*“t” – 「kit」「kat」などが可能 | ||
| 文字 | C | C”at” – cat、bat、Rat、mat などが可能 | ||
| 大文字 | A | A”at” – Cat、Bat、Rat、Mat などが可能 | ||
| 小文字 | a | a”at” – cat、bat、rat、mat などが可能 | ||
| 文字または数字 | X | X – 任意の単一の文字または数字が可能 | ||
| 数字 | N | N”th” – 5th、4th、6th などが可能 | ||
| 文字列 | "" | "cat” | ||
| または | ”dr”(“i" | "u”)“nk” – “drink” または “drunk” が可能 | ||
| セット内の文字 | [] | [hm]“at” – 「hat」または「mat」が可能 | ||
| セット外の文字 | [^] | [^b]“at” – 「cat」「mat」「rat」は可、bat は不可 | ||
| 任意回数の繰り返し(左の式または部分式に適用) | {-} | [AB74]{-} – A、B、7、4 の任意長の任意の組み合わせが可能 | ||
| 繰り返し回数が n | {n} | N{2}"th" – 25th、84th、11th などが可能 | ||
| n から m 回の繰り返し | {n-m} | N{1-3}"th" – 5th、84th、111th などが可能 | ||
| 0 から n 回の繰り返し | {-n} | N{-2}"th" – th、84th、4th などが可能 | ||
| n 回以上の繰り返し | {n-} | N{2-}"th" – 25th、834th、311th、34576th などが可能 | ||
| 部分式 | () |
正規表現の例
- 郵便番号:
[0-9]{6}サンプル値: “142172” - ZIPコード(USA):
[0-9]{5}("-"[0-9]{4}){-1}サンプル値: “55416”, “33701-4313” - 収入: N
{4-8}[,]N{2}サンプル値: “15000,00”, “4499,00” - 月(数値形式):
((|"0")[1-9])|("10")|("11")|("12")サンプル値: “4”, “05”, “12” - 分数(小数):
("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-})))サンプル値: “1234,567”, “0.99”, “100,0”, “-345.6788903” - Eメール:
[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost")サンプル値: [email protected], [email protected], [email protected]
拡張正規表現
[% and %])で追加機能を記述できる正規表現です。拡張正規表現には次の機能が追加されています。
- 角かっこの内側に記述した1文字以上について、一般的なOCR誤認識を許容します。たとえば、
[%S%]は S、$、5 を許可する場合があります。 - 共通の文字集合とOCR誤認識に対応する
[%...%]内の特別な語: a. LETTERS - 大文字のラテン文字および大文字のラテン文字として一般的に認識される文字; b. DIGITS - 数字および数字として一般的に認識される文字; c. LETERSANDDIGITS - 大文字のラテン文字、数字、および大文字のラテン文字または数字として一般的に認識される文字。
[%DIGITS%]{9} は、数字または数字に対する一般的なOCR誤認識を含めて、9文字連続することを指定します。例: “OI234Sb7B9”。
追加プロパティ
- 許容エラー は、認識エラーの最大許容割合を指定します。言い換えると、定義された文字セット外の文字が全体の文字数に占める最大許容割合を示します。オブジェクトの仮説は、その認識エラー率が指定値を超えていない場合にのみ立てられます。
- 単語数 は、検索対象テキストに含まれる単語の最小数と最大数を指定します。
- 文字数 は、検索対象テキストに含まれる文字の最小数と最大数を指定します。
- 単語の一部を検索 は、仮説に単語の断片を許可するかどうかを指定します。単語の断片を含む仮説を除外し、完全一致の単語のみを検索する必要がある場合は、このオプションを無効にします。
詳細プロパティ
- 埋め込み仮説を許可 は、検索領域内の文字を用いて、交差および埋め込みの仮説を含むあらゆる可能な仮説を生成できるようにします。
- 最大スペース長 は、検出されたオブジェクト内の空白の最大長を指定します。
- テキストの向き は、検索対象のテキストの向きを指定します。既定では、このアクティビティは水平方向のテキストのみを検索し、回転したテキストについては仮説を作成しません。特定の向きに回転したテキストのみを検出し、他の向きのテキストを無視したい場合は、時計回り または 反時計回り のいずれか一方のみを選択してください。向きに関係なくテキストを検出したい場合は、利用可能なすべてのオプションを有効にしてください。
- 単語の検出方法 は、行を単語に分割する方法を指定します。自動(認識前)にするか、隣接する文字間の空白が 最小単語間スペース に入力した値以上の場合に行を単語に分割する(単語間スペース)かを選択します。
