Character String 要素の型別プロパティ

Character String 要素の What to search for セクションには、次のプロパティがあります。

メソッド

メソッド はテキストの検索方式を指定します。利用可能な方式は次の2つです：

文字

文字では、指定した文字セットを用いてテキストを指定します。文字セットとは、検索対象のシーケンスに含めることが許可される文字の集合です。正規表現で文字列シーケンスの形式を表現できない場合や、画像品質が十分でなく認識エラーが生じる場合に、この方法を使用します。Character String 要素には複数の文字セットを指定できますが、各文字セット同士で同一の文字を重複して含めることはできません。テキストの形式が不明な場合は、許可文字セットを指定せず、検索時にあらゆる文字を候補として扱います。文字セットを設定するには、Method で Characters を選択し、Characters フィールドに移動します。表示されるダイアログボックスで、新しい文字セットの追加、既存の文字セットの編集や削除が行えます。

文字セットの設定

文字エンコーディング規格を選択

ドロップダウンリストで、Code Page フィールドまたは Unicode Subrange フィールドから適切な文字エンコーディング規格を選択します。

文字を選択

下の表で該当する文字を選択します。

選択した文字を確認

選択した文字は Selected characters フィールドに表示されます。キーボードで文字セットを指定することもできます。

文字の割合を指定

Portion in text, % フィールドで、検索対象のテキストに含まれる文字の割合 (0～100) を指定します。

Code Page、Unicode Subrange、および Character String 要素で許可する文字を選択するための文字グリッドを備えた文字セットエディター

正規表現

正規表現 は、正規表現を用いて検索対象のテキストを定義します。正規表現は、専用の記述言語で、単語やその他の入力値の構造を表します。文字の取りうる組み合わせとそれらの位置関係を定義することで、検索対象テキストの構造を表現します。正規表現による検索は厳密であり、作成したパターンは正規表現に正確に一致している必要があります。通常、この検索方法は、文書画像の品質が高く、認識エラーがない場合に使用します。正規表現で検索対象のテキストを定義するには、Method の Regular Expression を選択し、下のフィールドに移動します。開いたエディターで正規表現を指定します。

正規表現のアルファベット

リスト内の名称	field 内の記号	例
任意の文字	*	“k”*“t” – 「kit」「kat」などが可能
文字	C	C”at” – cat、bat、Rat、mat などが可能
大文字	A	A”at” – Cat、Bat、Rat、Mat などが可能
小文字	a	a”at” – car、bat、rat、mat などが可能
文字または数字	X	X – 任意の単一の文字または数字が可能
数字	N	N”th” – 5th、4th、6th などが可能
文字列	""	"cat”
または			”dr”(“i"	"u”)“nk” – “drink” または “drunk” が可能
セット内の文字	[]	[hm]“at” – 「hat」または「mat」が可能
セット外の文字	[^]	[^b]“at” – 「cat」「mat」「rat」は可、bat は不可
任意回数の繰り返し (左の式または部分式に適用)	`{-}`	`[AB74]{-}` – A、B、7、4 の任意長の任意の組み合わせが可能
繰り返し回数が n	`{n}`	`N{2}"th"` – 25th、84th、11th などが可能
n から m 回の繰り返し	`{n-m}`	`N{1-3}"th"` – 5th、84th、111th などが可能
0 から n 回の繰り返し	`{-n}`	`N{-2}"th"` – th、84th、4th などが可能
n 回以上の繰り返し	`{n-}`	`N{2-}"th"` – 25th、834th、311th、34576th などが可能
部分式	()

正規表現の例

ユースケース	正規表現	値の例
郵便番号	`[0-9]{6}`	”142172”
ZIPコード (USA)	`[0-9]{5}("-"[0-9]{4}){-1}`	”55416”, “33701-4313”
収入	`N{4-8}[,]N{2}`	”15000,00”, “4499,00”
月 (数値)	`((\|"0")[1-9])\|("10")\|("11")\|("12")`	”4”, “05”, “12”
小数	`("-"\|)([0-9]{1-})(\|(("."\| ",")([0-9]{1-})))`	”1234,567”, “0.99”, “100,0”, “-345.6788903”
メールアドレス	`[A-Za-z0-9_]{1-}(("."\| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."\| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}\|"asia"\|"museum"\|"travel"\|"example"\|"localhost")`	”support@abbyy.com”, “my-name@company.org.ru”, “info@gallery.museum”

拡張正規表現

拡張正規表現は、開き角かっこの直後に続くパーセント記号で始まり、パーセント記号に続く閉じ角かっこで終わる構文 ([% and %]) で追加機能を囲んだ正規表現です。拡張正規表現には、次の追加機能があります。

角かっこ内の1文字以上に、一般的なOCR誤認識が補われます。たとえば、[%S%] では S、$、5 が許容される場合があります。
一般的な文字セットとOCR誤認識を表す、[%...%] 内の特別な語:
- LETTERS — ラテン大文字、およびラテン大文字として一般的に認識される文字。
- DIGITS — 数字、および数字として一般的に認識される文字。
- LETTERSANDDIGITS — ラテン大文字、数字、およびラテン大文字や数字として一般的に認識される文字。

たとえば、[%DIGITS%]{9} は、9文字連続の数字、または数字に対する一般的なOCR誤認識を指定します。例: “OI234Sb7B9”。

追加プロパティ

許容エラー は、認識エラーの最大許容割合を指定します。言い換えると、定義された文字セット外の文字が全体の文字数に占める最大許容割合を示します。オブジェクトの仮説は、その認識エラー率が指定値を超えていない場合にのみ立てられます。
単語数 は、検索対象テキストに含まれる単語の最小数と最大数を指定します。
文字数 は、検索対象テキストに含まれる文字の最小数と最大数を指定します。
語の一部を検索 は、仮説に単語の断片を許可するかどうかを指定します。単語の断片を含む仮説を除外し、完全一致の単語のみを検索する必要がある場合は、このオプションを無効にします。

詳細プロパティ

埋め込み仮説を許可 は、検索領域内の文字を用いて、交差および埋め込みの仮説を含むあらゆる可能な仮説を生成できるようにします。
最大スペース長 は、検出されたオブジェクト内の空白の最大長を指定します。
テキストの向き は、検索対象のテキストの向きを指定します。既定では、このアクティビティは水平方向のテキストのみを検索し、回転したテキストについては仮説を作成しません。特定の向きに回転したテキストのみを検出し、他の向きのテキストを無視したい場合は、時計回り または 反時計回り のいずれか一方のみを選択してください。向きに関係なくテキストを検出したい場合は、利用可能なすべてのオプションを有効にしてください。
単語の検出方法 は、行を単語に分割する方法を指定します。自動 (認識前) にするか、隣接する文字間の空白が 最小単語間スペース に入力した値以上の場合に行を単語に分割する (単語間スペース) かを選択します。

高度なモードでは、プロパティ 単語数 と 文字数 は数値ではなくファジー区間で設定します。詳細はファジー区間およびファジー区間エディタを参照してください。詳細プロパティを表示するには、Properties ペインで詳細モードのアイコンをクリックします。

​メソッド

​文字

​文字セットの設定

​正規表現

​正規表現のアルファベット

​正規表現の例

​拡張正規表現

​追加プロパティ

​詳細プロパティ