メインコンテンツへスキップ
Character String は、左から右へ1行に記された文字列を表す FlexiLayout の要素です。文字列は、単語または単語の一部で構成される場合があります。 Character String 要素は、FlexiLayout ツリーで で示されます。 Character String 要素は、特定されていないテキストを探すために使用されます。プログラムは、要素の検索領域内で 事前認識 中に検出された 認識済みの単語 オブジェクトを候補として扱います。 通常、Character String は static text の隣に配置されます。たとえば、文書の Ref. No. を探す場合、プログラムはまず static text “Ref. No.” を見つけ、その隣にある数字を探す必要があります。

検索テキストの指定

対応するオブジェクトを指定するには、PropertiesダイアログのCharacter Stringタブをクリックします。Propertiesダイアログを開くには、FlexiLayoutツリーで要素を右クリックし、ショートカット メニューからProperties…を選択します。
検索するテキストは、2つの方法のいずれかで指定できます。

正規表現を使用した検索テキストの記述

正規表現は、文字の組み合わせのパターンを定義します。正規表現を使用する場合、認識結果の候補はその条件を満たしている必要があります。このメソッドは通常、誤認識のない高品質な文書に使用されます。 正規表現を入力するには、[Regular expression] オプションを選択し、その横のfieldに式を入力します。 ボタンをクリックすると、オプション (Any Letter、Character From Set など) のドロップダウンリストを開くこともできます。目的のオプションを選択すると、対応する正規表現がfieldに入力されます。

任意の文字

*

“k”*“t” – ‘kit’、‘kat’ などを許可します。

文字

C

C”at” – cat、bat、Rat、mat などを許可します。

大文字

A

A”at” – Cat、Bat、Rat、Mat などを許可します。

小文字

a

a”at” – cat、bat、rat、mat などを許可します。

文字または数字

Х

X – 任意の 1 文字または 1 桁の数字を許可します。

数字

N

N”th” は 5th、4th、6th などを許可します。

string

""

"cat”

または

|

“dr”(“i”|“u”)“nk” – “drink” または “drunk” を許可します。

集合に含まれる文字

[]

[hm]“at” – ‘hat’ または ‘mat’ を許可します。

集合に含まれない文字

[^]

[^b]“at” – ‘cat’、‘mat’、‘rat’ は許可しますが、bat は許可しません。

繰り返し回数は任意

(左側の式または部分式に適用されます)

{-}

[AB74]{-} – 任意の長さの A、B、7、4 の任意の組み合わせを許可します。

繰り返し回数は n

{n}

N{2}“th” は 25th、84th、11th などを許可します。

n 回から m 回の繰り返し

{n-m}

N{1-3}“th” は 5th、84th、111th などを許可します。

0 回から n 回の繰り返し

{-n}

N{-2}“th” は th、84th、4th などを許可します。

n 回以上の繰り返し

{n-}

N{2-}“th” は 25th、834th、311th、34576th などを許可します。

部分式

()

 

アルファベットを使用した検索テキストの記述

アルファベットには、検索テキストに含まれる可能性のある文字を列挙します。このメソッドは、文字列を正規表現で記述できない場合や、画質が低いために認識されたテキストに誤りが多すぎる場合に使用します。Character String 要素には複数のアルファベットを指定できます。テキストの形式が不明な場合は、アルファベットを指定しません。この場合、プログラムはその要素に対応するオブジェクトを検索する際に、考えられるすべての文字を考慮します。 アルファベットを使用して検索テキストを記述するには:
  1. 仮説生成モードを選択します。検索領域内の文字を使用して、重なり合う仮説や埋め込み仮説を含むすべての可能な仮説を生成するには、Allow embedded hypotheses を選択します。最長の仮説を生成するには、Allow embedded hypotheses をオフにします。
  2. 1 つ以上のアルファベットを作成します。
アルファベットを作成するには:
  1. Add… をクリックします。 2. Add New Alphabet ダイアログで、Code page リストから必要なコードページを選択します。 3. Character map で、検索テキストに含まれる文字を選択します。選択した文字とその数は、Selected on screen/selected in all field に表示されます。 4. Percentage of alphabet characters field で、検索テキスト内のアルファベット文字の必要な割合を指定します。
注。 複数のアルファベットを指定できますが、重複してはなりません。つまり、同じ文字を含めることはできません。 アルファベットを削除するには、Alphabets リストで対象を選択して Delete をクリックします。 アルファベット文字を追加または削除するには、Alphabets リストで必要なアルファベットを選択し、Edit… をクリックします。
  1. Percentage of non-alphabet characters field で、どのアルファベットにも属さない文字の許容割合を指定します。
検索テキストの記述に使用するメソッドによっては、次のプロパティを指定する必要があります。
  1. 単語全体のみを検索する場合は、Whole words only を選択します。
  2. Detect words by interword space オプションを使用して、行をどのように単語に分割するかを指定します。単語を自動的に検出するには、このオプションを無効にします。このオプションを有効にすると、隣接する文字間のスペースが Min interword space に入力した値以上であるたびに、行が単語に分割されます。 注。 自動単語検出では、単語の終端は、スペースまたは単語を区切るその他の記号 (例: ” , ”, ” ; ”, ” / ”, ” ? “。正確な記号のセットは、選択した 事前認識 language によって異なります) 、あるいはその他の属性に基づいて検出されます。プログラムが行を正しく単語に分割していることを確認するには、テスト画像上の text objects を確認してください (View → Images → Objects → 認識済みの単語) 。
  3. Word count field で、文字列内の単語数を指定します。単語数は ファジー区間 を使用して指定します。デフォルトの区間は {-1,-1,INF,INF} です (つまり、プログラムは任意の数の単語を含む仮説を検索します) 。
  4. Max space length field で、オブジェクト内のスペースの最大長を指定します。これはユーザー定義の単位で測定されます。スペースの長さは、隣接するオブジェクトの座標を見て見積もることができます。隣接するオブジェクトの上にマウスカーソルを置くと、その座標がステータスバーに表示されます。テキストを検索する際、隣接する要素間の距離が Max space length を超えるまで、文字が文字列に追加されます。
  5. Character count field で、文字列の長さ (つまり文字列内の文字数) を指定します。文字数は ファジー区間 を使用して指定し、その長さに基づいて仮説の Quality を評価します。 ボタンを使用すると、ファジー区間を見やすく可視化した別ウィンドウでファジー区間を指定できます。

関連項目:

要素の作成と削除 要素のプロパティの概要 検索領域 Character String element の追加検索制約