Character String

Character String は、左から右へ1行に記された文字列を表す FlexiLayout の要素です。文字列は、単語または単語の一部で構成される場合があります。 Character String 要素は、FlexiLayout ツリーで

で示されます。 Character String 要素は、特定されていないテキストを探すために使用されます。プログラムは、要素の検索領域内で事前認識中に検出された 認識済みの単語 オブジェクトを候補として扱います。通常、Character String は static text の隣に配置されます。たとえば、文書の Ref. No. を見つけるために、FlexiLayout Studio はまず static text “Ref. No.” を見つけ、その隣にある数字を探します。

検索するテキストの記述

対応するオブジェクトを設定するには、Properties ダイアログの Character String タブをクリックします。 Properties ダイアログを開くには、FlexiLayout ツリー内の要素を右クリックし、ショートカットメニューで Properties… を選択します。

ABBYY FlexiLayout Studio の要素の Properties ダイアログにある Character String タブのスクリーンショット。

検索するテキストは、正規表現またはアルファベットを使用して記述できます。

正規表現を使用した検索テキストの記述

正規表現は、文字の組み合わせのパターンを定義します。これを使用する場合、仮説はその条件を満たしている必要があります。このメソッドは、誤認識のない高品質な文書に使用します。正規表現を入力するには、Regular expression オプションを選択し、その横のfieldに式を入力します。

ボタンをクリックすると、オプション (Any Letter、Character From Set など) のドロップダウンリストを開くこともできます。オプションを選択すると、対応する正規表現がfieldに入力されます。

正規表現の構文

リスト内の名前	field 内の記号	例
任意の文字	*	“k”*“t” – ‘kit’、‘kat’ などを許可します。
英字	C	C”at” – cat、bat、Rat、mat などを許可します。
大文字の英字	A	A”at” – Cat、Bat、Rat、Mat などを許可します。
小文字の英字	a	a”at” – cat、bat、rat、mat などを許可します。
英字または数字	X	X – 任意の1文字の英字または数字を許可します。
数字	N	N”th” – 5th、4th、6th などを許可します。
文字列	""	"cat”
または			”dr”(“i"	"u”)“nk” – “drink” または “drunk” を許可します。
セット内の文字	[]	[hm]“at” – ‘hat’ または ‘mat’ を許可します。
セット外の文字	[^]	[^b]“at” – ‘cat’、‘mat’、‘rat’ は許可しますが、bat は許可しません。
繰り返し回数は任意 (左側の式または部分式に適用)	{-}	[AB74]{-} – A、B、7、4 を任意の長さで自由に組み合わせることができます。
繰り返し回数が n	{n}	N{2}“th” – 25th、84th、11th などを許可します。
n 回から m 回の繰り返し	{n-m}	N{1-3}“th” – 5th、84th、111th などを許可します。
0 回から n 回の繰り返し	{-n}	N{-2}“th” – th、84th、4th などを許可します。
n 回以上の繰り返し	{n-}	N{2-}“th” – 25th、834th、311th、34576th などを許可します。
部分式	()

アルファベットを使用して検索テキストを記述する

アルファベットは、検索テキストに出現し得る文字の一覧です。このメソッドは、文字列を正規表現で記述できない場合や、画質が低いために認識されたテキストに多数の誤りがある場合に使用します。 Character String 要素には、複数のアルファベットを指定できます。テキストの形式が不明な場合は、アルファベットを指定しません。その場合、FlexiLayout Studio は要素に対応するオブジェクトを検索する際に、考えられるすべての文字を考慮します。

仮説生成モードを選択する

検索領域内の文字を使用して、交差する仮説や埋め込み仮説を含むすべての仮説を生成するには、Allow embedded hypotheses を選択します。最大長の仮説を生成するには、Allow embedded hypotheses をオフにします。

1 つ以上のアルファベットを作成する

アルファベットごとに:

Add… をクリックします。
Add New Alphabet ダイアログで、Code page リストから必要なコードページを選択します。
Character map で、検索テキストに含まれる文字を選択します。選択した文字とその数は、Selected on screen/selected in all field に表示されます。
Percentage of alphabet characters field で、検索テキスト内のアルファベット文字の必要な割合を指定します。

複数のアルファベットを指定できますが、互いに重複してはいけません。つまり、同じ文字を含めることはできません。

アルファベットを削除するには、Alphabets リストで対象のアルファベットを選択し、Delete をクリックします。アルファベット文字を追加または削除するには、Alphabets リストで対象のアルファベットを選択し、Edit… をクリックします。 Percentage of non-alphabet characters field で、どのアルファベットにも属さない文字の許容割合を指定します。

Additional Character String properties

検索テキストの記述に使用するメソッドによっては、次のプロパティを指定する必要があります。

Whole words only – 完全な単語のみを検索します。
Detect words by interword space – 行をどのように単語に分割するかを指定します。単語を自動的に検出するには、このオプションを無効にします。有効にすると、隣接する文字間のスペースが Min interword space に入力した値以上になるたびに、行が単語に分割されます。
単語を自動検出する場合、単語の終端はスペース、単語を区切るその他の記号 (たとえば ,、;、/、?) 、またはその他の属性に基づいて検出されます。区切り記号の正確なセットは、選択した事前認識言語によって異なります。FlexiLayout Studio が行を正しく単語に分割できるようにするには、テスト画像上のテキストオブジェクトを確認してください (View → Images → Objects → Recognized Words) 。
Word count – ファジー区間を使用して、文字列内の単語数を指定します。デフォルトの区間は {-1,-1,INF,INF} です (つまり、任意の単語数の仮説が一致します) 。
Max space length – オブジェクト内のスペースの最大長を、ユーザー定義の単位で指定します。スペースの長さは、隣接するオブジェクトの座標を確認することで見積もることができます。隣接するオブジェクトにマウスカーソルを合わせると、その座標がステータスバーに表示されます。テキストを検索する際は、隣接する要素間の距離が Max space length を超えるまで、文字列に文字が追加されます。
Character count – ファジー区間を使用して文字列の長さ (文字数) を指定します。これは、長さに基づいて仮説の品質も評価します。ボタンを使用すると、ファジー区間を別ウィンドウで指定し、視覚的に確認できます。

Static Text

Paragraph

⌘I

Introducing ABBYY FlexiLayout Studio

Program interface

Projects

Batches

FlexiLayouts

Multi-page FlexiLayout

Pre-recognition

Elements

Blocks

Working with tables

Hypotheses and trees of hypotheses

Debugging the FlexiLayout

Classification

Export

FlexiLayout language

Tips and tricks

Appendix

Tutorial

検索するテキストの記述

正規表現を使用した検索テキストの記述

正規表現の構文

アルファベットを使用して検索テキストを記述する

Additional Character String properties

​検索するテキストの記述

​正規表現を使用した検索テキストの記述

​正規表現の構文

​アルファベットを使用して検索テキストを記述する

​Additional Character String properties

​関連トピック

検索するテキストの記述

正規表現を使用した検索テキストの記述

正規表現の構文

アルファベットを使用して検索テキストを記述する

Additional Character String properties

関連トピック