トークンテンプレート - ABBYY Documentation

操作	構文	説明	例
トークン	`[]`	角括弧は1つのトークンを囲みます。	`[]` 任意の単語または句読点
トークンのテキスト	`""`	引用符は、指定したテキストのトークンを表します。	`[“Grantor”]` テキストが “Grantor” のトークン。
変数	`:`	コロンは、その後に続くトークン列に名前を割り当てるために使用します。注: 変数を使用できるのは同じルール内のみです。つまり、右側部分がセミコロンで終わるまでです。	`[t: “Contract”]` “Contract” という単語を含むトークンを見つけて、変数 t に割り当てます。
レンマ	`L”word”Lemma”word”`	単語の前に “L” または “Lemma” を付けると、その単語のあらゆる語形が検索対象になります。	`[L”rule”]` “rule”、“rules”、“ruled”、“ruling” などのトークンがすべて見つかります。
正規表現	`/regular expression/`	正規表現は単一のスラッシュ (/) で囲みます。正規表現による値検索要素と同様に、 PCRE2 の正規表現構文を使用します。	`/[1]?\d:\d{2}\s+(([ap].m.)\|([AP]M))?/` テンプレートは、たとえば “2:00 p.m.” や “9:34 AM” などの 12 時間形式の時刻に一致します。
正規表現のオプション設定	`/regular expression/i`	オプション設定は、正規表現の末尾を閉じるスラッシュの後に指定できます。たとえば、“i” オプションは、正規表現を大文字と小文字を区別せずにマッチングすることを意味します。	`/[1]?\d:\d{2}\s+([ap].?m.?)?/i` このテンプレートは、大文字と小文字を区別しないマッチングを利用して、上記の例を簡略化したものです。たとえば、 “2:00 p.m.” や “9:34 AM” のような 12 時間形式の時刻にマッチします。
トークン述語	`<first_in_paragraph>`	トークンが段落の先頭にあります。	`[“Section” <first_in_paragraph>]` 「Section」という単語が段落の先頭にあります。これは、たとえば、このトークンの直後にあるセクション番号を抽出するのに使用できます。
トークン述語	`<punctuator>`	このトークンは句読記号です。	`[“Tenant”] [<punctuator>]{0,2}` 単語 “Tenant” の後には、閉じ角かっこやコンマなど、最大2つまでの句読記号が続く場合があります。
トークン述語	`<initial_letter_capitalized>`	トークンは先頭が大文字です。	`[L”agreement” <initial_letter_capitalized>]` このテンプレートは “Agreement” と “Agreements” には一致しますが、“agreement” には一致しません。
トークン述語	`<mixed_capitalization>`	トークン内の文字の一部のみが大文字です。	`[L”letter” <mixed_capitalization>]` このテンプレートは、たとえば “Letters” や “letteR” に一致します。
トークン述語	`<all_letters_capitalized>`	このトークンはすべて大文字です。	`[t: @NEROrganization <all_letters_capitalized>]+` このテンプレートは、すべて大文字で記述された組織を表す固有表現に一致します。
論理 OR	`\|`	縦棒は、トークンの代替テキストまたは代替条件を指定するために使用します。	`[“Lender” \| “Co-Lender”] [“shall”] [“have”]` このテンプレートは、“Lender shall have” または “Co-Lender shall have” のいずれかの文字列に一致します。
論理 AND	スペース	スペースは、トークン条件における論理積として使用されます。	`[t: “Section” <first_in_paragraph>]` “Section” という語を含み、かつ段落の先頭にあるトークンを見つけます。
オブジェクト条件	`@object_name`	アットマーク (”@”) は、トークンがオブジェクト領域内にあることを示します。サポートされているオブジェクトは次のとおりです。固有表現オブジェクト (専用の検索要素としても使用できるものと同じ型で、“NER” という接頭辞が付きます) : `NERPerson`, `NEROrganization`, `NERAddress`, `NERLocation`, `NERDate`, `NERDuration`, `NERMoney`; 検索要素; `Sentence` - テキストフロー内の文ごとに個別のオブジェクトが作成されます; `Paragraph` - テキストフロー内の段落ごとに個別のオブジェクトが作成されます。	`[t: @NEROrganization]+ [“Lender”]` NEROrganization エンティティを含み、その後にキーワード “Lender” が続くトークンシーケンスに t という名前を付けます。 `[t: @NERPerson @Preamble_Segment ]+` 前文セグメント内の人名を検出します (Input field 検索要素で表されます) 。
類似したオブジェクトの区別	`@object_name( same )`	“same” は、繰り返しトークンに対して、この型の複数のオブジェクトではなく、同じオブジェクトがトークン列にマッチすることを意味します。オブジェクト条件で論理 OR を使用している場合は、“same” を使用しないでください。	たとえば、人名が連続して並んだリストがある場合、それらはすべて NERPerson として検出されます。1 回に 1 人分の名前を抽出するには、“same” 条件を使用します。 `[t: @NERPerson( same )]+` は、最初に見つかった人に t という名前を割り当てます。
相対位置	`@object_name( right_to( another_object ))@object_name( left_to( another_object ))`	“right_to” は、object_name がかっこ内で指定された another_object の後にあることを意味します。“left_to” は、object_name がかっこ内で指定された another_object の前にあることを意味します。	`[ t: @NERAddress( same, right_to( id1 ), left_to( id2 ) )]` id1 と id2 の間にある NERAddress 固有表現を検出します。
論理OR (オブジェクト条件で使用)	`\|`	縦棒は、オブジェクト条件における論理和としても使用できます。	`[t: @NERPerson( right_to( id1 ) \| right_to( id2 ) )]` id1 の後または id2 の後にある人名に、t という名前を割り当てます。
トークン列	スペース	列内のトークンはスペースで区切られます。	`[“Grantor”] [”:”]` このテンプレートは “Grantor:” に一致します。これらの語句を抽出する必要がない場合でも、コンテキストのためにトークンを指定できます。
代替トークン列	`[token1]\|([token2][token3])`	代替トークン列を指定するには縦棒を使用します。丸括弧は優先度を設定します。	`[“will”] ([“start”] \| ([“take”] [“place”])) [“on”]` このテンプレートは、“will start on” と “will take place on” のいずれかに一致します。なお、括弧を省略すると、このテンプレートは “will start place on” にも一致してしまいます。括弧を付けることで、“take place” という句が完全な形で存在するか、まったく存在しないかのどちらかになることが保証されます。注: 実際のより複雑な代替トークン列では、代替ごとに個別のルールを作成した方が便利な場合があります。 `[“will”] [“start”] [“on”]` `=>` `…;` `[“will”] [“take”] [“place”] [“on”]` `=>` `…;`
省略可能なトークン	`[]?`	疑問符は、そのトークンが省略可能であることを示します。	`[“Tenant”] [”.”]?` “Tenant” の後にはドットを付けることもできます。
省略可能な繰り返しトークン	`[]*`	アスタリスクは、そのトークンが省略可能で、複数回繰り返せることを意味します。	`[“Grantor”] []* [“Tenant”]` キーワード “Grantor” と “Tenant” は、任意の数のトークンで区切られる場合もあれば、まったく区切られない場合もあります。
必須の繰り返しトークン	`[]+`	プラス記号は、そのトークンが少なくとも1回は見つかる必要があり、繰り返し現れてもよいことを意味します。	`[@NERPerson]+` 人名が見つかる必要があることを指定します。氏名は通常複数の単語で構成されるため、複数のトークンにまたがる場合があります。
指定した回数だけ繰り返すトークン	`[]{n,}[]{n,m}`	波かっこ内の数値は、トークンを n 回から m 回まで繰り返すことを示します。2 番目の数値が指定されていない場合は、トークンを少なくとも n 回繰り返します。注: ご覧のとおり、`{0,}` は `*` と等価で、`{1,}` は `+` と等価です。	`[“Grantor”] []{1,3} [“Tenant”]` キーワード “Grantor” と “Tenant” は、1 ～ 3 個のトークンで区切る必要があります。これは `*` より便利な場合があります。2 つのキーワードが互いに離れすぎないように指定できるためです。