[] | 角括弧で単一のトークンを囲みます。 | [] 任意の単語または句読点。 |
| トークンテキスト | "" | 引用符で指定されたテキストを持つトークンを表します。 | ["Grantor"] 「Grantor」という単語を持つトークン。 |
| 変数 | : | コロンを使用して、その後に続くトークンシーケンスに名前を割り当てます。注: 変数は同じルール内でのみ使用可能です。つまり、右辺部分がセミコロンで終了するまでです。 | [t: "Contract"] 「Contract」という単語を含むトークンを検索し、変数tに割り当てます。 |
| 見出し語 | L"word" Lemma"word" | 単語の前の「L」または「Lemma」は、その単語のすべての活用形を検索することを意味します。 | [L"rule"] 「rule」、「rules」、「ruled」、「ruling」などのトークンがすべて検出されます。 |
| 正規表現 | /regular expression/ | スラッシュで正規表現を囲みます。正規表現からの値検索要素と同様に、PCRE2正規表現構文が使用されます。 | /[1]?\d:\d{2}\s+(([ap]\.m\.) | ([AP]M))?/ このテンプレートは12時間形式の時刻にマッチします。例:「2:00 p.m.」、「9:34 AM」。 |
| 正規表現のオプション設定 | /regular expression/i | オプション設定は、正規表現を閉じるスラッシュの後に配置できます。例えば、「i」オプションは、正規表現の大文字小文字を区別しないマッチングを意味します。 | /[1]?\d:\d{2}\s+([ap]\.?m\.?)?/i このテンプレートは、大文字小文字を区別しないマッチングを使用して上記の例を簡略化します。12時間形式の時刻にマッチします。例:「2:00 p.m.」、「9:34 AM」。 |
| トークン述語 | <first_in_paragraph> | トークンが段落の最初にあります。 | ["Section" <first_in_paragraph>] 「Section」という単語が段落を開始します。これを使用して、例えば、このトークンの直後にあるセクション番号を抽出できます。 |
| トークン述語 | <punctuator> | トークンが句読点です。 | ["Tenant"] [<punctuator>]{0,2} 「Tenant」という単語の後に最大2つの句読点が続く場合があります。例えば、閉じ括弧とカンマ。 |
| トークン述語 | <initial_letter_capitalized> | トークンが大文字で始まります。 | [L"agreement" <initial_letter_capitalized>] このテンプレートは「Agreement」と「Agreements」にマッチしますが、「agreement」にはマッチしません。 |
| トークン述語 | <mixed_capitalization> | トークンの一部の文字が大文字ですが、すべてではありません。 | [L"letter" <mixed_capitalization>] このテンプレートは、例えば「Letters」や「letteR」にマッチします。 |
| トークン述語 | <all_letters_capitalized> | トークンがすべて大文字です。 | [t: @NEROrganization <all_letters_capitalized>]+ このテンプレートは、すべて大文字で書かれた組織名エンティティにマッチします。 |
| 論理OR | | | 縦棒を使用して、代替トークンテキストまたはトークンの代替条件を指定します。 | ["Lender" | "Co-Lender"] ["shall"] ["have"] このテンプレートは次のいずれかの文字列にマッチします:「Lender shall have」または「Co-Lender shall have」 |
| 論理AND | スペース | スペースをトークン条件の論理積として使用します。 | [t: "Section" <first_in_paragraph>] 「Section」という単語を含み、かつ段落を開始するトークンを検索します。 |
| オブジェクト条件 | @object_name | アットマーク(「@」)は、トークンがオブジェクト領域内に位置していることを確認します。次のオブジェクトがサポートされています:名前付きエンティティオブジェクト、専門的な検索要素としても利用可能な同じタイプで、「NER」が接頭辞として付きます:NERPerson、NEROrganization、NERAddress、NERLocation、NERDate、NERDuration、NERMoney;検索要素;Sentence - テキストフロー内の各文に対して個別のオブジェクトが作成されます;Paragraph - テキストフロー内の各段落に対して個別のオブジェクトが作成されます。 | [t: @NEROrganization]+ ["Lender"] NEROrganizationエンティティを含み、キーワード「Lender」が続くトークンシーケンスに名前tを割り当てます。[t: @NERPerson @Preamble_Segment ]+ 前文セグメント(入力field検索要素で表される)内の人名を検索します。 |
| 類似オブジェクトの分離 | @object_name( same ) | 「same」は、繰り返しトークンにおいて、このタイプの複数のオブジェクトではなく、同じオブジェクトがトークンのシーケンスにマッチすることを意味します。オブジェクト条件が論理ORを使用している場合、「same」は使用すべきではありません。 | 例えば、人名のリストが連続している場合、それらはすべてNERPersonとして検出されます。一度に1人の名前を抽出するには、「same」条件を使用します。[t: @NERPerson( same )]+ 最初に見つかった人物に名前tを割り当てます。 |
| 相対位置 | @object_name( right_to( another_object )) @object_name( left_to( another_object )) | 「right_to」は、object_nameが括弧内で指定されたanother_objectの後に見つかることを意味します。「left_to」は、object_nameが括弧内で指定されたanother_objectの前に見つかることを意味します。 | [ t: @NERAddress( same, right_to( id1 ), left_to( id2 ) )] id1とid2の間にあるNERAddress名前付きエンティティを検索します。 |
| 論理OR(オブジェクト条件で使用) | | | 縦棒はオブジェクト条件の論理和としても使用できます。 | [t: @NERPerson( right_to( id1 ) | right_to( id2 ) )] id1の後またはid2の後に位置する人名に名前tを割り当てます。 |
| トークンシーケンス | スペース | シーケンス内のトークンはスペースで区切られます。 | ["Grantor"] [":"] このテンプレートは「Grantor:」にマッチします。これらの単語を抽出する必要がない場合でも、トークンは単にコンテキストのために指定できます。 |
| 代替トークンシーケンス | [token1] | ([token2][token3]) | 縦棒を使用して代替トークンシーケンスを指定します。丸括弧で優先順位を設定します。 | ["will"] (["start"] | (["take"] ["place"])) ["on"]このテンプレートは次のいずれかの文字列にマッチします:「will start on」または「will take place on」。括弧を省略した場合、テンプレートは「will start place on」にもマッチすることに注意してください。括弧は「take place」というフレーズが完全に存在するか、まったく存在しないかを保証します。注: より複雑な実際の代替トークンシーケンスの場合、各代替に対して個別のルールを記述する方が便利な場合があります:["will"] ["start"] ["on"] => ...; ["will"] ["take"] ["place"] ["on"] => ...; |
| オプショナルトークン | []? | 疑問符は、トークンがオプショナルであることを意味します。 | ["Tenant"] ["."]? 「Tenant」という単語の後にドットが続く場合があります。 |
| オプショナル繰り返しトークン | []* | アスタリスクは、トークンがオプショナルであり、複数回繰り返すことができることを意味します。 | ["Grantor"] []* ["Tenant"] キーワード「Grantor」と「Tenant」は、任意の数のトークンで区切ることができ、トークンがない場合もあります。 |
| 必須繰り返しトークン | []+ | プラス記号は、トークンが少なくとも1回見つかる必要があり、繰り返すことができることを意味します。 | [@NERPerson]+ 人名が見つかる必要があることを指定します。名前は通常複数の単語で構成されるため、複数のトークンにまたがる可能性があります。 |
| 指定された繰り返し回数のトークン | []{n,} []{n,m} | 中括弧内の数字は、トークンをn回からm回繰り返す必要があることを意味します。2番目の数字が指定されていない場合、トークンは少なくともn回繰り返す必要があります。注: ご覧のとおり、{0,} は * と同等であり、{1,} は + と同等です。 | ["Grantor"] []{1,3} ["Tenant"] キーワード「Grantor」と「Tenant」は、1個から3個のトークンで区切る必要があります。これは * よりも便利な場合があります。2つのキーワードが互いに離れすぎていないことを指定できるためです。 |