メインコンテンツへスキップ
操作構文説明
トークン[]角括弧で単一のトークンを囲みます。[] 任意の単語または句読点。
トークンテキスト""引用符は指定されたテキストを持つトークンを示します。["Grantor"] 「Grantor」という単語を持つトークン。
変数:コロンは、その後に続くトークンシーケンスに名前を割り当てるために使用されます。注: 変数は同じルール内でのみ使用可能です。つまり、右辺部分がセミコロンで終了するまでです。[t: "Contract"] 「Contract」という単語を含むトークンを検索し、変数tに割り当てます。
見出し語L"word" Lemma"word"単語の前の「L」または「Lemma」は、その単語のすべての形式を検索することを意味します。[L"rule"] 「rule」、「rules」、「ruled」、「ruling」などのトークンがすべて検索されます。
正規表現/regular expression/スラッシュで正規表現を囲みます。正規表現からの値検索要素と同様に、PCRE2正規表現構文が使用されます。`/[1]?\d:\d2\s+(([ap].m.)([AP]M))?/` このテンプレートは12時間形式の時刻にマッチします。例:「2:00 p.m.」、「9:34 AM」。
正規表現のオプション設定/regular expression/iオプション設定は、正規表現を閉じるスラッシュの後に配置できます。例えば、「i」オプションは正規表現の大文字小文字を区別しないマッチングを意味します。/[1]?\d:\d{2}\s+([ap]\.?m\.?)?/i このテンプレートは、大文字小文字を区別しないマッチングを使用して上記の例を簡略化します。12時間形式の時刻にマッチします。例:「2:00 p.m.」、「9:34 AM」。
トークン述語<first_in_paragraph>トークンが段落の最初にあります。["Section" <first_in_paragraph>] 「Section」という単語が段落を開始します。例えば、このトークンの直後にあるセクション番号を抽出するために使用できます。
トークン述語<punctuator>トークンが句読点です。["Tenant"] [<punctuator>]{0,2} 「Tenant」という単語の後に最大2つの句読点が続く場合があります。例えば、閉じ括弧とカンマ。
トークン述語<initial_letter_capitalized>トークンが大文字で始まります。[L"agreement" <initial_letter_capitalized>] このテンプレートは「Agreement」と「Agreements」にマッチしますが、「agreement」にはマッチしません。
トークン述語<mixed_capitalization>トークンの一部の文字が大文字になっていますが、すべてではありません。[L"letter" <mixed_capitalization>] このテンプレートは、例えば「Letters」や「letteR」にマッチします。
トークン述語<all_letters_capitalized>トークンがすべて大文字です。[t: @NEROrganization <all_letters_capitalized>]+ このテンプレートは、すべて大文字で書かれた組織の固有表現にマッチします。
論理OR``縦棒は、代替のトークンテキストまたはトークンの代替条件を指定するために使用されます。`[“Lender""Co-Lender”] [“shall”] [“have”]` このテンプレートは、次のいずれかの文字列にマッチします:「Lender shall have」または「Co-Lender shall have」
論理ANDスペーススペースは、トークン条件の論理積として使用されます。[t: "Section" <first_in_paragraph>] 「Section」という単語を含み、かつ段落を開始するトークンを検索します。
オブジェクト条件@object_nameアットマーク(「@」)は、トークンがオブジェクト領域内に位置していることを確認します。次のオブジェクトがサポートされています:固有表現オブジェクト、専門的な検索要素としても利用可能な同じタイプで、「NER」が接頭辞として付きます:NERPersonNEROrganizationNERAddressNERLocationNERDateNERDurationNERMoney;検索要素;Sentence - テキストフロー内の各文に対して個別のオブジェクトが作成されます;Paragraph - テキストフロー内の各段落に対して個別のオブジェクトが作成されます。[t: @NEROrganization]+ ["Lender"] NEROrganizationエンティティを含み、キーワード「Lender」が続くトークンシーケンスに名前tを割り当てます。[t: @NERPerson @Preamble_Segment ]+ 前文セグメント(入力フィールド検索要素で表される)内の人名を検索します。
類似オブジェクトの分離@object_name( same )「same」は、繰り返しトークンにおいて、このタイプの複数のオブジェクトではなく、同じオブジェクトがトークンシーケンスにマッチすることを意味します。オブジェクト条件が論理ORを使用している場合、「same」は使用すべきではありません。例えば、人名のリストが連続している場合、それらはすべてNERPersonとして検出されます。一度に1人の名前を抽出するには、「same」条件を使用します。[t: @NERPerson( same )]+ 最初に見つかった人物に名前tを割り当てます。
相対位置@object_name( right_to( another_object )) @object_name( left_to( another_object ))「right_to」は、object_nameが括弧内で指定されたanother_objectの後に見つかることを意味します。「left_to」は、object_nameが括弧内で指定されたanother_objectの前に見つかることを意味します。[ t: @NERAddress( same, right_to( id1 ), left_to( id2 ) )] id1とid2の間にあるNERAddress固有表現を検索します。
論理OR(オブジェクト条件で使用)``縦棒は、オブジェクト条件の論理和としても使用できます。`[t: @NERPerson( right_to( id1 )right_to( id2 ) )]` id1の後またはid2の後に位置する人名に名前tを割り当てます。
トークンシーケンススペースシーケンス内のトークンはスペースで区切られます。["Grantor"] [":"] このテンプレートは「Grantor:」にマッチします。これらの単語を抽出する必要がない場合でも、トークンは単にコンテキストのために指定できます。
代替トークンシーケンス`[token1]([token2][token3])`縦棒は代替トークンシーケンスを指定するために使用されます。丸括弧は優先順位を設定します。`[“will”] ([“start”]([“take”] [“place”])) [“on”]このテンプレートは次のいずれかの文字列に一致します:「will start on」または「will take place on」。括弧を省略した場合、テンプレートは「will start place on」にも一致することに注意してください。括弧により、「take place」というフレーズが完全に存在するか、まったく存在しないかのいずれかになります。**注:**より複雑な実際の代替トークンシーケンスの場合、各代替に対して個別のルールを記述する方が便利な場合があります:[“will”] [“start”] [“on”] => …; [“will”] [“take”] [“place”] [“on”] => …;`
オプショナルトークン[]?疑問符はトークンがオプションであることを意味します。["Tenant"] ["."]? 「Tenant」という単語の後にドットが続く場合があります。
オプショナル繰り返しトークン[]*アスタリスクはトークンがオプションであり、複数回繰り返される可能性があることを意味します。["Grantor"] []* ["Tenant"] キーワード「Grantor」と「Tenant」は、任意の数のトークンで区切られる場合があり、またはまったく区切られない場合もあります。
必須繰り返しトークン[]+プラス記号はトークンが少なくとも1回見つかる必要があり、繰り返される可能性があることを意味します。[@NERPerson]+ 人名が見つかる必要があることを指定します。名前は通常複数の単語で構成されるため、複数のトークンにまたがる可能性があります。
指定回数の繰り返しトークン[]{n,} []{n,m}中括弧内の数字は、トークンがn回からm回まで繰り返される必要があることを意味します。2番目の数字が指定されていない場合、トークンは少なくともn回繰り返される必要があります。**注:**ご覧のとおり、{0,}*と同等であり、{1,}+と同等です。["Grantor"] []{1,3} ["Tenant"] キーワード「Grantor」と「Tenant」は1~3個のトークンで区切られる必要があります。これは*よりも便利な場合があります。2つのキーワードが互いに離れすぎていないことを指定できるためです。