Zum Hauptinhalt springen
| Operation | Syntax | Beschreibung | Beispiel | | :----------------------------------------- | :------------------------------------------------------------------------------------- || :----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------ || | token | [] | Eckige Klammern umschließen ein einzelnes Token. | [] Beliebiges Wort oder Satzzeichen. | | token text | "" | Anführungszeichen kennzeichnen ein Token mit dem angegebenen Text. | ["Grantor"] Ein Token mit dem Wort „Grantor”. | | variable | : | Ein Doppelpunkt wird verwendet, um der darauf folgenden Token-Sequenz einen Namen zuzuweisen. Hinweis: Die Variable ist nur innerhalb derselben Regel verfügbar, d. h. bis der rechte Teil mit einem Semikolon abgeschlossen ist. | [t: "Contract"] Findet ein Token, das das Wort „Contract” enthält, und weist es der Variablen t zu. | | lemma | L"word" Lemma"word" | „L” oder „Lemma” vor einem Wort bedeutet, dass die Suche alle Formen dieses Wortes finden soll. | [L"rule"] Tokens wie „rule”, „rules”, „ruled” und „ruling” werden alle gefunden. | | regular expression | /regular expression/ | Einfache Schrägstriche umschließen einen regulären Ausdruck. Wie bei den Suchelementen Value from Regular Expression wird die Syntax für reguläre Ausdrücke von PCRE2 verwendet. | /[1]?\d:\d{2}\s+(([ap]\.m\.) | ([AP]M))?/ Die Vorlage findet die Uhrzeit im 12-Stunden-Format, z. B. „2:00 p.m.”, „9:34 AM”. | | option setting for regular expressions | /regular expression/i | Die Optionseinstellung kann nach dem Schrägstrich gesetzt werden, der den regulären Ausdruck schließt. Die Option „i” bedeutet beispielsweise eine Groß-/Kleinschreibung ignorierende Übereinstimmung des regulären Ausdrucks. | /[1]?\d:\d{2}\s+([ap]\.?m\.?)?/i Diese Vorlage vereinfacht das obige Beispiel mithilfe der Groß-/Kleinschreibung ignorierenden Übereinstimmung. Sie findet die Uhrzeit im 12-Stunden-Format, z. B. „2:00 p.m.”, „9:34 AM”. | | token predicates | <first_in_paragraph> | Das Token ist das erste in einem Absatz. | ["Section" <first_in_paragraph>] Das Wort „Section” beginnt den Absatz. Sie können dies beispielsweise verwenden, um die Abschnittsnummer zu extrahieren, die unmittelbar auf dieses Token folgt. | | token predicates | <punctuator> | Das Token ist ein Satzzeichen. | ["Tenant"] [<punctuator>]{0,2} Auf das Wort „Tenant” können bis zu zwei Satzzeichen folgen, z. B. eine schließende Klammer und ein Komma. | | token predicates | <initial_letter_capitalized> | Das Token beginnt mit einem Großbuchstaben. | [L"agreement" <initial_letter_capitalized>] Diese Vorlage findet „Agreement” und „Agreements”, aber nicht „agreement”. | | token predicates | <mixed_capitalization> | Einige, aber nicht alle Buchstaben des Tokens sind großgeschrieben. | [L"letter" <mixed_capitalization>] Diese Vorlage findet beispielsweise „Letters” und „letteR”. | | token predicates | <all_letters_capitalized> | Das Token besteht ausschließlich aus Großbuchstaben. | [t: @NEROrganization <all_letters_capitalized>]+ Diese Vorlage findet benannte Entitäten für Organisationen, die in Großbuchstaben geschrieben sind. | | logical OR | | | Ein senkrechter Strich wird verwendet, um alternativen Token-Text oder alternative Bedingungen für das Token anzugeben. | ["Lender" | "Co-Lender"] ["shall"] ["have"] Diese Vorlage findet eine der folgenden Zeichenfolgen: „Lender shall have” oder „Co-Lender shall have” | | logical AND | space | Leerzeichen wird als logische Konjunktion für Token-Bedingungen verwendet. | [t: "Section" <first_in_paragraph>] Findet ein Token, das das Wort „Section” enthält UND einen Absatz beginnt. | | object condition | @object_name | Ein At-Zeichen („@”) prüft, ob sich das Token innerhalb einer Objektregion befindet. Die folgenden Objekte werden unterstützt: Benannte Entitätsobjekte, dieselben Typen, die auch als spezialisierte Suchelemente verfügbar sind, mit dem Präfix „NER”: NERPerson, NEROrganization, NERAddress, NERLocation, NERDate, NERDuration, NERMoney; Suchelemente; Sentence – Für jeden Satz im Textfluss wird ein separates Objekt erstellt; Paragraph – Für jeden Absatz im Textfluss wird ein separates Objekt erstellt. | [t: @NEROrganization]+ ["Lender"] Weist einer Token-Sequenz, die eine NEROrganization-Entität enthält und auf die das Schlüsselwort „Lender” folgt, den Namen t zu. [t: @NERPerson @Preamble_Segment ]+ Findet einen Personennamen im Präambelsegment (dargestellt durch ein Suchelement Input field). | | separating similar objects | @object_name( same ) | „same” bedeutet, dass bei einem sich wiederholenden Token dasselbe Objekt der Token-Sequenz zugeordnet wird anstelle mehrerer Objekte dieses Typs. Wenn die Objektbedingung ein logisches ODER verwendet, sollte „same” nicht verwendet werden. | Wenn Sie beispielsweise eine Liste von Personennamen haben, die aufeinander folgen, werden sie alle als NERPerson erkannt. Um jeweils einen Personennamen zu extrahieren, verwenden Sie die Bedingung „same”. [t: @NERPerson( same )]+ Weist der ersten gefundenen Person den Namen t zu. | | relative position | @object_name( right_to( another_object )) @object_name( left_to( another_object )) | „right_to” bedeutet, dass object_name nach dem in den Klammern angegebenen another_object gefunden wird. „left_to” bedeutet, dass object_name vor dem in den Klammern angegebenen another_object gefunden wird. | [ t: @NERAddress( same, right_to( id1 ), left_to( id2 ) )] Findet eine benannte Entität NERAddress zwischen id1 und id2. | | logical OR (as used in object conditions) | | | Ein senkrechter Strich kann auch als logische Disjunktion für Objektbedingungen verwendet werden. | [t: @NERPerson( right_to( id1 ) | right_to( id2 ) )] Weist einem Personennamen, der sich entweder nach id1 oder nach id2 befindet, den Namen t zu. | | token sequence | space | Tokens in einer Sequenz werden durch Leerzeichen getrennt. | ["Grantor"] [":"] Diese Vorlage findet „Grantor:”. Tokens können einfach für den Kontext angegeben werden, auch wenn diese Wörter nicht extrahiert werden müssen. | | alternative token sequences | [token1] | ([token2][token3]) | Ein senkrechter Strich wird verwendet, um alternative Token-Sequenzen anzugeben. Runde Klammern legen die Priorität fest. | ["will"] (["start"] | (["take"] ["place"])) ["on"]Diese Vorlage findet eine der folgenden Zeichenfolgen: „will start on” oder „will take place on”. Beachten Sie, dass die Vorlage ohne die Klammern auch „will start place on” finden würde. Die Klammern stellen sicher, dass die Phrase „take place” entweder vollständig vorhanden ist oder gar nicht. Hinweis: Für komplexere reale Fälle alternativer Token-Sequenzen kann es praktischer sein, für jede Alternative eine separate Regel zu schreiben:["will"] ["start"] ["on"] => ...; ["will"] ["take"] ["place"] ["on"] => ...; | | optionales Token | []? | Ein Fragezeichen bedeutet, dass das Token optional ist. | ["Tenant"] ["."]? Auf das Wort „Tenant” kann ein Punkt folgen. | | optionales wiederholbares Token | []* | Ein Sternchen bedeutet, dass das Token optional ist und mehrfach wiederholt werden kann. | ["Grantor"] []* ["Tenant"] Die Schlüsselwörter „Grantor” und „Tenant” können durch eine beliebige Anzahl von Tokens getrennt sein oder direkt aufeinanderfolgen. | | erforderliches wiederholbares Token | []+ | Ein Pluszeichen bedeutet, dass das Token mindestens einmal vorkommen muss und wiederholt werden kann. | [@NERPerson]+ Gibt an, dass ein Personenname gefunden werden muss, möglicherweise über mehrere Tokens verteilt, da Namen in der Regel aus mehreren Wörtern bestehen. | | Token mit festgelegter Wiederholungsanzahl | []{n,} []{n,m} | Zahlen in geschweiften Klammern geben an, dass das Token n- bis m-mal wiederholt werden soll. Wenn die zweite Zahl nicht angegeben ist, muss das Token mindestens n-mal wiederholt werden. Hinweis: Wie Sie sehen, entspricht {0,} dem Operator *, während {1,} dem Operator + entspricht. | ["Grantor"] []{1,3} ["Tenant"] Die Schlüsselwörter „Grantor” und „Tenant” sollen durch 1 bis 3 Tokens getrennt sein. Dies kann nützlicher sein als *, da Sie damit festlegen können, dass die beiden Schlüsselwörter nicht zu weit voneinander entfernt sind. |