Zum Hauptinhalt springen
OperationSyntaxBeschreibungBeispiel
token[]Eckige Klammern umschließen ein einzelnes Token.[] Beliebiges Wort oder Satzzeichen.
token text""Anführungszeichen kennzeichnen ein Token mit dem angegebenen Text.["Grantor"] Ein Token mit dem Wort “Grantor”.
variable:Ein Doppelpunkt wird verwendet, um der nachfolgenden Token-Sequenz einen Namen zuzuweisen. Hinweis: Die Variable ist nur innerhalb derselben Regel verfügbar, d. h. bis der rechte Teil mit einem Semikolon abgeschlossen ist.[t: "Contract"] Findet ein Token, das das Wort “Contract” enthält, und weist es der Variablen t zu.
lemmaL"word" Lemma"word"”L” oder “Lemma” vor einem Wort bedeutet, dass die Suche alle Formen dieses Wortes finden soll.[L"rule"] Tokens wie “rule”, “rules”, “ruled” und “ruling” werden alle gefunden.
regular expression/regular expression/Einfache Schrägstriche umschließen einen regulären Ausdruck. Wie bei den Suchelementen Wert aus regulärem Ausdruck wird die Syntax für reguläre Ausdrücke PCRE2 verwendet.`/[1]?\d:\d2\s+(([ap].m.)([AP]M))?/` Die Vorlage findet die Uhrzeit im 12-Stunden-Format, z. B. “2:00 p.m.”, “9:34 AM”.
option setting for regular expressions/regular expression/iDie Optionseinstellung kann nach dem Schrägstrich platziert werden, der den regulären Ausdruck abschließt. Die Option “i” bedeutet beispielsweise eine Übereinstimmung ohne Berücksichtigung der Groß-/Kleinschreibung./[1]?\d:\d{2}\s+([ap]\.?m\.?)?/i Diese Vorlage vereinfacht das obige Beispiel mithilfe der Übereinstimmung ohne Berücksichtigung der Groß-/Kleinschreibung. Sie findet die Uhrzeit im 12-Stunden-Format, z. B. “2:00 p.m.”, “9:34 AM”.
token predicates<first_in_paragraph>Das Token ist das erste in einem Absatz.["Section" <first_in_paragraph>] Das Wort “Section” beginnt den Absatz. Sie können dies beispielsweise verwenden, um die Abschnittsnummer zu extrahieren, die unmittelbar auf dieses Token folgt.
token predicates<punctuator>Das Token ist ein Satzzeichen.["Tenant"] [<punctuator>]{0,2} Auf das Wort “Tenant” können bis zu zwei Satzzeichen folgen, z. B. eine schließende Klammer und ein Komma.
token predicates<initial_letter_capitalized>Das Token beginnt mit einem Großbuchstaben.[L"agreement" <initial_letter_capitalized>] Diese Vorlage findet “Agreement” und “Agreements”, aber nicht “agreement”.
token predicates<mixed_capitalization>Einige, aber nicht alle Buchstaben des Tokens sind großgeschrieben.[L"letter" <mixed_capitalization>] Diese Vorlage findet beispielsweise “Letters” und “letteR”.
token predicates<all_letters_capitalized>Das Token besteht ausschließlich aus Großbuchstaben.[t: @NEROrganization <all_letters_capitalized>]+ Diese Vorlage findet benannte Entitäten für Organisationen, die in Großbuchstaben geschrieben sind.
logical OR``Ein vertikaler Strich wird verwendet, um alternativen Token-Text oder alternative Bedingungen für das Token anzugeben.`[“Lender""Co-Lender”] [“shall”] [“have”]` Diese Vorlage findet eine der folgenden Zeichenfolgen: “Lender shall have” oder “Co-Lender shall have”
logical ANDspaceLeerzeichen werden als logische Konjunktion für Token-Bedingungen verwendet.[t: "Section" <first_in_paragraph>] Findet ein Token, das das Wort “Section” enthält UND einen Absatz beginnt.
object condition@object_nameEin At-Zeichen (”@”) prüft, ob sich das Token innerhalb eines Objektbereichs befindet. Die folgenden Objekte werden unterstützt: Benannte Entitätsobjekte, dieselben Typen, die auch als spezialisierte Suchelemente verfügbar sind, mit dem Präfix “NER”: NERPerson, NEROrganization, NERAddress, NERLocation, NERDate, NERDuration, NERMoney; Suchelemente; Sentence – Für jeden Satz im Textfluss wird ein separates Objekt erstellt; Paragraph – Für jeden Absatz im Textfluss wird ein separates Objekt erstellt.[t: @NEROrganization]+ ["Lender"] Weist einer Token-Sequenz, die eine NEROrganization-Entität enthält und auf die das Schlüsselwort “Lender” folgt, den Namen t zu. [t: @NERPerson @Preamble_Segment ]+ Findet einen Personennamen im Präambelsegment (dargestellt durch ein Suchelement Eingabefeld).
separating similar objects@object_name( same )”same” bedeutet, dass bei einem sich wiederholenden Token dasselbe Objekt mit der Token-Sequenz abgeglichen wird, anstatt mehrere Objekte dieses Typs. Wenn die Objektbedingung ein logisches ODER verwendet, sollte “same” nicht verwendet werden.Wenn Sie beispielsweise eine Liste von Personennamen haben, die aufeinander folgen, werden sie alle als NERPerson erkannt. Um jeweils einen Personennamen zu extrahieren, verwenden Sie die Bedingung “same”. [t: @NERPerson( same )]+ Weist der ersten gefundenen Person den Namen t zu.
relative position@object_name( right_to( another_object )) @object_name( left_to( another_object ))”right_to” bedeutet, dass object_name nach dem in den Klammern angegebenen another_object gefunden wird. “left_to” bedeutet, dass object_name vor dem in den Klammern angegebenen another_object gefunden wird.[ t: @NERAddress( same, right_to( id1 ), left_to( id2 ) )] Findet eine benannte Entität NERAddress zwischen id1 und id2.
logical OR (as used in object conditions)``Ein vertikaler Strich kann auch als logische Disjunktion für Objektbedingungen verwendet werden.`[t: @NERPerson( right_to( id1 )right_to( id2 ) )]` Weist einem Personennamen, der sich entweder nach id1 oder nach id2 befindet, den Namen t zu.
token sequencespaceTokens in einer Sequenz werden durch Leerzeichen getrennt.["Grantor"] [":"] Diese Vorlage findet “Grantor:”. Tokens können einfach für den Kontext angegeben werden, auch wenn diese Wörter nicht extrahiert werden müssen.
alternative Token-Sequenzen`[token1]([token2][token3])`Ein vertikaler Balken wird verwendet, um alternative Token-Sequenzen anzugeben. Runde Klammern legen die Priorität fest.`[“will”] ([“start”]([“take”] [“place”])) [“on”]Diese Vorlage passt auf eine der folgenden Zeichenketten: „will start on&quot; oder „will take place on&quot;. Beachten Sie, dass die Vorlage ohne die Klammern auch auf „will start place on&quot; passen würde. Die Klammern stellen sicher, dass die Phrase „take place&quot; entweder vollständig vorhanden ist oder gar nicht. **Hinweis:** Bei komplexeren realen Fällen von alternativen Token-Sequenzen kann es praktischer sein, für jede Alternative eine separate Regel zu schreiben:[“will”] [“start”] [“on”] => …; [“will”] [“take”] [“place”] [“on”] => …;`
optionales Token[]?Ein Fragezeichen bedeutet, dass das Token optional ist.["Tenant"] ["."]? Auf das Wort „Tenant” kann ein Punkt folgen.
optionales wiederholbares Token[]*Ein Sternchen bedeutet, dass das Token optional ist und mehrmals wiederholt werden kann.["Grantor"] []* ["Tenant"] Die Schlüsselwörter „Grantor” und „Tenant” können durch eine beliebige Anzahl von Token oder durch kein Token getrennt sein.
erforderliches wiederholbares Token[]+Ein Pluszeichen bedeutet, dass das Token mindestens einmal gefunden werden muss und wiederholt werden kann.[@NERPerson]+ Gibt an, dass ein Personenname gefunden werden muss, möglicherweise über mehrere Token verteilt, da der Name normalerweise aus mehreren Wörtern besteht.
Token mit angegebener Anzahl von Wiederholungen[]{n,} []{n,m}Zahlen in geschweiften Klammern bedeuten, dass das Token n- bis m-mal wiederholt werden soll. Wenn die zweite Zahl nicht angegeben ist, soll das Token mindestens n-mal wiederholt werden. Hinweis: Wie Sie sehen können, ist {0,} gleichbedeutend mit *, während {1,} gleichbedeutend mit + ist.["Grantor"] []{1,3} ["Tenant"] Die Schlüsselwörter „Grantor” und „Tenant” sollen durch 1 bis 3 Token getrennt sein. Dies kann nützlicher sein als *, da Sie angeben können, dass die beiden Schlüsselwörter nicht zu weit voneinander entfernt sind.