Token-Muster - ABBYY Documentation

Operation	Syntax	Beschreibung	Beispiel
token	`[]`	Eckige Klammern umschließen ein einzelnes Token.	`[]` Ein beliebiges Wort oder Satzzeichen.
Token-Text	`""`	Anführungszeichen kennzeichnen ein Token mit dem angegebenen Text.	`[“Grantor”]` Ein Token mit dem Wort “Grantor”.
variable	`:`	Ein Doppelpunkt wird verwendet, um der nachfolgenden Tokensequenz einen Namen zuzuweisen. Hinweis: Die Variable ist nur innerhalb derselben Regel verfügbar, also bis der rechte Teil mit einem Semikolon abgeschlossen ist.	`[t: “Contract”]` Findet ein Token, das das Wort “Contract” enthält, und weist es der Variablen t zu.
Lemma	`L”word”Lemma”word"`	"L” oder “Lemma” vor einem Wort bedeutet, dass bei der Suche alle Formen dieses Wortes gefunden werden.	`[L”rule”]` Token wie “rule”, “rules”, “ruled” und “ruling” werden dann alle gefunden.
regulärer Ausdruck	`/regular expression/`	Ein regulärer Ausdruck wird von Schrägstrichen eingeschlossen. Wie bei den Wert aus regulärem Ausdruck-Suchelementen wird die Syntax für reguläre Ausdrücke von PCRE2 verwendet.	`/[1]?\d:\d{2}\s+(([ap].m.)\|([AP]M))?/` Das Template erkennt die Uhrzeit im 12-Stunden-Format, zum Beispiel “2:00 p.m.” oder “9:34 AM”.
Optionsangabe für reguläre Ausdrücke	`/regular expression/i`	Die Optionsangabe kann nach dem Schrägstrich stehen, der den regulären Ausdruck abschließt. Die Option “i” steht zum Beispiel für ein Matching des regulären Ausdrucks ohne Berücksichtigung der Groß- und Kleinschreibung.	`/[1]?\d:\d{2}\s+([ap].?m.?)?/i` Diese Vorlage vereinfacht das obige Beispiel mithilfe eines Matchings ohne Berücksichtigung der Groß- und Kleinschreibung. Sie findet Uhrzeiten im 12-Stunden-Format, zum Beispiel “2:00 p.m.”, “9:34 AM”.
Token-Prädikate	`<first_in_paragraph>`	Das Token ist das erste in einem Absatz.	`[“Section” <first_in_paragraph>]` Das Wort “Section” beginnt den Absatz. Sie können dies beispielsweise verwenden, um die Abschnittsnummer direkt nach diesem Token zu extrahieren.
Prädikate für Token	`<punctuator>`	Das Token ist ein Satzzeichen.	`[“Tenant”] [<punctuator>]{0,2}` Auf das Wort “Tenant” können bis zu zwei Satzzeichen folgen, zum Beispiel eine schließende Klammer und ein Komma.
Token-Prädikate	`<initial_letter_capitalized>`	Das Token beginnt mit einem Großbuchstaben.	`[L”agreement” <initial_letter_capitalized>]` Dieses Template stimmt mit “Agreement” und “Agreements” überein, aber nicht mit “agreement”.
Tokenprädikate	`<mixed_capitalization>`	Einige, aber nicht alle Buchstaben des Tokens sind großgeschrieben.	`[L”letter” <mixed_capitalization>]` Diese Vorlage entspricht zum Beispiel “Letters” und “letteR”.
Token-Prädikate	`<all_letters_capitalized>`	Das Token besteht ausschließlich aus Großbuchstaben.	`[t: @NEROrganization <all_letters_capitalized>]+` Dieses Template erkennt Organisations-Entitäten, die vollständig in Großbuchstaben geschrieben sind.
logisches ODER	`\|`	Ein senkrechter Strich wird verwendet, um alternativen Token-Text oder alternative Bedingungen für das Token anzugeben.	`[“Lender” \| “Co-Lender”] [“shall”] [“have”]` Diese Vorlage stimmt mit einer dieser beiden Zeichenfolgen überein: “Lender shall have” oder “Co-Lender shall have”
logisches UND	Leerzeichen	Das Leerzeichen wird als logische Konjunktion für Token-Bedingungen verwendet.	`[t: “Section” <first_in_paragraph>]` Findet ein Token, das das Wort “Section” enthält UND am Anfang eines Absatzes steht.
Objektbedingung	`@object_name`	Ein At-Zeichen (”@”) prüft, ob sich das Token innerhalb einer Objektsregion befindet. Die folgenden Objekte werden unterstützt: Named-Entity-Objekte, also dieselben Typen, die auch als spezialisierte Suchelemente verfügbar sind, mit dem Präfix “NER”: `NERPerson`, `NEROrganization`, `NERAddress`, `NERLocation`, `NERDate`, `NERDuration`, `NERMoney`; Suchelemente; `Sentence` - Für jeden Satz im Textfluss wird ein separates Objekt erstellt; `Paragraph` - Für jeden Absatz im Textfluss wird ein separates Objekt erstellt.	`[t: @NEROrganization]+ [“Lender”]` Weist einer Tokensequenz, die eine NEROrganization-Entität enthält und auf die das Schlüsselwort “Lender” folgt, den Namen t zu. `[t: @NERPerson @Preamble_Segment ]+` Findet den Namen einer Person im Präambelsegment (dargestellt durch ein Suchelement vom Typ Input-Feld).
Trennen ähnlicher Objekte	`@object_name( same )`	“same” bedeutet, dass bei einem wiederholten Token dasselbe Objekt der Tokenfolge zugeordnet wird, anstatt mehrere Objekte dieses Typs. Wenn die Objektbedingung ein logisches OR verwendet, sollte “same” nicht verwendet werden.	Wenn Sie beispielsweise eine Liste von Personennamen haben, die direkt aufeinander folgen, werden sie alle als NERPerson erkannt. Um jeweils nur einen Personennamen zu extrahieren, verwenden Sie die Bedingung “same”. `[t: @NERPerson( same )]+` Weist der ersten gefundenen Person den Namen t zu.
relative Position	`@object_name( right_to( another_object ))@object_name( left_to( another_object ))`	“right_to” bedeutet, dass object_name nach dem in den Klammern angegebenen another_object gefunden wird. “left_to” bedeutet, dass object_name vor dem in den Klammern angegebenen another_object gefunden wird.	`[ t: @NERAddress( same, right_to( id1 ), left_to( id2 ) )]` Findet eine NERAddress zwischen id1 und id2.
logisches ODER (wie bei Objektbedingungen verwendet)	`\|`	Als logische Disjunktion für Objektbedingungen kann ebenfalls ein senkrechter Strich verwendet werden.	`[t: @NERPerson( right_to( id1 ) \| right_to( id2 ) )]` Weist t den Namen einer Person zu, die sich entweder nach id1 oder nach id2 befindet.
Token-Sequenz	Leerzeichen	Token in einer Sequenz werden durch Leerzeichen getrennt.	`[“Grantor”] [”:”]` Diese Vorlage stimmt mit “Grantor:” überein. Token können auch einfach als Kontext angegeben werden, selbst wenn diese Wörter nicht extrahiert werden müssen.
alternative Tokenfolgen	`[token1]\|([token2][token3])`	Ein senkrechter Strich wird verwendet, um alternative Tokenfolgen anzugeben. Runde Klammern legen die Priorität fest.	`[“will”] ([“start”] \| ([“take”] [“place”])) [“on”]` Diese Vorlage passt auf eine der folgenden Zeichenfolgen: “will start on” oder “will take place on”. Beachten Sie, dass die Vorlage ohne die Klammern auch auf “will start place on” gepasst hätte. Die Klammern stellen sicher, dass die Phrase “take place” entweder vollständig vorhanden ist oder gar nicht. Hinweis: Bei komplexeren praktischen Fällen mit alternativen Tokenfolgen ist es möglicherweise einfacher, für jede Alternative eine separate Regel zu schreiben: `[“will”] [“start”] [“on”]` `=>` `…;` `[“will”] [“take”] [“place”] [“on”]` `=>` `…;`
optionales Token	`[]?`	Ein Fragezeichen bedeutet, dass das Token optional ist.	`[“Tenant”] [”.”]?` Auf das Wort “Tenant” kann ein Punkt folgen.
optionales wiederholbares Token	`[]*`	Ein Sternchen bedeutet, dass das Token optional ist und beliebig oft wiederholt werden kann.	`[“Grantor”] []* [“Tenant”]` Die Schlüsselwörter “Grantor” und “Tenant” können durch eine beliebige Anzahl von Token getrennt sein oder direkt aufeinander folgen.
erforderliches wiederholbares Token	`[]+`	Ein Pluszeichen bedeutet, dass das Token mindestens einmal vorkommen muss und wiederholt werden kann.	`[@NERPerson]+` Gibt an, dass ein Personenname gefunden werden muss, gegebenenfalls über mehrere Token hinweg, da ein Name in der Regel aus mehreren Wörtern besteht.
Token mit angegebener Anzahl an Wiederholungen	`[]{n,}[]{n,m}`	Zahlen in geschweiften Klammern bedeuten, dass das Token n- bis m-mal wiederholt werden soll. Wenn die zweite Zahl nicht angegeben ist, soll das Token mindestens n-mal wiederholt werden. Hinweis: Wie Sie sehen, ist `{0,}` gleichbedeutend mit `*`, während `{1,}` gleichbedeutend mit `+` ist.	`[“Grantor”] []{1,3} [“Tenant”]` Die Schlüsselwörter “Grantor” und “Tenant” sollten durch 1 bis 3 Token voneinander getrennt sein. Dies kann nützlicher sein als `*`, weil Sie angeben können, dass die beiden Schlüsselwörter nicht zu weit voneinander entfernt sind.