Regeln für reguläre Ausdrücke
| Elementname | Konventionelles Zeichen für reguläre Ausdrücke | Verwendungsbeispiele und Erläuterungen | ||
|---|---|---|---|---|
| Beliebiges Zeichen | . | c.t — steht für Wörter wie „cat“, „cot“ | ||
| Zeichen aus einem Zeichenbereich | [] | [b-d]ell — steht für Wörter wie „bell“, „cell“, „dell“ [ty]ell — steht für die Wörter „tell“ und „yell“ | ||
| Zeichen außerhalb eines Zeichenbereichs | [^] | [^y]ell — steht für Wörter wie „dell“, „cell“, „tell“, schließt aber „yell“ aus [^n-s]ell — steht für Wörter wie „bell“, „cell“, schließt aber „nell“, „oell“, „pell“, „qell“, „rell“ und „sell“ aus | ||
| Oder | \ | c(a\ | u)t — steht für die Wörter „cat“ und „cut“ | |
| 0 oder mehr aufeinanderfolgende Vorkommen | * | 10* — steht für die Zahlen 1, 10, 100, 1000 usw. | ||
| 1 oder mehr aufeinanderfolgende Vorkommen | + | 10+ — erlaubt die Zahlen 10, 100, 1000 usw., schließt aber 1 aus. | ||
| Buchstabe oder Ziffer | [0-9a-zA-Z] | [0-9a-zA-Z] — erlaubt ein einzelnes Zeichen; [0-9a-zA-Z]+ — erlaubt ein beliebiges Wort | ||
| Lateinischer Großbuchstabe | [A-Z] | <br /> | ||
| Lateinischer Kleinbuchstabe | [a-z] | <br /> | ||
| Kyrillischer Großbuchstabe | [А-Я] | <br /> | ||
| Kyrillischer Kleinbuchstabe | [а-я] | <br /> | ||
| Ziffer | [0-9] | <br /> | ||
| Leerzeichen | [\s] | <br /> | ||
| Systemzeichen | @ | <br /> | ||
| Wort aus dem Wörterbuch | @(Dictionary) | Der Parameter Dictionary legt den Pfad zum Benutzerwörterbuch fest, aus dem Wörter übernommen werden müssen. Linux-Pfadbeispiel: @(/opt/MyDictionary.amd) macOS-Pfadbeispiel: “/Users/user/Documents/MyDictionary.amd” Unter Windows müssen Backslashes im Pfad verdoppelt werden. Zum Beispiel: @(D:\MyFolder\MyDictionary.amd). <Note> Einige Programmiersprachen (z. B. C++) erfordern, dass Backslashes in String-Literalen maskiert werden. In diesem Fall benötigen Sie zwei maskierte Backslashes, was zu einem vierfachen Backslash führt. Das obige Beispiel sieht in C++ dann wie folgt aus: </Note> L"@(D:\\\\\\\\MyFolder\\\\\\\\MyDictionary.amd)" |
- Einige der in regulären Ausdrücken verwendeten Zeichen sind „Hilfszeichen“, d. h., sie werden für Systemzwecke verwendet. Wie Sie der obigen Liste entnehmen können, gehören dazu eckige Klammern, Punkte usw. Wenn Sie ein Hilfszeichen als normales Zeichen eingeben möchten, setzen Sie einen Backslash () davor. Beispiel: [t-v]x+ steht für Wörter wie „tx“, „txx“, „txxx“ usw., „ux“, „uxx“ usw., aber [t-v]x+ steht für Wörter wie „[t-v]x“, „[t-v]xx“, „[t-v]xxx“ usw.
- Wenn Sie bestimmte Elemente eines regulären Ausdrucks gruppieren müssen, verwenden Sie Klammern. Zum Beispiel steht (a|b)+|c für „c“ und beliebige Kombinationen wie „abbbaaabbb“, „ababab“ usw. (ein Wort beliebiger Länge größer null, in dem beliebig viele a und b in beliebiger Reihenfolge vorkommen können), während a|b+|c für „a“, „c“ und „b“, „bb“, „bbb“ usw. steht.
Beispiele für reguläre Ausdrücke
Für die Datenerfassung
- Als Erkennungsergebnisse dürfen nur Wörter aus dem Wörterbuch zugelassen werden: Setzen Sie die Eigenschaft IBaseLanguage::AllowWordsFromDictionaryOnly auf TRUE. Dies ist für die exakte Übereinstimmung erforderlich.
- Die Zeichenmenge der Erkennungssprache darf nur die Zeichen enthalten, die im regulären Ausdruck vorkommen: Geben Sie die Eigenschaft IBaseLanguage::LetterSet an. Dies ist erforderlich, da Zeichen aus dem Sprachalphabet auch dann erkannt werden können, wenn sie nicht dem regulären Ausdruck entsprechen.
- Setzen Sie die Eigenschaft IBaseLanguage::IsNaturalLanguage auf FALSE.
Windows-Beispiele
C#-Code
C#-Code
