Methode
Zeichen
Festlegen eines Zeichensatzes
- Wählen Sie den passenden Zeichenkodierungsstandard aus den Dropdown-Listen im Feld Code Page oder im Feld Unicode Subrange.
- Wählen Sie die entsprechenden Zeichen in der untenstehenden Tabelle aus.
- Die ausgewählten Zeichen werden im Feld Selected characters angezeigt. Sie können einen Zeichensatz auch über die Tastatur festlegen.
- Geben Sie im Feld
Portion in text, %den Anteil der Zeichen (von 0 bis 100) an, die im gesuchten Text enthalten sind.

Regulärer Ausdruck
Alphabet der regulären Ausdrücke
| Name in der Liste | Symbol im Feld | Beispiel | ||
|---|---|---|---|---|
| Beliebiges Zeichen | * | “k”*“t” – erlaubt ‘kit’, ‘kat’ usw. | ||
| Buchstabe | C | C”at” – erlaubt cat, bat, Rat, mat usw. | ||
| Großbuchstabe | A | A”at” – erlaubt Cat, Bat, Rat, Mat usw. | ||
| Kleinbuchstabe | a | a”at” – erlaubt car, bat, rat, mat usw. | ||
| Buchstabe oder Ziffer | X | X – erlaubt einen beliebigen einzelnen Buchstaben oder eine Ziffer. | ||
| Ziffer | N | N”th” – erlaubt 5th, 4th, 6th usw. | ||
| String | "" | "cat” | ||
| Oder | ”dr”(“i" | "u”)“nk” – erlaubt “drink” oder “drunk”. | ||
| Zeichen aus der Menge | [] | [hm]“at” – erlaubt ‘hat’ oder ‘mat’. | ||
| Zeichen nicht aus der Menge | [^] | [^b]“at” – erlaubt ‘cat’, ‘mat’, ‘rat’, aber nicht bat. | ||
| Beliebige Anzahl von Wiederholungen (gilt für den Ausdruck oder Teilausdruck links) | {-} | [AB74]{-} – erlaubt jede Kombination aus A, B, 7, 4 in beliebiger Länge. | ||
| Anzahl der Wiederholungen ist n | {n} | N{2}"th" – erlaubt 25th, 84th, 11th usw. | ||
| n bis m Wiederholungen | {n-m} | N{1-3}"th" – erlaubt 5th, 84th, 111th usw. | ||
| 0 bis n Wiederholungen | {-n} | N{-2}"th" – erlaubt th, 84th, 4th usw. | ||
| n oder mehr Wiederholungen | {n-} | N{2-}"th" – erlaubt 25th, 834th, 311th, 34576th usw. | ||
| Teilausdruck | () |
Beispiele für reguläre Ausdrücke
- Postleitzahl:
[0-9]{6}Ein Beispielwert: “142172” - Postleitzahl (USA):
[0-9]{5}("-"[0-9]{4}){-1}Beispielwerte: “55416”, “33701-4313” - Einkommen: N
{4-8}[,]N{2}Beispielwerte: “15000,00”, “4499,00” - Monat in numerischer Form:
((|"0")[1-9])|("10")|("11")|("12")Beispielwerte: “4”, “05”, “12” - Bruchzahl:
("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-})))Beispielwerte: “1234,567”, “0.99”, “100,0”, “-345.6788903” - E‑Mail:
[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost")Beispielwerte: “[email protected]”, “[email protected]”, “[email protected]”
Erweiterte reguläre Ausdrücke
[% und %]). Erweiterte reguläre Ausdrücke bieten die folgenden zusätzlichen Funktionen:
- Ein oder mehrere Zeichen innerhalb der Klammern werden um typische OCR-Fehler erweitert. Zum Beispiel kann
[%S%]S, $ und 5 zulassen. - Spezielle Schlüsselwörter innerhalb von
[%...%]für gängige Zeichensätze und OCR-Fehler: a. LETTERS – Großbuchstaben des lateinischen Alphabets sowie Zeichen, die häufig als solche erkannt werden; b. DIGITS – Ziffern sowie Zeichen, die häufig als Ziffern erkannt werden; c. LETTERSANDDIGITS – Großbuchstaben des lateinischen Alphabets, Ziffern sowie Zeichen, die häufig als Großbuchstaben bzw. Ziffern erkannt werden.
[%DIGITS%]{9} neun aufeinanderfolgende Ziffern oder typische OCR-Fehler für Ziffern an, z. B. “OI234Sb7B9”.
Zusätzliche Eigenschaften
- Zulässige Fehler gibt den maximal zulässigen Erkennungsfehlerprozentsatz an. Anders ausgedrückt bezeichnet er den maximal zulässigen Anteil der Gesamtzeichen, die außerhalb des definierten Zeichensatzes liegen dürfen. Eine Hypothese für ein Objekt kann nur gebildet werden, wenn der Erkennungsfehlerprozentsatz den angegebenen Wert nicht überschreitet.
- Wortanzahl gibt die minimale und maximale Anzahl an Wörtern im gesuchten Text an.
- Zeichenanzahl gibt die minimale und maximale Anzahl an Zeichen im gesuchten Text an.
- Nach Wortteilen suchen legt fest, ob Wortfragmente in Hypothesen zulässig sind. Deaktivieren Sie diese Option, wenn Sie Hypothesen mit Wortfragmenten ausschließen und nur nach vollständigen Wörtern suchen möchten.
Erweiterte Eigenschaften
- Eingebettete Hypothesen zulassen ermöglicht die Verwendung von Zeichen im Suchbereich, um alle möglichen Hypothesen zu generieren – einschließlich sich überschneidender und eingebetteter Hypothesen.
- Max. Leerzeichenlänge ermöglicht die Angabe der maximalen Länge des Leerraums innerhalb des erkannten Objekts.
- Textausrichtung ermöglicht die Angabe der Ausrichtung des gesuchten Textes. Standardmäßig sucht die Aktivität nur nach horizontal ausgerichtetem Text und formuliert keine Hypothesen für gedrehten Text. Wenn Sie Text finden müssen, der in einer bestimmten Weise gedreht ist und Text in allen anderen Richtungen ignorieren möchten, sollten Sie nur die Option Im Uhrzeigersinn oder Gegen den Uhrzeigersinn auswählen. Um Text unabhängig von seiner Ausrichtung zu finden, sollten Sie alle verfügbaren Optionen aktivieren.
- Wörter erkennen anhand legt fest, wie Zeilen in Wörter unterteilt werden: automatisch (Vor-Erkennung) oder durch Aufteilen einer Zeile in Wörter (Zwischenwortabstand), wenn der Abstand zwischen benachbarten Zeichen größer oder gleich dem in Min. Zwischenwortabstand eingegebenen Wert ist.
