Methode
Zeichen
Festlegen eines Zeichensatzes
- Wählen Sie den passenden Zeichenkodierungsstandard aus den Dropdown-Listen im Feld Code Page oder im Feld Unicode Subrange.
- Wählen Sie die entsprechenden Zeichen in der untenstehenden Tabelle aus.
- Die ausgewählten Zeichen werden im Feld Selected characters angezeigt. Sie können einen Zeichensatz auch über die Tastatur festlegen.
- Geben Sie im Feld
Portion in text, %den Anteil der Zeichen (von 0 bis 100) an, die im gesuchten Text enthalten sind.

Regulärer Ausdruck
Alphabet der regulären Ausdrücke
| Name in der Liste | Symbol im Feld | Beispiel | ||
|---|---|---|---|---|
| Beliebiges Zeichen | * | „k“*„t“ – erlaubt „kit“, „kat“ usw. | ||
| Buchstabe | C | C„at“ – erlaubt cat, bat, Rat, mat usw. | ||
| Großbuchstabe | A | A„at“ – erlaubt Cat, Bat, Rat, Mat usw. | ||
| Kleinbuchstabe | a | a„at“ – erlaubt cat, bat, rat, mat usw. | ||
| Buchstabe oder Ziffer | X | X – erlaubt einen beliebigen einzelnen Buchstaben oder eine Ziffer. | ||
| Ziffer | N | N„th“ erlaubt 5th, 4th, 6th usw. | ||
| String | "" | „cat“ | ||
| Oder | „dr“(„i“ | „u“)„nk“ – erlaubt „drink“ oder „drunk“. | ||
| Zeichen aus der Menge | [] | [hm]„at“ – erlaubt „hat“ oder „mat“. | ||
| Zeichen nicht aus der Menge | [^] | [^b]„at“ – erlaubt „cat“, „mat“, „rat“, erlaubt jedoch kein „bat“. | ||
| Beliebige Anzahl von Wiederholungen (gilt für den Ausdruck oder Teilausdruck links) | {-} | [AB74]{-} – erlaubt jede Kombination aus A, B, 7, 4 beliebiger Länge. | ||
| Anzahl der Wiederholungen ist n | {n} | N{2}„th“ erlaubt 25th, 84th, 11th usw. | ||
| n bis m Wiederholungen | {n-m} | N{1-3}„th“ erlaubt 5th, 84th, 111th usw. | ||
| 0 bis n Wiederholungen | {-n} | N{-2}„th“ erlaubt th, 84th, 4th usw. | ||
| n oder mehr Wiederholungen | {n-} | N{2-}„th“ erlaubt 25th, 834th, 311th, 34576th usw. | ||
| Teilausdruck | () |
Beispiele für reguläre Ausdrücke
-
Postleitzahl:
[0-9]{6}Beispielwert: “142172” -
Postleitzahl (USA):
[0-9]{5}("-"[0-9]{4}){-1}Beispielwerte: “55416”, “33701-4313” -
Einkommen: N
{4-8}[,]N{2}Beispielwerte: “15000,00”, “4499,00” -
Monat als Zahl:
((|"0")[1-9])|("10")|("11")|("12")Beispielwerte: “4”, “05”, “12” -
Dezimalzahl:
("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-})))Beispielwerte: “1234,567”, “0.99”, “100,0”, “-345.6788903” -
E-Mail:
[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost")Beispielwerte: “support@abbyy.com”, “my-name@company.org.ru”, “info@gallery.museum”
Erweiterte reguläre Ausdrücke
[% und %]). Erweiterte reguläre Ausdrücke bieten die folgenden zusätzlichen Funktionen:
-
Ein oder mehrere Zeichen innerhalb der Klammern werden um typische OCR-Fehler erweitert.
Beispielsweise kann
[%S%]S, $ und 5 zulassen. -
Spezielle Schlüsselwörter innerhalb von
[%...%]für gängige Zeichensätze und OCR-Fehler: a. LETTERS – Großbuchstaben des lateinischen Alphabets sowie Zeichen, die häufig als solche erkannt werden; b. DIGITS – Ziffern sowie Zeichen, die häufig als Ziffern erkannt werden; c. LETTERSANDDIGITS – Großbuchstaben des lateinischen Alphabets, Ziffern sowie Zeichen, die häufig als solche Großbuchstaben bzw. Ziffern erkannt werden.
[%DIGITS%]{9} neun aufeinanderfolgende Ziffern oder typische OCR-Verwechslungen für Ziffern an, z. B. „OI234Sb7B9“.
Zusätzliche Eigenschaften
- Zulässige Fehler gibt den maximal zulässigen Erkennungsfehler in Prozent an. Anders ausgedrückt bezeichnet er den maximalen Prozentsatz der Gesamtzahl an Zeichen, die außerhalb des definierten Zeichensatzes liegen dürfen. Eine Hypothese für ein Objekt kann nur erstellt werden, wenn der Erkennungsfehler dafür den angegebenen Wert nicht überschreitet.
- Wortanzahl gibt die minimale und maximale Anzahl der Wörter im gesuchten Text an.
- Zeichenanzahl gibt die minimale und maximale Anzahl der Zeichen im gesuchten Text an.
- Nach Wortteilen suchen legt fest, ob Wortfragmente in Hypothesen zulässig sind. Deaktivieren Sie diese Option, wenn Sie Hypothesen mit Wortfragmenten ausschließen und nur nach ganzen Wörtern suchen möchten.
Erweiterte Eigenschaften
- Eingebettete Hypothesen zulassen ermöglicht die Verwendung von Zeichen im Suchbereich, um alle möglichen Hypothesen zu generieren – einschließlich sich überschneidender und eingebetteter Hypothesen.
- Max. Leerzeichenlänge ermöglicht die Angabe der maximalen Länge des Leerzeichens innerhalb des erkannten Objekts.
- Textausrichtung ermöglicht die Angabe der Ausrichtung des gesuchten Textes. Standardmäßig sucht die Aktivität nur nach horizontal ausgerichtetem Text und formuliert keine Hypothesen für gedrehten Text. Wenn Sie nur Text finden möchten, der in einer bestimmten Weise gedreht ist, und Text in anderen Richtungen ignorieren wollen, wählen Sie ausschließlich Im Uhrzeigersinn oder Gegen den Uhrzeigersinn. Um Text unabhängig von seiner Ausrichtung zu finden, aktivieren Sie alle verfügbaren Optionen.
- Wörter erkennen nach legt fest, wie Zeilen in Wörter unterteilt werden: automatisch (Vor-Erkennung) oder durch Aufteilen einer Zeile in Wörter (Zwischenwortabstand), wenn der Abstand zwischen benachbarten Zeichen größer oder gleich dem in Min. Zwischenwortabstand eingegebenen Wert ist.
