Zum Hauptinhalt springen
Konfigurieren Sie die Eigenschaften des Elements Character String, um mithilfe von Zeichensätzen oder regulären Ausdrücken nach Zeichenfolgen in einer einzelnen Zeile zu suchen. Das Element Character String verfügt im Abschnitt What to search for über folgende Eigenschaften:

Methode

Methode gibt die Suchmethode für den Text an. Es stehen die folgenden zwei Methoden zur Verfügung:

Zeichen

Zeichen beschreibt den Text anhand festgelegter Zeichensätze, also Sammlungen von Zeichen, die in der gesuchten Sequenz zulässig sind. Diese Methode wird verwendet, wenn sich das Format der Zeichenfolge nicht mit einem regulären Ausdruck beschreiben lässt oder wenn die Bildqualität nicht ausreicht und dadurch Erkennungsfehler auftreten. Für ein Character String-Element können mehrere Zeichensätze angegeben werden; diese Zeichensätze dürfen jedoch keine miteinander gemeinsamen Zeichen enthalten. Ist das Textformat unbekannt, werden keine zulässigen Zeichensätze angegeben und bei der Suche alle möglichen Zeichen berücksichtigt. Um einen Zeichensatz festzulegen, wählen Sie im Feld Method Characters und wechseln Sie zum Feld Characters. Im daraufhin geöffneten Dialogfeld können Sie neue Zeichensätze definieren sowie vorhandene bearbeiten und löschen.

Festlegen eines Zeichensatzes

  1. Wählen Sie den passenden Zeichenkodierungsstandard aus den Dropdown-Listen im Feld Code Page oder im Feld Unicode Subrange.
  2. Wählen Sie die entsprechenden Zeichen in der untenstehenden Tabelle aus.
  3. Die ausgewählten Zeichen werden im Feld Selected characters angezeigt. Sie können einen Zeichensatz auch über die Tastatur festlegen.
  4. Geben Sie im Feld Portion in text, % den Anteil der Zeichen (von 0 bis 100) an, die im gesuchten Text enthalten sind.
CharacterSet

Regulärer Ausdruck

Regulärer Ausdruck beschreibt den Text, nach dem mithilfe eines regulären Ausdrucks gesucht wird. Reguläre Ausdrücke beschreiben die Struktur eines Wortes oder eines anderen eingegebenen Werts mithilfe einer speziellen Sprache. Ein regulärer Ausdruck legt die möglichen Zeichenkombinationen und deren Anordnung zueinander fest und beschreibt so die Struktur des gesuchten Textes. Eine Suche mit regulärem Ausdruck ist präzise – das heißt, die formulierte Hypothese sollte exakt dem regulären Ausdruck entsprechen. Üblicherweise wird diese Suchmethode verwendet, wenn Dokumentbilder von hoher Qualität sind und keine Erkennungsfehler enthalten. Um den gesuchten Text mithilfe eines regulären Ausdrucks zu beschreiben, wählen Sie im Feld Methode die Option Regulärer Ausdruck und wechseln Sie zum darunterliegenden Feld. Geben Sie im sich öffnenden Editor Ihren regulären Ausdruck ein.

Alphabet der regulären Ausdrücke

Name in der ListeSymbol im FeldBeispiel
Beliebiges Zeichen*“k”*“t” – erlaubt ‘kit’, ‘kat’ usw.
BuchstabeCC”at” – erlaubt cat, bat, Rat, mat usw.
GroßbuchstabeAA”at” – erlaubt Cat, Bat, Rat, Mat usw.
Kleinbuchstabeaa”at” – erlaubt car, bat, rat, mat usw.
Buchstabe oder ZifferXX – erlaubt einen beliebigen einzelnen Buchstaben oder eine Ziffer.
ZifferNN”th” – erlaubt 5th, 4th, 6th usw.
String"""cat”
Oder”dr”(“i""u”)“nk” – erlaubt “drink” oder “drunk”.
Zeichen aus der Menge[][hm]“at” – erlaubt ‘hat’ oder ‘mat’.
Zeichen nicht aus der Menge[^][^b]“at” – erlaubt ‘cat’, ‘mat’, ‘rat’, aber nicht bat.
Beliebige Anzahl von Wiederholungen (gilt für den Ausdruck oder Teilausdruck links){-}[AB74]{-} – erlaubt jede Kombination aus A, B, 7, 4 in beliebiger Länge.
Anzahl der Wiederholungen ist n{n}N{2}"th" – erlaubt 25th, 84th, 11th usw.
n bis m Wiederholungen{n-m}N{1-3}"th" – erlaubt 5th, 84th, 111th usw.
0 bis n Wiederholungen{-n}N{-2}"th" – erlaubt th, 84th, 4th usw.
n oder mehr Wiederholungen{n-}N{2-}"th" – erlaubt 25th, 834th, 311th, 34576th usw.
Teilausdruck()

Beispiele für reguläre Ausdrücke

  1. Postleitzahl: [0-9]{6} Ein Beispielwert: “142172”
  2. Postleitzahl (USA): [0-9]{5}("-"[0-9]{4}){-1} Beispielwerte: “55416”, “33701-4313”
  3. Einkommen: N{4-8}[,]N{2} Beispielwerte: “15000,00”, “4499,00”
  4. Monat in numerischer Form: ((|"0")[1-9])|("10")|("11")|("12") Beispielwerte: “4”, “05”, “12”
  5. Bruchzahl: ("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-}))) Beispielwerte: “1234,567”, “0.99”, “100,0”, “-345.6788903”
  6. E‑Mail: [A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost") Beispielwerte: “[email protected]”, “[email protected]”, “[email protected]

Erweiterte reguläre Ausdrücke

Erweiterte reguläre Ausdrücke sind reguläre Ausdrücke mit zusätzlicher Funktionalität, die zwischen einer öffnenden eckigen Klammer, gefolgt von einem Prozentzeichen, und einem Prozentzeichen, gefolgt von einer schließenden eckigen Klammer, eingeschlossen ist ([% und %]). Erweiterte reguläre Ausdrücke bieten die folgenden zusätzlichen Funktionen:
  1. Ein oder mehrere Zeichen innerhalb der Klammern werden um typische OCR-Fehler erweitert. Zum Beispiel kann [%S%] S, $ und 5 zulassen.
  2. Spezielle Schlüsselwörter innerhalb von [%...%] für gängige Zeichensätze und OCR-Fehler: a. LETTERS – Großbuchstaben des lateinischen Alphabets sowie Zeichen, die häufig als solche erkannt werden; b. DIGITS – Ziffern sowie Zeichen, die häufig als Ziffern erkannt werden; c. LETTERSANDDIGITS – Großbuchstaben des lateinischen Alphabets, Ziffern sowie Zeichen, die häufig als Großbuchstaben bzw. Ziffern erkannt werden.
Zum Beispiel gibt [%DIGITS%]{9} neun aufeinanderfolgende Ziffern oder typische OCR-Fehler für Ziffern an, z. B. “OI234Sb7B9”.

Zusätzliche Eigenschaften

  • Zulässige Fehler gibt den maximal zulässigen Erkennungsfehlerprozentsatz an. Anders ausgedrückt bezeichnet er den maximal zulässigen Anteil der Gesamtzeichen, die außerhalb des definierten Zeichensatzes liegen dürfen. Eine Hypothese für ein Objekt kann nur gebildet werden, wenn der Erkennungsfehlerprozentsatz den angegebenen Wert nicht überschreitet.
  • Wortanzahl gibt die minimale und maximale Anzahl an Wörtern im gesuchten Text an.
  • Zeichenanzahl gibt die minimale und maximale Anzahl an Zeichen im gesuchten Text an.
  • Nach Wortteilen suchen legt fest, ob Wortfragmente in Hypothesen zulässig sind. Deaktivieren Sie diese Option, wenn Sie Hypothesen mit Wortfragmenten ausschließen und nur nach vollständigen Wörtern suchen möchten.

Erweiterte Eigenschaften

  • Eingebettete Hypothesen zulassen ermöglicht die Verwendung von Zeichen im Suchbereich, um alle möglichen Hypothesen zu generieren – einschließlich sich überschneidender und eingebetteter Hypothesen.
  • Max. Leerzeichenlänge ermöglicht die Angabe der maximalen Länge des Leerraums innerhalb des erkannten Objekts.
  • Textausrichtung ermöglicht die Angabe der Ausrichtung des gesuchten Textes. Standardmäßig sucht die Aktivität nur nach horizontal ausgerichtetem Text und formuliert keine Hypothesen für gedrehten Text. Wenn Sie Text finden müssen, der in einer bestimmten Weise gedreht ist und Text in allen anderen Richtungen ignorieren möchten, sollten Sie nur die Option Im Uhrzeigersinn oder Gegen den Uhrzeigersinn auswählen. Um Text unabhängig von seiner Ausrichtung zu finden, sollten Sie alle verfügbaren Optionen aktivieren.
  • Wörter erkennen anhand legt fest, wie Zeilen in Wörter unterteilt werden: automatisch (Vor-Erkennung) oder durch Aufteilen einer Zeile in Wörter (Zwischenwortabstand), wenn der Abstand zwischen benachbarten Zeichen größer oder gleich dem in Min. Zwischenwortabstand eingegebenen Wert ist.
Im erweiterten Modus werden die Eigenschaften Wortanzahl und Zeichenanzahl nicht durch einen numerischen Wert festgelegt, sondern durch ein unscharfes Intervall. Details finden Sie unter Unscharfes Intervall und Editor für unscharfe Intervalle. Um erweiterte Eigenschaften anzuzeigen, klicken Sie im Bereich Eigenschaften auf das Symbol für den erweiterten Modus.