Zum Hauptinhalt springen
Das Element Zeichenfolge verfügt im Abschnitt Gesuchter Inhalt über die folgenden Eigenschaften:

Methode

Methode gibt die Suchmethode für den Text an. Es stehen die folgenden zwei Methoden zur Verfügung:

Zeichen

Zeichen beschreibt den Text anhand festgelegter Zeichensätze, also Sammlungen von Zeichen, die in der gesuchten Sequenz zulässig sind. Diese Methode wird verwendet, wenn sich das Format der Zeichenfolge nicht mit einem regulären Ausdruck beschreiben lässt oder wenn die Bildqualität nicht ausreicht und dadurch Erkennungsfehler auftreten. Für ein Character String-Element können mehrere Zeichensätze angegeben werden; diese Zeichensätze dürfen jedoch keine miteinander gemeinsamen Zeichen enthalten. Ist das Textformat unbekannt, werden keine zulässigen Zeichensätze angegeben und bei der Suche alle möglichen Zeichen berücksichtigt. Um einen Zeichensatz festzulegen, wählen Sie im Feld Method Characters und wechseln Sie zum Feld Characters. Im daraufhin geöffneten Dialogfeld können Sie neue Zeichensätze definieren sowie vorhandene bearbeiten und löschen.

Festlegen eines Zeichensatzes

  1. Wählen Sie den passenden Zeichenkodierungsstandard aus den Dropdown-Listen im Feld Code Page oder im Feld Unicode Subrange.
  2. Wählen Sie die entsprechenden Zeichen in der untenstehenden Tabelle aus.
  3. Die ausgewählten Zeichen werden im Feld Selected characters angezeigt. Sie können einen Zeichensatz auch über die Tastatur festlegen.
  4. Geben Sie im Feld Portion in text, % den Anteil der Zeichen (von 0 bis 100) an, die im gesuchten Text enthalten sind.
CharacterSet

Regulärer Ausdruck

Regulärer Ausdruck beschreibt den Text, nach dem mithilfe eines regulären Ausdrucks gesucht wird. Reguläre Ausdrücke beschreiben die Struktur eines Wortes oder eines anderen eingegebenen Werts mithilfe einer speziellen Sprache. Ein regulärer Ausdruck legt die möglichen Zeichenkombinationen und deren Anordnung zueinander fest und beschreibt so die Struktur des gesuchten Textes. Eine Suche mit regulärem Ausdruck ist präzise – das heißt, die formulierte Hypothese sollte exakt dem regulären Ausdruck entsprechen. Üblicherweise wird diese Suchmethode verwendet, wenn Dokumentbilder von hoher Qualität sind und keine Erkennungsfehler enthalten. Um den gesuchten Text mithilfe eines regulären Ausdrucks zu beschreiben, wählen Sie im Feld Methode die Option Regulärer Ausdruck und wechseln Sie zum darunterliegenden Feld. Geben Sie im sich öffnenden Editor Ihren regulären Ausdruck ein.

Alphabet der regulären Ausdrücke

Name in der ListeSymbol im FeldBeispiel
Beliebiges Zeichen*„k“*„t“ – erlaubt „kit“, „kat“ usw.
BuchstabeCC„at“ – erlaubt cat, bat, Rat, mat usw.
GroßbuchstabeAA„at“ – erlaubt Cat, Bat, Rat, Mat usw.
Kleinbuchstabeaa„at“ – erlaubt cat, bat, rat, mat usw.
Buchstabe oder ZifferXX – erlaubt einen beliebigen einzelnen Buchstaben oder eine Ziffer.
ZifferNN„th“ erlaubt 5th, 4th, 6th usw.
String""„cat“
Oder„dr“(„i“„u“)„nk“ – erlaubt „drink“ oder „drunk“.
Zeichen aus der Menge[][hm]„at“ – erlaubt „hat“ oder „mat“.
Zeichen nicht aus der Menge[^][^b]„at“ – erlaubt „cat“, „mat“, „rat“, erlaubt jedoch kein „bat“.
Beliebige Anzahl von Wiederholungen (gilt für den Ausdruck oder Teilausdruck links){-}[AB74]{-} – erlaubt jede Kombination aus A, B, 7, 4 beliebiger Länge.
Anzahl der Wiederholungen ist n{n}N{2}„th“ erlaubt 25th, 84th, 11th usw.
n bis m Wiederholungen{n-m}N{1-3}„th“ erlaubt 5th, 84th, 111th usw.
0 bis n Wiederholungen{-n}N{-2}„th“ erlaubt th, 84th, 4th usw.
n oder mehr Wiederholungen{n-}N{2-}„th“ erlaubt 25th, 834th, 311th, 34576th usw.
Teilausdruck()

Beispiele für reguläre Ausdrücke

  1. Postleitzahl: [0-9]{6} Beispielwert: “142172”
  2. Postleitzahl (USA): [0-9]{5}("-"[0-9]{4}){-1} Beispielwerte: “55416”, “33701-4313”
  3. Einkommen: N{4-8}[,]N{2} Beispielwerte: “15000,00”, “4499,00”
  4. Monat als Zahl: ((|"0")[1-9])|("10")|("11")|("12") Beispielwerte: “4”, “05”, “12”
  5. Dezimalzahl: ("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-}))) Beispielwerte: “1234,567”, “0.99”, “100,0”, “-345.6788903”
  6. E-Mail: [A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost") Beispielwerte: “support@abbyy.com”, “my-name@company.org.ru”, “info@gallery.museum

Erweiterte reguläre Ausdrücke

Erweiterte reguläre Ausdrücke sind reguläre Ausdrücke mit zusätzlicher Funktionalität, die zwischen einer öffnenden eckigen Klammer gefolgt von einem Prozentzeichen und einem Prozentzeichen gefolgt von einer schließenden eckigen Klammer eingeschlossen ist ([% und %]). Erweiterte reguläre Ausdrücke bieten die folgenden zusätzlichen Funktionen:
  1. Ein oder mehrere Zeichen innerhalb der Klammern werden um typische OCR-Fehler erweitert. Beispielsweise kann [%S%] S, $ und 5 zulassen.
  2. Spezielle Schlüsselwörter innerhalb von [%...%] für gängige Zeichensätze und OCR-Fehler: a. LETTERS – Großbuchstaben des lateinischen Alphabets sowie Zeichen, die häufig als solche erkannt werden; b. DIGITS – Ziffern sowie Zeichen, die häufig als Ziffern erkannt werden; c. LETTERSANDDIGITS – Großbuchstaben des lateinischen Alphabets, Ziffern sowie Zeichen, die häufig als solche Großbuchstaben bzw. Ziffern erkannt werden.
Beispielsweise gibt [%DIGITS%]{9} neun aufeinanderfolgende Ziffern oder typische OCR-Verwechslungen für Ziffern an, z. B. „OI234Sb7B9“.

Zusätzliche Eigenschaften

  • Zulässige Fehler gibt den maximal zulässigen Erkennungsfehler in Prozent an. Anders ausgedrückt bezeichnet er den maximalen Prozentsatz der Gesamtzahl an Zeichen, die außerhalb des definierten Zeichensatzes liegen dürfen. Eine Hypothese für ein Objekt kann nur erstellt werden, wenn der Erkennungsfehler dafür den angegebenen Wert nicht überschreitet.
  • Wortanzahl gibt die minimale und maximale Anzahl der Wörter im gesuchten Text an.
  • Zeichenanzahl gibt die minimale und maximale Anzahl der Zeichen im gesuchten Text an.
  • Nach Wortteilen suchen legt fest, ob Wortfragmente in Hypothesen zulässig sind. Deaktivieren Sie diese Option, wenn Sie Hypothesen mit Wortfragmenten ausschließen und nur nach ganzen Wörtern suchen möchten.

Erweiterte Eigenschaften

  • Eingebettete Hypothesen zulassen ermöglicht die Verwendung von Zeichen im Suchbereich, um alle möglichen Hypothesen zu generieren – einschließlich sich überschneidender und eingebetteter Hypothesen.
  • Max. Leerzeichenlänge ermöglicht die Angabe der maximalen Länge des Leerzeichens innerhalb des erkannten Objekts.
  • Textausrichtung ermöglicht die Angabe der Ausrichtung des gesuchten Textes. Standardmäßig sucht die Aktivität nur nach horizontal ausgerichtetem Text und formuliert keine Hypothesen für gedrehten Text. Wenn Sie nur Text finden möchten, der in einer bestimmten Weise gedreht ist, und Text in anderen Richtungen ignorieren wollen, wählen Sie ausschließlich Im Uhrzeigersinn oder Gegen den Uhrzeigersinn. Um Text unabhängig von seiner Ausrichtung zu finden, aktivieren Sie alle verfügbaren Optionen.
  • Wörter erkennen nach legt fest, wie Zeilen in Wörter unterteilt werden: automatisch (Vor-Erkennung) oder durch Aufteilen einer Zeile in Wörter (Zwischenwortabstand), wenn der Abstand zwischen benachbarten Zeichen größer oder gleich dem in Min. Zwischenwortabstand eingegebenen Wert ist.
Im erweiterten Modus werden die Eigenschaften Wortanzahl und Zeichenanzahl nicht durch einen numerischen Wert festgelegt, sondern durch ein unscharfes Intervall. Details finden Sie unter Unscharfes Intervall und Editor für unscharfe Intervalle. Um erweiterte Eigenschaften anzuzeigen, klicken Sie auf das Symbol für den erweiterten Modus im Bereich Eigenschaften.