Typspezifische Eigenschaften des Character String-Elements

Das Character String-Element hat im Abschnitt What to search for die folgenden Eigenschaften:

Methode

Methode gibt die Suchmethode für den Text an. Es stehen die folgenden zwei Methoden zur Verfügung:

Zeichen

Zeichen beschreibt den Text anhand festgelegter Zeichensätze, also Sammlungen von Zeichen, die in der gesuchten Sequenz zulässig sind. Diese Methode wird verwendet, wenn sich das Format der Zeichenfolge nicht mit einem regulären Ausdruck beschreiben lässt oder wenn die Bildqualität nicht ausreicht und dadurch Erkennungsfehler auftreten. Für ein Character String-Element können mehrere Zeichensätze angegeben werden; diese Zeichensätze dürfen jedoch keine miteinander gemeinsamen Zeichen enthalten. Ist das Textformat unbekannt, werden keine zulässigen Zeichensätze angegeben und bei der Suche alle möglichen Zeichen berücksichtigt. Um einen Zeichensatz festzulegen, wählen Sie im Feld Method Characters und wechseln Sie zum Feld Characters. Im daraufhin geöffneten Dialogfeld können Sie neue Zeichensätze definieren sowie vorhandene bearbeiten und löschen.

Festlegen eines Zeichensatzes

Zeichenkodierungsstandard auswählen

Wählen Sie den passenden Zeichenkodierungsstandard aus den Dropdown-Listen im Feld Code Page oder im Feld Unicode Subrange.

Zeichen auswählen

Wählen Sie die entsprechenden Zeichen in der untenstehenden Tabelle aus.

Ausgewählte Zeichen überprüfen

Die ausgewählten Zeichen werden im Feld Selected characters angezeigt. Sie können einen Zeichensatz auch über die Tastatur festlegen.

Anteil der Zeichen angeben

Geben Sie im Feld Portion in text, % den Anteil der Zeichen (von 0 bis 100) an, die im gesuchten Text enthalten sind.

Zeichensatz-Editor mit Code Page, Unicode Subrange und einem Zeichengitter zur Auswahl zulässiger Zeichen in einem Character String-Element

Regulärer Ausdruck

Regulärer Ausdruck beschreibt den Text, nach dem mithilfe eines regulären Ausdrucks gesucht wird. Reguläre Ausdrücke beschreiben die Struktur eines Wortes oder eines anderen eingegebenen Werts mithilfe einer speziellen Sprache. Ein regulärer Ausdruck legt die möglichen Zeichenkombinationen und deren Anordnung zueinander fest und beschreibt so die Struktur des gesuchten Textes. Eine Suche mit regulärem Ausdruck ist präzise – das heißt, die formulierte Hypothese sollte exakt dem regulären Ausdruck entsprechen. Üblicherweise wird diese Suchmethode verwendet, wenn Dokumentbilder von hoher Qualität sind und keine Erkennungsfehler enthalten. Um den gesuchten Text mithilfe eines regulären Ausdrucks zu beschreiben, wählen Sie im Feld Methode die Option Regulärer Ausdruck und wechseln Sie zum darunterliegenden Feld. Geben Sie im sich öffnenden Editor Ihren regulären Ausdruck ein.

Alphabet der regulären Ausdrücke

Name in der Liste	Symbol im Feld	Beispiel
Beliebiges Zeichen	*	“k”*“t” – erlaubt ‘kit’, ‘kat’ usw.
Buchstabe	C	C”at” – erlaubt cat, bat, Rat, mat usw.
Großbuchstabe	A	A”at” – erlaubt Cat, Bat, Rat, Mat usw.
Kleinbuchstabe	a	a”at” – erlaubt car, bat, rat, mat usw.
Buchstabe oder Ziffer	X	X – erlaubt einen beliebigen einzelnen Buchstaben oder eine Ziffer.
Ziffer	N	N”th” – erlaubt 5th, 4th, 6th usw.
String	""	"cat”
Oder			”dr”(“i"	"u”)“nk” – erlaubt “drink” oder “drunk”.
Zeichen aus der Menge	[]	[hm]“at” – erlaubt ‘hat’ oder ‘mat’.
Zeichen nicht aus der Menge	[^]	[^b]“at” – erlaubt ‘cat’, ‘mat’, ‘rat’, aber nicht bat.
Beliebige Anzahl von Wiederholungen (gilt für den Ausdruck oder Teilausdruck links)	`{-}`	`[AB74]{-}` – erlaubt jede Kombination aus A, B, 7, 4 in beliebiger Länge.
Anzahl der Wiederholungen ist n	`{n}`	`N{2}"th"` – erlaubt 25th, 84th, 11th usw.
n bis m Wiederholungen	`{n-m}`	`N{1-3}"th"` – erlaubt 5th, 84th, 111th usw.
0 bis n Wiederholungen	`{-n}`	`N{-2}"th"` – erlaubt th, 84th, 4th usw.
n oder mehr Wiederholungen	`{n-}`	`N{2-}"th"` – erlaubt 25th, 834th, 311th, 34576th usw.
Teilausdruck	()

Beispiele für reguläre Ausdrücke

Anwendungsfall	Regulärer Ausdruck	Beispielwerte
Postleitzahl	`[0-9]{6}`	”142172”
Postleitzahl (USA)	`[0-9]{5}("-"[0-9]{4}){-1}`	”55416”, “33701-4313”
Einkommen	`N{4-8}[,]N{2}`	”15000,00”, “4499,00”
Monat (numerisch)	`((\|"0")[1-9])\|("10")\|("11")\|("12")`	”4”, “05”, “12”
Dezimalzahl	`("-"\|)([0-9]{1-})(\|(("."\| ",")([0-9]{1-})))`	”1234,567”, “0.99”, “100,0”, “-345.6788903”
E-Mail	`[A-Za-z0-9_]{1-}(("."\| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."\| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}\|"asia"\|"museum"\|"travel"\|"example"\|"localhost")`	”support@abbyy.com”, “my-name@company.org.ru”, “info@gallery.museum”

Erweiterte reguläre Ausdrücke

Erweiterte reguläre Ausdrücke sind reguläre Ausdrücke mit zusätzlicher Funktionalität, die zwischen einer öffnenden eckigen Klammer, gefolgt von einem Prozentzeichen, und einem Prozentzeichen, gefolgt von einer schließenden eckigen Klammer, eingeschlossen ist ([% und %]). Erweiterte reguläre Ausdrücke bieten die folgenden zusätzlichen Funktionen:

Ein oder mehrere Zeichen innerhalb der Klammern werden um typische OCR-Fehler erweitert. Zum Beispiel kann [%S%] S, $ und 5 zulassen.
Spezielle Schlüsselwörter innerhalb von [%...%] für gängige Zeichensätze und OCR-Fehler:
- LETTERS — Großbuchstaben des lateinischen Alphabets sowie Zeichen, die häufig als solche erkannt werden.
- DIGITS — Ziffern sowie Zeichen, die häufig als Ziffern erkannt werden.
- LETTERSANDDIGITS — Großbuchstaben des lateinischen Alphabets, Ziffern sowie Zeichen, die häufig als Großbuchstaben bzw. Ziffern erkannt werden.

Zum Beispiel gibt [%DIGITS%]{9} neun aufeinanderfolgende Ziffern oder typische OCR-Fehler für Ziffern an, z. B. “OI234Sb7B9”.

Zusätzliche Eigenschaften

Zulässige Fehler gibt den maximal zulässigen Erkennungsfehlerprozentsatz an. Anders ausgedrückt bezeichnet er den maximal zulässigen Anteil der Gesamtzeichen, die außerhalb des definierten Zeichensatzes liegen dürfen. Eine Hypothese für ein Objekt kann nur gebildet werden, wenn der Erkennungsfehlerprozentsatz den angegebenen Wert nicht überschreitet.
Wortanzahl gibt die minimale und maximale Anzahl an Wörtern im gesuchten Text an.
Zeichenanzahl gibt die minimale und maximale Anzahl an Zeichen im gesuchten Text an.
Nach Wortteilen suchen legt fest, ob Wortfragmente in Hypothesen zulässig sind. Deaktivieren Sie diese Option, wenn Sie Hypothesen mit Wortfragmenten ausschließen und nur nach vollständigen Wörtern suchen möchten.

Erweiterte Eigenschaften

Eingebettete Hypothesen zulassen ermöglicht die Verwendung von Zeichen im Suchbereich, um alle möglichen Hypothesen zu generieren – einschließlich sich überschneidender und eingebetteter Hypothesen.
Max. Leerzeichenlänge ermöglicht die Angabe der maximalen Länge des Leerraums innerhalb des erkannten Objekts.
Textausrichtung ermöglicht die Angabe der Ausrichtung des gesuchten Textes. Standardmäßig sucht die Aktivität nur nach horizontal ausgerichtetem Text und formuliert keine Hypothesen für gedrehten Text. Wenn Sie Text finden müssen, der in einer bestimmten Weise gedreht ist und Text in allen anderen Richtungen ignorieren möchten, sollten Sie nur die Option Im Uhrzeigersinn oder Gegen den Uhrzeigersinn auswählen. Um Text unabhängig von seiner Ausrichtung zu finden, sollten Sie alle verfügbaren Optionen aktivieren.
Wörter erkennen anhand legt fest, wie Zeilen in Wörter unterteilt werden: automatisch (Vor-Erkennung) oder durch Aufteilen einer Zeile in Wörter (Zwischenwortabstand), wenn der Abstand zwischen benachbarten Zeichen größer oder gleich dem in Min. Zwischenwortabstand eingegebenen Wert ist.

Im erweiterten Modus werden die Eigenschaften Wortanzahl und Zeichenanzahl nicht durch einen numerischen Wert festgelegt, sondern durch ein unscharfes Intervall. Details finden Sie unter Fuzzy-Intervall und Editor für unscharfe Intervalle. Um erweiterte Eigenschaften anzuzeigen, klicken Sie im Bereich Eigenschaften auf das Symbol für den erweiterten Modus.

​Methode

​Zeichen

​Festlegen eines Zeichensatzes

​Regulärer Ausdruck

​Alphabet der regulären Ausdrücke

​Beispiele für reguläre Ausdrücke

​Erweiterte reguläre Ausdrücke

​Zusätzliche Eigenschaften

​Erweiterte Eigenschaften