Zum Hauptinhalt springen
Static Text ist ein Element in einem FlexiLayout, das einen vordefinierten Text beschreibt. Der Text kann aus einem Wort oder einer Wortgruppe bestehen. Wortgruppen unterscheiden sich von Wörtern dadurch, dass sie mindestens ein Leerzeichen enthalten. Eine Wortgruppe kann sich über mehrere Zeilen erstrecken. Elemente vom Typ Static Text werden im FlexiLayout-Baum mit gekennzeichnet. Das Programm verwendet Elemente vom Typ Static Text, um nach statischem Text zu suchen, d. h. nach Text, der im Voraus bekannt ist. Dabei betrachtet das Programm Recognized Words- und Recognized Lines-Objekte, die während der Vorerkennung erkannt wurden und im Suchbereich des Elements liegen, als Kandidaten für statischen Text. In der Regel enthalten alle oder viele Bilder im Batch statischen Text. Dabei kann es sich um die Überschrift des Dokuments handeln (z. B. Invoice) oder um die Namen von Feldern (z. B. Date, to:, From:). Solche Objekte werden bei der Vorerkennung als Recognized Words erkannt und üblicherweise als „Wegweiser“ verwendet, wenn nach beliebigem Text gesucht wird, der in die entsprechenden Felder eingetragen sein kann: So ist es beispielsweise naheliegend, neben dem statischen Text „Date“ ein Datum zu erwarten.

Die Eigenschaften eines Static-Text-Elements

Klicken Sie im Dialogfeld Properties auf die Registerkarte Search text from file, um das entsprechende Objekt zu beschreiben. Um das Dialogfeld Properties zu öffnen, klicken Sie im FlexiLayout-Baum mit der rechten Maustaste auf das Element und wählen Sie im Kontextmenü Properties… aus.
  • Suchtext der Text, der im Bild gefunden werden soll. Wenn Sie eine Phrase oder mehrere Wörter finden müssen und wissen, dass sie immer in derselben Zeile stehen, empfiehlt es sich, Leerzeichen zu ignorieren (d. h. die Option Leerzeichen berücksichtigen deaktiviert zu lassen), da dies die Suche beschleunigt. In diesem Fall können Sie Ihre Suchphrase ohne Leerzeichen eingeben – das Programm entfernt sie ohnehin, wenn die Option Leerzeichen berücksichtigen nicht ausgewählt ist.
Z. B.:Um den Namen ‘Purchase Agreement’ zu finden, der in allen Dokumenten in einer Zeile steht, müssen Sie PURCHASEAGREEMENT eingeben.
Verwenden Sie einen senkrechten Strich (das Symbol ’|’), um Varianten voneinander zu trennen. | Z. B.: | Wenn ähnliche Dokumente Namen wie Contract oder Agreement haben können, müssen Sie CONTRACT|AGREEMENT eingeben. | | --- | --- | Varianten von Phrasen werden in geschweifte Klammern gesetzt und durch einen senkrechten Strich getrennt: { }|{ }. Sie können Varianten von Wörtern innerhalb von Phrasen auflisten (die Option Leerzeichen berücksichtigen muss ausgewählt sein). | Z. B.: | Wenn Sie im Feld Suchtext {SALE|PURCHASE AGREEMENT|CONTRACT}|{CUSTOMER|CLIENT APPLICATION} eingeben, sucht das Programm nach den folgenden Phrasen: sale agreement, purchase agreement, sale contract, purchase contract, customer application, client application. | | --- | --- | Um lange Zeichenfolgen einzugeben, klicken Sie auf , wodurch sich ein separates Dateneingabefenster öffnet.
  • Text aus Datenbank suchen Sie können im Bild nach einem Textfragment aus einer Datenbank suchen. Um in der Tabelle nach den relevanten Feldern zu suchen, wird eine SQL-Abfrage verwendet, die mit dem Befehl SELECT beginnt. Das Programm sucht im Bild nach dem Text, der im gefundenen Feld enthalten ist.
  • Geben Sie die Datenbank-Verbindungszeichenfolge in die Felder Connection string ein oder klicken Sie auf , um das Standarddialogfeld für die Datenbankverbindung zu öffnen.
    • Geben Sie Ihre Abfrage in das Feld Query text ein. Sie können auch auf klicken, um ein separates Dateneingabefenster zu öffnen, in das Sie Ihre Abfrage eingeben können.
  • Text aus Datei suchen Sie können nach einem Textfragment aus einer Datei suchen. Klicken Sie auf die Schaltfläche Browse…, um die gewünschte Datei auszuwählen. Ausführliche Informationen zur Verwendung von Datenbanken und Dateien finden Sie unter Verwenden von Datenbanken und Textdateien in der FlexiLayout-Sprache.
  • Maximale Anzahl von Fehlern
  • die maximale Anzahl von Fehlern in einem Wort. Das Programm prüft jedes Wort in der Phrase, wenn die Wörter in der Phrase durch Leerzeichen getrennt sind. Andernfalls wird die Phrase als ein einziges Wort behandelt. Wenn die Anzahl der Fehler in einem Wort größer ist als die in diesem Feld angegebene Zahl, gilt das Wort als nicht erkannt. Ein Fehler entspricht einem Lösch-, Einfüge- oder Ersetzungsvorgang, der erforderlich ist, um den Text so anzupassen, dass er dem im Feld Suchtext eingegebenen Text entspricht. Standardmäßig ist der Wert dieser Eigenschaft unbegrenzt.
Z. B.:Angenommen, das Feld Suchtext enthält das Wort ‘meet’ und die maximale Anzahl von Fehlern ist auf 1 gesetzt. Wenn das Programm in diesem Suchbereich das Wort ‘moot’ findet, enthält das Wort 2 Fehler, und das Wort ‘meet’ gilt als nicht gefunden.
  • Max. Fehlerprozentsatz der maximal zulässige Prozentsatz an Fehlern in einem Wort (berechnet als Verhältnis der Anzahl der Fehler in der Hypothese zur Anzahl der Buchstaben in der Hypothese). Wenn der Fehlerprozentsatz in einem Wort höher ist als der in diesem Feld angegebene Prozentsatz, wird das Wort als nicht erkannt betrachtet. Der Standardwert beträgt 30 %. Hinweis. Wenn Sie sowohl die maximale Anzahl von Fehlern als auch den maximalen Fehlerprozentsatz angeben, verwendet das Programm das strengere Kriterium und ignoriert das andere.
  • Max. Leerzeichenlänge ermöglicht es Ihnen, die maximale Länge des Leerzeichens innerhalb des erkannten Objekts festzulegen.
  • Nur ganze Wörter sucht nur nach ganzen Wörtern.
  • Groß-/Kleinschreibung beachten aktiviert die Groß-/Kleinschreibung bei der Suche (das Programm unterscheidet zwischen Klein- und Großbuchstaben).
  • Leerzeichen berücksichtigen ermöglicht Leerzeichen in der Suchzeichenfolge. Wenn diese Option nicht ausgewählt ist, werden Leerzeichen aus der Suchzeichenfolge entfernt. Das Ignorieren von Leerzeichen beschleunigt die Suche. Wenn sich Ihr Suchausdruck jedoch über mehrere Zeilen erstrecken kann oder wenn einige Wörter im Ausdruck fehlen können, müssen Sie die Option Leerzeichen berücksichtigen aktivieren und Ihren Suchausdruck unter Beibehaltung der Leerzeichen eingeben.
Die folgenden Optionen sind nur verfügbar, wenn Leerzeichen berücksichtigen ausgewählt ist:
  • Mehrere Zeilen zulassen - ermöglicht, dass der Ausdruck in mehreren Zeilen geschrieben wird.
  • Umbruchstrafe - legt eine Strafe für Zeilenumbrüche zwischen Wörtern fest. Die Strafe ist eine Zahl von 0 bis 1. Die Quality der Hypothese wird mit dieser Zahl so oft multipliziert, wie es Zeilenumbrüche im Ausdruck gibt. Wenn Zeilenumbrüche im Ausdruck zulässig sind, setzen Sie diesen Parameter auf 1 (die Multiplikation der Quality der Hypothese mit 1 mindert ihre Quality nicht).
  • Fehlende Wörter zulassen - ermöglicht fehlende Wörter im Ausdruck.
  • Strafe für fehlende Wörter - legt eine Strafe für fehlende Wörter fest. Die Strafe ist eine Zahl von 0 bis 1. Die Quality der Hypothese wird mit dieser Zahl so oft multipliziert, wie es fehlende Wörter im Ausdruck gibt. Wenn einige Wörter im Ausdruck fehlen können, setzen Sie diesen Parameter auf 1 (die Multiplikation der Quality der Hypothese mit 1 mindert ihre Quality nicht).

Empfehlungen zum Erstellen eines Static Text-Elements

Da statischer Text im Voraus bekannt ist, kann ein Static Text-Element als Referenzelement verwendet werden, um nach anderen Bildobjekten zu suchen. Beachten Sie dabei die folgenden Richtlinien:
  • Um sicherzustellen, dass der ausgewählte statische Text auf allen Bildern zuverlässig erkannt werden kann, sehen Sie sich die Ergebnisse der Vorerkennung auf allen Bildern an, indem Sie für Wörter bzw. Wortgruppen auf oder klicken. Vergewissern Sie sich, dass die Buchstaben korrekt zu Wörtern und die Wörter korrekt zu Zeilen gruppiert sind.
  • Wählen Sie nach Möglichkeit statischen Text in größerer Schrift, der selbst bei Scans schlechter Qualität unverändert bleibt oder bei dem die Anzahl der OCR-Fehler vorhersehbar ist.
  • Wenn die Dokumente nur klein gedruckten statischen Text enthalten, der während der Vorerkennung nicht zuverlässig erkannt werden kann (d. h. Anzahl und Art der Fehler unterscheiden sich bei verschiedenen Bildern stark), sollten solche Textfragmente besser nicht als Static Text, sondern als Object Collection mit ausgewählten Optionen Text und Punctuation mark beschrieben werden. (Möglicherweise müssen Sie auch die Option Picture auswählen – klicken Sie dazu auf (Raw Objects ) in der Symbolleiste und wählen Sie das entsprechende Objekt im Bild aus. Der Objekttyp wird in der Zeile DataType im Fenster Properties angezeigt.)
  • Es empfiehlt sich, eindeutige statische Textfragmente auszuwählen, um falsche Treffer zu vermeiden und zusätzliche Suchbedingungen auf ein Minimum zu beschränken.
  • Wenn es sowohl einwortige Namen gibt (die Sie mithilfe von Static Text-Elementen finden möchten) als auch mehrwortige Namen, die dieselben Wörter wie die einwortigen Namen enthalten, erstellen Sie zuerst Elemente für die Wortgruppen. Dadurch wird verhindert, dass das Programm einwortige Namen fälschlicherweise innerhalb mehrwortiger Namen erkennt.

Empfehlungen für hieroglyphische Sprachen

Für Zeichenfolgen in chinesischer, japanischer und koreanischer Sprache kann ein spezieller Suchparameter verwendet werden. Dieser Parameter beeinflusst, wie die Anzahl der Fehler in der gefundenen Hypothese im Vergleich zum angegebenen Wert des Search-text-Elements gezählt wird. Wenn dieser Parameter aktiviert ist, sind bei Einfüge-, Lösch- und Ersetzungsvorgängen, bei denen jeweils ein Character als ein Fehler gezählt wird, nur Characters (Hieroglyphen) mit ähnlicher Schreibweise als Ersatzzeichen zulässig. Daher wird das Ersetzen eines Characters durch einen ähnlichen Character als ein Fehler gezählt, während das Ersetzen durch einen unähnlichen Character als zwei Fehler gezählt wird, da dabei zwei Operationen ausgeführt werden: das Löschen eines Characters und das Einfügen eines neuen. Die Aktivierung dieses Suchmodus wirkt sich nur auf die Suche nach Zeichenfolgen in chinesischer, japanischer und koreanischer Sprache aus.
Für diese Sprachen ist eine Ganzwortsuche nicht verfügbar, da Texte in diesen Sprachen häufig nicht explizit in Wörter unterteilt werden.
Um diesen Suchmodus zu aktivieren, geben Sie den folgenden Code in den Bereich Advanced pre-search relations auf der Registerkarte Erweitert ein: SuggestOnlySimilarChars(Logic value = true); Standardmäßig ist der Parameter SuggestOnlySimilarChars auf false gesetzt.

Siehe auch:

Elemente erstellen und löschen Überblick über Elementeigenschaften Suchbereich Zusätzliche Suchbedingungen für das Static Text-Element