Static Text

Static Text ist ein Element in einem FlexiLayout, das einen vordefinierten Text beschreibt. Der Text kann aus einem Wort oder einer Wortgruppe bestehen. Wortgruppen unterscheiden sich von Wörtern dadurch, dass sie mindestens ein Leerzeichen enthalten. Eine Wortgruppe kann sich über mehrere Zeilen erstrecken. Static-Text-Elemente werden im FlexiLayout-Baum mit

gekennzeichnet. Das Programm verwendet Static-Text-Elemente, um nach statischem Text zu suchen, d. h. nach Text, der im Voraus bekannt ist. Dabei betrachtet das Programm Recognized Words- und Recognized Lines-Objekte, die während der Vorerkennung erkannt wurden und im Suchbereich des Elements liegen, als Kandidaten für statischen Text. In der Regel enthalten alle oder viele Bilder im Batch statischen Text. Dabei kann es sich um die Überschrift des Dokuments handeln (zum Beispiel Invoice) oder um die Namen von Feldern (zum Beispiel Date, To:, From:). Solche Objekte, die bei der Vorerkennung als Recognized Words erkannt wurden, werden üblicherweise als „Wegweiser“ verwendet, wenn nach beliebigem Text gesucht wird, der in die entsprechenden Felder eingetragen werden kann. So ist es beispielsweise naheliegend, neben dem statischen Text „Date“ ein Datum zu erwarten.”

Eigenschaften des Static-Text-Elements

Die Eigenschaften eines Static-Text-Elements werden auf der Registerkarte Static Text im Dialogfeld Properties des Elements festgelegt. Um das Dialogfeld Properties zu öffnen, klicken Sie im FlexiLayout-Baum mit der rechten Maustaste auf das Element und wählen im Kontextmenü Properties….

Screenshot der Registerkarte „Static Text“ im Dialogfeld „Properties“ eines Static-Text-Elements in ABBYY FlexiLayout Studio.

Search text

Der Text, der im Bild gefunden werden soll. Wenn Sie eine Phrase oder mehrere Wörter suchen und wissen, dass sie immer in derselben Zeile stehen, ignorieren Sie Leerzeichen (lassen Sie die Option Leerzeichen berücksichtigen deaktiviert), um die Suche zu beschleunigen. In diesem Fall können Sie die Suchphrase ohne Leerzeichen eingeben. Das Programm entfernt sie ohnehin, wenn die Option Leerzeichen berücksichtigen nicht ausgewählt ist. Um beispielsweise den Namen „Purchase Agreement“ zu finden, der in allen Dokumenten in einer Zeile steht, geben Sie PURCHASEAGREEMENT ein. Verwenden Sie einen vertikalen Strich (das Symbol |), um Varianten zu trennen. Wenn ähnliche Dokumente beispielsweise Bezeichnungen wie Contract oder Agreement haben können, geben Sie CONTRACT|AGREEMENT ein. Varianten von Phrasen werden in geschweifte Klammern gesetzt und durch einen vertikalen Strich getrennt, in der Form { }|{ }. Sie können Varianten von Wörtern innerhalb von Phrasen angeben (die Option Leerzeichen berücksichtigen muss ausgewählt sein). Wenn Sie zum Beispiel {SALE|PURCHASE AGREEMENT|CONTRACT}|{CUSTOMER|CLIENT APPLICATION} in das Feld Search text eingeben, sucht das Programm nach den folgenden Phrasen: sale agreement, purchase agreement, sale contract, purchase contract, customer application, client application. Um lange Zeichenfolgen einzugeben, klicken Sie auf

, um ein separates Dateneingabefenster zu öffnen.

Search text from database

Durchsuchen Sie das Bild nach einem Textfragment aus einer Datenbank. Eine SQL-Abfrage, die mit dem Befehl SELECT beginnt, sucht die relevanten Felder in der Tabelle. Anschließend sucht das Programm im Bild nach dem Text, der im gefundenen Feld enthalten ist.

Die Verbindungszeichenfolge festlegen

Geben Sie im Feld Connection string die Verbindungszeichenfolge der Datenbank ein, oder klicken Sie auf

, um das Standarddialogfeld für die Datenbankverbindung zu öffnen.

Die Abfrage eingeben

Geben Sie im Feld Query text die Abfrage ein. Sie können auch auf

klicken, um ein separates Dateneingabefenster zu öffnen.

Search text from file

Durchsuchen Sie das Bild nach einem Textfragment aus einer Datei. Klicken Sie auf die Schaltfläche Browse…, um die Datei auszuwählen. Weitere Informationen finden Sie unter Databases and text files in the FlexiLayout language.

Maximale Anzahl von Fehlern

Die maximale Anzahl von Fehlern in einem Wort. Das Programm prüft jedes Wort in der Phrase, wenn die Wörter in der Phrase durch Leerzeichen getrennt sind. Andernfalls wird die Phrase als ein einziges Wort behandelt. Wenn die Anzahl der Fehler in einem Wort höher ist als die in diesem Feld angegebene Zahl, gilt das Wort als nicht erkannt. Ein Fehler entspricht einem Lösch-, Einfüge- oder Ersetzungsvorgang, der erforderlich ist, um den Text so anzupassen, dass er mit dem im Feld Search text eingegebenen Text übereinstimmt. Standardmäßig ist diese Eigenschaft unbegrenzt. Angenommen, das Feld Search text enthält das Wort „meet“ und die maximale Anzahl von Fehlern ist auf 1 gesetzt. Wenn das Programm in diesem Suchbereich das Wort „moot“ findet, enthält das Wort 2 Fehler, sodass „meet“ als nicht gefunden gilt.

Max error percentage

Der maximale Fehlerprozentsatz in einem Wort, berechnet als Verhältnis der Anzahl der Fehler in der Hypothese zur Anzahl der Buchstaben in der Hypothese. Wenn der Fehlerprozentsatz in einem Wort höher ist als der in diesem Feld angegebene Prozentsatz, gilt das Wort als nicht erkannt. Der Standardwert ist 30%. Wenn Sie sowohl die maximale Anzahl von Fehlern als auch den maximalen Fehlerprozentsatz angeben, verwendet das Programm das strengere Kriterium und ignoriert das andere.

Max space length

Legt die maximale Länge des Leerraums innerhalb des erkannten Objekts fest.

Nur ganze Wörter

Sucht nur nach ganzen Wörtern.

Match case

Aktiviert die Groß-/Kleinschreibung bei der Suche (das Programm unterscheidet zwischen Klein- und Großbuchstaben).

Leerzeichen berücksichtigen

Erlaubt Leerzeichen in der Suchzeichenfolge. Wenn diese Option nicht ausgewählt ist, werden Leerzeichen aus der Suchzeichenfolge entfernt, was die Suche beschleunigt. Wenn sich Ihre Suchphrase jedoch über mehrere Zeilen erstrecken kann oder wenn einige Wörter in der Phrase fehlen können, aktivieren Sie die Option Leerzeichen berücksichtigen und geben Sie Ihre Suchphrase mit Leerzeichen ein. Die folgenden Optionen sind nur verfügbar, wenn Leerzeichen berücksichtigen ausgewählt ist:

Option	Beschreibung
Permit multiple lines	Erlaubt, dass die Phrase über mehrere Zeilen geschrieben wird.
Line break penalty	Legt einen Strafwert für Zeilenumbrüche innerhalb von Wörtern fest.
Permit missing words	Erlaubt fehlende Wörter in der Phrase.
Missing word penalty	Legt einen Strafwert für fehlende Wörter fest.

Jeder Strafwert ist eine Zahl zwischen 0 und 1. Das Programm multipliziert die Quality der Hypothese für jeden Zeilenumbruch oder jedes fehlende Wort in der Phrase einmal mit dem Strafwert. Um Zeilenumbrüche oder fehlende Wörter zuzulassen, ohne die Quality der Hypothese zu verringern, setzen Sie den Strafwert auf 1, da die Multiplikation der Quality mit 1 sie unverändert lässt.

Empfehlungen zum Erstellen eines Static-Text-Elements

Da statischer Text im Voraus bekannt ist, kann ein Static-Text-Element als Referenzelement verwendet werden, um andere Bildobjekte zu finden. Beachten Sie dabei die folgenden Richtlinien:

Um sicherzustellen, dass der ausgewählte statische Text auf allen Bildern zuverlässig erkannt werden kann, prüfen Sie die Ergebnisse der Vorerkennung, indem Sie für Wörter bzw. Wortgruppen auf bzw. klicken. Vergewissern Sie sich, dass die Buchstaben korrekt zu Wörtern und die Wörter korrekt zu Zeilen gruppiert sind.
Wählen Sie nach Möglichkeit statischen Text in größerer Schrift, der auch bei Scans geringer Qualität unverändert bleibt oder bei dem die Anzahl der OCR-Fehler vorhersehbar ist.
Wenn die Dokumente nur statischen Text in kleiner Schrift enthalten, der bei der Vorerkennung nicht zuverlässig erkannt werden kann (d. h. wenn Anzahl und Art der Fehler von Bild zu Bild stark variieren), beschreiben Sie solche Textfragmente als Object Collection mit den ausgewählten Optionen Text und Punctuation mark und nicht als Static Text. Möglicherweise müssen Sie auch die Option Picture auswählen. Klicken Sie dazu in der Symbolleiste auf (Raw Objects) und wählen Sie das entsprechende Objekt im Bild aus. Der Objekttyp wird in der Zeile DataType des Fensters Properties angezeigt.
Wählen Sie möglichst eindeutige Fragmente statischen Texts aus, um Fehltreffer zu vermeiden und die zusätzlichen Suchbedingungen auf ein Minimum zu beschränken.
Wenn es sowohl einwortige Namen gibt (die Sie mithilfe von Static-Text-Elementen finden möchten) als auch mehrwortige Namen, die dieselben Wörter wie die einwortigen Namen enthalten, erstellen Sie zuerst die Elemente für die mehrwortigen Namen. So verhindern Sie, dass das Programm einwortige Namen innerhalb mehrwortiger Namen fälschlich erkennt.

Empfehlungen für Chinesisch, Japanisch und Koreanisch

Für strings auf Chinesisch, Japanisch und Koreanisch können Sie einen Suchparameter verwenden. Dieser Parameter beeinflusst, wie das Programm die Anzahl der Fehler in der gefundenen Hypothese im Vergleich zum angegebenen Wert des Elements Search text berechnet. Wenn dieser Parameter aktiviert ist, sind nur Zeichen mit ähnlicher Form als Ersatzzeichen zulässig. Die Operationen Einfügen, Löschen und Ersetzen zählen jeweils als ein Fehler. Das Ersetzen eines Zeichens durch ein ähnliches Zeichen zählt daher als ein Fehler, während das Ersetzen durch ein andersartiges Zeichen als zwei Fehler zählt, weil dabei zwei Operationen ausgeführt werden: das Löschen eines Zeichens und das Einfügen eines neuen. Dieser Suchmodus wirkt sich nur auf strings auf Chinesisch, Japanisch und Koreanisch aus.

Für diese Sprachen ist eine Suche nach ganzen Wörtern nicht verfügbar, da Texte in diesen Sprachen oft nicht explizit in Wörter unterteilt sind.

Um diesen Suchmodus zu aktivieren, geben Sie den folgenden Code in den Bereich Advanced pre-search relations der Registerkarte Advanced ein:

SuggestOnlySimilarChars(Logic value = true);

Standardmäßig ist der Parameter SuggestOnlySimilarChars auf false gesetzt.

Introducing ABBYY FlexiLayout Studio

Program interface

Projects

Batches

FlexiLayouts

Multi-page FlexiLayout

Pre-recognition

Elements

Blocks

Working with tables

Hypotheses and trees of hypotheses

Debugging the FlexiLayout

Classification

Export

FlexiLayout language

Tips and tricks

Appendix

Tutorial

Eigenschaften des Static-Text-Elements

Search text

Search text from database

Search text from file

Maximale Anzahl von Fehlern

Max error percentage

Max space length

Nur ganze Wörter

Match case

Leerzeichen berücksichtigen

Empfehlungen zum Erstellen eines Static-Text-Elements

Empfehlungen für Chinesisch, Japanisch und Koreanisch

​Eigenschaften des Static-Text-Elements

​Search text

​Search text from database

​Search text from file

​Maximale Anzahl von Fehlern

​Max error percentage

​Max space length

​Nur ganze Wörter

​Match case

​Leerzeichen berücksichtigen

​Empfehlungen zum Erstellen eines Static-Text-Elements

​Empfehlungen für Chinesisch, Japanisch und Koreanisch

​Verwandte Themen

Eigenschaften des Static-Text-Elements

Search text

Search text from database

Search text from file

Maximale Anzahl von Fehlern

Max error percentage

Max space length

Nur ganze Wörter

Match case

Leerzeichen berücksichtigen

Empfehlungen zum Erstellen eines Static-Text-Elements

Empfehlungen für Chinesisch, Japanisch und Koreanisch

Verwandte Themen