Hypothesen für Zeichenkette-Elemente

Wenn in den Eigenschaften eines Elements ein regulärer Ausdruck angegeben wurde, sucht das Programm im Suchbereich nach beliebigen Zeichenketten, die die Bedingungen des regulären Ausdrucks erfüllen. Wenn kein regulärer Ausdruck angegeben wurde, verwendet das Programm die benutzerdefinierten Alphabete. Das Programm berücksichtigt alle Textobjekte, die sich horizontal mit dem Suchbereich überschneiden (vertikal müssen die Objekte vollständig innerhalb des Suchbereichs liegen). Die Textobjekte werden dann zu Zeilen gruppiert. Die Zeilen werden von links nach rechts aufgebaut. Das Programm beendet den Aufbau einer Zeile, wenn die maximale Leerzeichenlänge (festgelegt in der Eigenschaft Max space length) überschritten wird. In den resultierenden Zeilen identifiziert das Programm Zeichenketten, von denen jede nur Zeichen aus einem der benutzerdefinierten Alphabete enthält. Auf ähnliche Weise teilt das Programm die Zeilen in Fragmente auf. Als Nächstes formuliert das Programm für jedes Fragment eine Hypothese. Je nachdem, ob die Option Allow embedded hypotheses ausgewählt ist oder nicht, werden Hypothesen nach zwei unterschiedlichen Prinzipien formuliert. Angenommen, das Programm hat in einer vorherigen Stufe drei Fragmente erkannt. Wenn die Option Allow embedded hypotheses ausgewählt ist, werden Hypothesen wie folgt formuliert: Hypothese 1: Fragment 1 Hypothese 2: Fragment 1 + Fragment 2 Hypothese 3: Fragment 1 + Fragment 2 + Fragment 3 Hypothese 4: Fragment 2 Hypothese 5: Fragment 2 + Fragment 3 Hypothese 6: Fragment 3 Für jede Hypothese prüft das Programm, ob der Anteil der Zeichen jedes Alphabets den im Feld Percentage of alphabet characters festgelegten Wert nicht überschreitet. Ebenso prüft das Programm, ob der Prozentsatz der Nicht-Alphabet-Zeichen den im Feld Percentage of non-alphabet characters festgelegten Wert nicht überschreitet. Wenn mindestens eine dieser Prüfungen fehlschlägt, wird keine Hypothese formuliert. Wenn Allow embedded hypotheses nicht ausgewählt ist, werden die eingebetteten Hypothesen in der obigen Liste verworfen. Eingebettete Hypothesen sind solche, die in einer anderen Hypothese in der obigen Liste enthalten sind. Wenn die Prüfungen für alle Hypothesen erfolgreich waren, bleibt nur die folgende Hypothese übrig: Fragment 1 + Fragment 2 + Fragment 3. Wenn also die Option Allow embedded hypotheses nicht ausgewählt ist, formuliert das Programm Hypothesen mit maximaler Länge, die alle Bedingungen erfüllen. Auch wenn eingebettete Hypothesen ausgeschlossen sind, können sich Hypothesen überschneiden. Dabei kann es sich um ein einzelnes Zeichen oder Wort handeln oder um eine Zeichenkette, die Teil anderer Hypothesen ist, für die jedoch keine separate Hypothese formuliert wurde. Das Programm kann beispielsweise zwei Hypothesen formulieren (d. h. zwei Zeichenketten) – eine, die mit einem bestimmten Wort oder Ausdruck endet, und eine andere, die mit diesem Wort oder Ausdruck beginnt. Z. B. Hypothese 1: Fragment 1 + Fragment 2 Hypothese 2: Fragment 2 + Fragment 3 Sobald alle möglichen Hypothesen generiert wurden, berechnet das Programm für jede die Pre-search quality (dies ist eine Schätzung dafür, wie gut eine Hypothese die Suchbedingungen erfüllt, die im Dialogfeld Properties auf der Registerkarte Zeichenkette und auf der Registerkarte Advanced im Feld Advanced pre-search relations festgelegt sind). In diesem Stadium wird die Qualität danach berechnet, ob die Länge der Hypothese in Zeichen innerhalb des in der Eigenschaft Character count angegebenen fuzzy interval liegt, ob die Länge der gesamten Lücke in der Zeile innerhalb des in TotalGapLength angegebenen fuzzy interval liegt und ob die Anzahl der Wörter in der Zeile innerhalb des in der Eigenschaft Word count angegebenen fuzzy interval liegt. Die Gesamtqualität einer Hypothese wird durch Multiplikation aller Qualitätswerte berechnet. Eine Zeichenkette-Hypothese hat die folgenden Eigenschaften:

Eigenschaft	Beschreibung
Element name	Der vollständige Name des Elements.
Page	Die Nummer der Seite, auf der das Element erkannt wurde.
Surrounding rect	Die Koordinaten des Rectangle, das die Region der Hypothese umschließt.
Width	Die Breite der Region der Hypothese.
Height	Die Höhe der Region der Hypothese.
Text	Die Zeichen in der Hypothese.
Detected	Zeigt an, ob das durch das Element beschriebene Objekt gefunden wurde (true) oder ob eine Nullhypothese formuliert wurde (false).
From the best path	Zeigt an, ob die gefundene Hypothese zum besten Pfad im Hypothesenbaum gehört (true) oder nicht (false).
Pre-search quality	Wie gut die Hypothese mit den Eigenschaften des Elements übereinstimmt, die durch die Einstellungen im Dialogfeld Properties und durch den Code im Feld Advanced pre-search relations angegeben sind.
Post-search quality	Die Qualität der Hypothese, nachdem die Bedingungen im Feld Advanced post-search relations angewendet wurden.
Chain quality	Die Qualität der Hypothesenkette vom ersten Unterelement der Gruppe bis zum aktuellen Unterelement. Chain quality wird durch Multiplikation der Qualitäten aller Unterelemente in der Kette berechnet und verwendet, um konkurrierende Hypothesenketten zu vergleichen.

Mehr:

Zeichenkette Suchbereich Weitere Sucheinschränkungen

Hypothesen für Barcode-Elemente

Zurück

Hypothesen für Paragraph-Elemente

Weiter

⌘I

​Mehr:

Mehr: