Zum Hauptinhalt springen
Wenn in den Eigenschaften eines Elements ein regulärer Ausdruck angegeben wurde, sucht das Programm im Suchbereich nach beliebigen Zeichenketten, die die Bedingungen des regulären Ausdrucks erfüllen. Wenn kein regulärer Ausdruck angegeben wurde, verwendet das Programm die benutzerdefinierten Alphabete. Das Programm berücksichtigt alle Textobjekte, die sich horizontal mit dem Suchbereich überschneiden (vertikal müssen die Objekte vollständig innerhalb des Suchbereichs liegen). Die Textobjekte werden dann zu Zeilen gruppiert. Die Zeilen werden von links nach rechts aufgebaut. Das Programm beendet den Aufbau einer Zeile, wenn die maximale Leerzeichenlänge (festgelegt in der Eigenschaft Max space length) überschritten wird. In den resultierenden Zeilen identifiziert das Programm Zeichenketten, von denen jede nur Zeichen aus einem der benutzerdefinierten Alphabete enthält. Auf ähnliche Weise teilt das Programm die Zeilen in Fragmente auf. Als Nächstes formuliert das Programm für jedes Fragment eine Hypothese. Je nachdem, ob die Option Allow embedded hypotheses ausgewählt ist oder nicht, werden Hypothesen nach zwei unterschiedlichen Prinzipien formuliert. Angenommen, das Programm hat in einer vorherigen Stufe drei Fragmente erkannt. Wenn die Option Allow embedded hypotheses ausgewählt ist, werden Hypothesen wie folgt formuliert: Hypothese 1: Fragment 1 Hypothese 2: Fragment 1 + Fragment 2 Hypothese 3: Fragment 1 + Fragment 2 + Fragment 3 Hypothese 4: Fragment 2 Hypothese 5: Fragment 2 + Fragment 3 Hypothese 6: Fragment 3 Für jede Hypothese prüft das Programm, ob der Anteil der Zeichen jedes Alphabets den im Feld Percentage of alphabet characters festgelegten Wert nicht überschreitet. Ebenso prüft das Programm, ob der Prozentsatz der Nicht-Alphabet-Zeichen den im Feld Percentage of non-alphabet characters festgelegten Wert nicht überschreitet. Wenn mindestens eine dieser Prüfungen fehlschlägt, wird keine Hypothese formuliert. Wenn Allow embedded hypotheses nicht ausgewählt ist, werden die eingebetteten Hypothesen in der obigen Liste verworfen. Eingebettete Hypothesen sind solche, die in einer anderen Hypothese in der obigen Liste enthalten sind. Wenn die Prüfungen für alle Hypothesen erfolgreich waren, bleibt nur die folgende Hypothese übrig: Fragment 1 + Fragment 2 + Fragment 3. Wenn also die Option Allow embedded hypotheses nicht ausgewählt ist, formuliert das Programm Hypothesen mit maximaler Länge, die alle Bedingungen erfüllen. Auch wenn eingebettete Hypothesen ausgeschlossen sind, können sich Hypothesen überschneiden. Dabei kann es sich um ein einzelnes Zeichen oder Wort handeln oder um eine Zeichenkette, die Teil anderer Hypothesen ist, für die jedoch keine separate Hypothese formuliert wurde. Das Programm kann beispielsweise zwei Hypothesen formulieren (d. h. zwei Zeichenketten) – eine, die mit einem bestimmten Wort oder Ausdruck endet, und eine andere, die mit diesem Wort oder Ausdruck beginnt. Z. B. Hypothese 1: Fragment 1 + Fragment 2 Hypothese 2: Fragment 2 + Fragment 3 Sobald alle möglichen Hypothesen generiert wurden, berechnet das Programm für jede die Pre-search quality (dies ist eine Schätzung dafür, wie gut eine Hypothese die Suchbedingungen erfüllt, die im Dialogfeld Properties auf der Registerkarte Zeichenkette und auf der Registerkarte Advanced im Feld Advanced pre-search relations festgelegt sind). In diesem Stadium wird die Qualität danach berechnet, ob die Länge der Hypothese in Zeichen innerhalb des in der Eigenschaft Character count angegebenen fuzzy interval liegt, ob die Länge der gesamten Lücke in der Zeile innerhalb des in TotalGapLength angegebenen fuzzy interval liegt und ob die Anzahl der Wörter in der Zeile innerhalb des in der Eigenschaft Word count angegebenen fuzzy interval liegt. Die Gesamtqualität einer Hypothese wird durch Multiplikation aller Qualitätswerte berechnet. Eine Zeichenkette-Hypothese hat die folgenden Eigenschaften:
EigenschaftBeschreibung
Element nameDer vollständige Name des Elements.
PageDie Nummer der Seite, auf der das Element erkannt wurde.
Surrounding rectDie Koordinaten des Rectangle, das die Region der Hypothese umschließt.
WidthDie Breite der Region der Hypothese.
HeightDie Höhe der Region der Hypothese.
TextDie Zeichen in der Hypothese.
DetectedZeigt an, ob das durch das Element beschriebene Objekt gefunden wurde (true) oder ob eine Nullhypothese formuliert wurde (false).
From the best pathZeigt an, ob die gefundene Hypothese zum besten Pfad im Hypothesenbaum gehört (true) oder nicht (false).
Pre-search qualityWie gut die Hypothese mit den Eigenschaften des Elements übereinstimmt, die durch die Einstellungen im Dialogfeld Properties und durch den Code im Feld Advanced pre-search relations angegeben sind.
Post-search qualityDie Qualität der Hypothese, nachdem die Bedingungen im Feld Advanced post-search relations angewendet wurden.
Chain qualityDie Qualität der Hypothesenkette vom ersten Unterelement der Gruppe bis zum aktuellen Unterelement. Chain quality wird durch Multiplikation der Qualitäten aller Unterelemente in der Kette berechnet und verwendet, um konkurrierende Hypothesenketten zu vergleichen.

Mehr:

Zeichenkette Suchbereich Weitere Sucheinschränkungen