Ein Fuzzy-Intervall ist ein Hilfsmittel, mit dem das Programm die Quality einer Hypothese anhand ihrer Länge bewerten kann. Ein Fuzzy-Intervall kann in Längeneinheiten (dots, Millimeter usw.) oder in Zeichen gemessen werden (bei Zeilen). Für ein Fuzzy-Intervall müssen vier Werte angegeben werden, die die optimalen und möglichen Wertebereiche definieren.
Angenommen, Sie haben ein Fuzzy-Intervall [f1,f2,f3,f4] und die Länge der erkannten Zeichenkette (oder die Länge des erkannten Leerraums) ist L. Wenn die Länge L im Bereich von f2 bis f3 liegt (d. h. L >= f2 und L <= f3), ist die Quality der Hypothese 1. Wenn die Länge im Bereich von f1 bis f2 liegt, ändert sich die Quality der Hypothese linear von 0 auf 1 (Quality(f1) = 0, Quality(f2) = 1). Entsprechend ändert sich die Quality der Hypothese, wenn die Länge im Bereich von f3 bis f4 liegt, linear von 1 auf 0 (Quality(f3) = 1, Quality(f4) = 0). Wenn die Länge nicht in den Bereich von f1 bis f4 fällt (d. h. L < f1 oder L > f4), ist die Quality der Hypothese 0 (Quality(L) = 0). Die Quality der Hypothese für das erkannte Objekt wird mit dem Wert der Eigenschaft Character count multipliziert. Der Wert dieser Eigenschaft wird abhängig von der Länge des erkannten Objekts ausgewählt.
Die Quality einer beliebigen Kette von Hypothesen für mehrere Elemente wird berechnet, indem die Hypothesen für jedes Element miteinander multipliziert werden. Wenn die Kette relativ lang ist und die Quality-Schätzungen der einzelnen Hypothesen infolge zu strenger Einschränkungen zu niedrig sind, kann die resultierende Quality der gesamten Kette zu niedrig sein.
Stellen Sie sicher, dass die ausgewählte Hypothese die größtmögliche Quality-Schätzung hat. Andererseits müssen Sie Hypothesen anhand ihrer Quality unterscheiden können, um die beste auswählen zu können. Daher müssen Sie Fuzzy-Intervalle so einrichten, dass akzeptable Hypothesen nicht zu stark benachteiligt werden.
Sie können auch negative Werte für die linke Grenze des Fuzzy-Intervalls verwenden (auch wenn es in der Realität keine Zeichenketten mit negativer Länge gibt). Dies kann nützlich sein, da dadurch die Abhängigkeit der Quality im Bereich von 0 bis 1 weniger steil wird und somit die Benachteiligung verringert wird. Wenn Sie gleichzeitig die untere Grenze für diesen Parameter festlegen müssen (z. B. darf die Länge der Zeichenkette nicht kleiner als 10 Zeichen sein und das Fuzzy-Intervall für die Länge der Zeichenkette ist [-10,20,30,40]), können Sie dies direkt auf der Registerkarte Advanced tun, indem Sie Value.Length >= 10 in den Bereich Erweiterte Nach-Suchbeziehungen eingeben.
Im Allgemeinen ist es ratsam, keine zu starren Intervalle festzulegen. Dies ist besonders wichtig bei der Verarbeitung von Bildern unterschiedlicher Qualität. Auf manchen Bildern können sich beispielsweise innerhalb von Buchstaben Zwischenräume befinden, was auf die schlechte Qualität des Quelldokuments oder ungeeignete Scaneinstellungen zurückzuführen ist. In diesem Fall kann das Programm ein Zeichen als mehrere Zeichen interpretieren, was zu einer drastischen Verringerung der Quality der Hypothese führen kann, wenn das Fuzzy-Intervall zu starr war. Infolgedessen verwirft das Programm eine Hypothese, die im Wesentlichen korrekt ist, und wählt eine andere Hypothese aus. Wenn Sie daher zwischen Character String-Hypothesen durch Vergleich ihrer Längen auswählen müssen, sollten Sie am besten zusätzliche Einschränkungen im Bereich Erweiterte Nach-Suchbeziehungen angeben.
Visueller Editor für Fuzzy-Intervalle
ABBYY FlexiLayout Studio bietet einen visuellen Editor, um die Angabe von Fuzzy-Intervallen zu vereinfachen. Sie können den Fuzzy-Intervall-Editor über das Dialogfeld Eigenschaften eines Character String-Elements (Registerkarte Character String,
Schaltflächen) oder über das Hauptmenü öffnen, indem Sie Tools → Fuzzy-Intervall-Editor… auswählen.