Tips and tricks
Tipps und Tricks
Entdecken Sie Tipps und Tricks zum Erstellen von FlexiLayouts, die Daten aus Bildern mit geringer Qualität extrahieren, mit Beispielprojekten zu typischen Suchproblemen.
In diesem Kapitel werden mehrere typische Verfahren zum Erstellen von FlexiLayouts beschrieben, die Datenfelder auf Bildern mit geringer Qualität suchen. Solche Bilder kommen häufig vor und weisen unterschiedliche Scanfehler auf, die meist durch falsche Scaneinstellungen verursacht werden. So kann ein Bild beispielsweise zu hell oder zu dunkel sein, wenn die Helligkeitseinstellungen nicht korrekt sind. Dadurch können Informationen auf dem Bild verloren gehen oder Teile des Bildes verrauscht sein.
Es ist nicht immer möglich, Dokumente erneut zu scannen, und oft muss der Benutzer Daten aus beschädigten Bildern extrahieren. Außerdem können manche Dokumente handschriftliche Notizen über wichtigen Informationen enthalten, was häufig zu Erkennungsfehlern führt.
Alle beschriebenen Arten von Textbeschädigungen beeinträchtigen die Qualität der Vorerkennung erheblich. Die Qualität der Vorerkennung kann verbessert werden, indem der Erkennungsmodus auf Accurate umgestellt wird. Leider hilft dies nicht immer und verlängert die Vorerkennungszeit erheblich.
Wenn ein FlexiLayout in FlexiLayout Studio erstellt wird, wird normalerweise das folgende Verfahren verwendet. Der Benutzer kann im FlexiLayout festlegen, dass die Ergebnisse der Vorerkennung ungenau sein dürfen, d. h. vom Quelltext abweichen können. Dies spiegelt sich in den Standardeinstellungen eines Elements wider, zum Beispiel in der maximalen Anzahl von Fehlern in einem Element vom Typ Static Text oder im Prozentsatz nicht alphabetischer Zeichen in einem Element vom Typ Zeichenkette. Eine hohe Qualität der Vorerkennung ist für die Suche nach Datenfeldern eigentlich nicht erforderlich. Erforderlich ist sie jedoch, wenn die gefundenen Felder in FlexiCapture erkannt werden. Diese Programme bieten für jedes Feld spezialisierte Datentypen, wodurch sich die Erkennungsqualität deutlich verbessert. Die Vorerkennung in FlexiLayout Studio ist eine OCR der gesamten Seite, und die Praxis hat gezeigt, dass dies in der Regel ausreicht, um die Datenfelder in einem Dokument zu erkennen.
In realen Projekten reicht es normalerweise aus, nur wenige Elemente zu erstellen, um ein FlexiLayout zu erhalten, das Bilder guter Qualität erfolgreich verarbeiten kann. Jeder Benutzer kann leicht ein FlexiLayout erstellen, das die erforderlichen Datenfelder auf etwa 70 % der Bilder erkennt. Ein solches FlexiLayout kann in FlexiCapture verwendet werden. Ein FlexiLayout kann aktualisiert und darauf „trainiert“ werden, Daten aus Bildern mit geringer Qualität zu extrahieren. Der Umfang einer solchen Anpassung hängt von der jeweiligen Aufgabe und der dem Benutzer zur Verfügung stehenden Zeit ab.
Die Anpassung eines FlexiLayouts umfasst die Erkennung zuvor nicht erkannter Elemente sowie den Versuch, sie mithilfe zusätzlicher Elemente (möglicherweise eines anderen Typs) mit weniger strengen Suchbedingungen zu finden.
Es gibt auch andere Situationen, die Änderungen am FlexiLayout erfordern, einschließlich der Erstellung zusätzlicher Elemente. Häufig muss der Benutzer ähnliche Dokumente verarbeiten, die aus unterschiedlichen Quellen stammen, zum Beispiel Dokumente, die in verschiedenen regionalen Niederlassungen einer Regierungsbehörde erstellt wurden. Solche Dokumente können sich trotz ihrer offensichtlichen Ähnlichkeit im Layout der Datenfelder unterscheiden. In solchen Fällen ist es ratsam, ein einziges FlexiLayout statt mehrerer leicht unterschiedlicher FlexiCapture-Dokumentdefinitionen zu erstellen.
Dokumente können sich durch die verwendeten Arten von Trennlinien unterscheiden, oder sie können nicht nur von Hand, sondern auch mit einem Drucker ausgefüllt worden sein. Wenn Sie dem Programm beibringen, solche Felder zu finden, verwenden Sie die in diesem Kapitel beschriebenen Methoden.
Ein FlexiLayout Studio-Projekt mit Testbildern und einem getesteten FlexiLayout finden Sie unter %public%\ABBYY\FlexiCapture\12.0\Samples\FLS\Tips and Tricks.
Erkennen von Datumsangaben bei Vorerkennung mit geringer Qualität
Mehrere Werte für Static Text festlegen. Nach Static Text mit ähnlichen Werten suchen
Exclude zum Ausschließen von Elementen verwenden
Gruppenelemente zur Optimierung der FlexiLayout-Struktur und der Suche verwenden
Suche nach einzeiligen Static Text-Elementen
Den Suchbereich mit RestrictSearchArea einschränken
Suche nach einzeiligen Feldern mit bekanntem oder unbekanntem Format in Dokumenten unterschiedlicher Qualität
Elementsuche mit Nearest und FuzzyQuality
Suche nach Gruppenelementen optimieren
Die Eigenschaft „Optional“ eines Gruppenelements
Suche nach Ziffernfolgen
Das FlexiLayout mit einem Hilfselement mit Nullhypothese vereinfachen
Beschreibung von Textfeldern mit gerahmten Buchstaben
