Introducing ABBYY FlexiLayout Studio
Datenerfassung aus unstrukturierten Dokumenten
Erfassen Sie Daten aus unstrukturierten Dokumenten mit FlexiLayouts: formalisierte Beschreibungen, die variable Felder dort lokalisieren, wo feste Document Definitions nicht ausreichen.
Ein Dokument enthält Felder, die von Hand oder mithilfe eines Druckers ausgefüllt werden. Dokumente können aus einer oder mehreren Seiten bestehen.
Dokumente können in „feste“ und „teilstrukturierte“ Dokumente unterteilt werden. Bei „festen“ Dokumenten befinden sich identische Felder auf allen Dokumenten in einem Batch exakt an derselben Stelle. Feste Dokumente können mithilfe von Dokumentenverarbeitungsanwendungen verarbeitet werden, die Informationen aus den Datenfeldern auslesen und in Datenbanken, Dokumentenmanagementsysteme oder Archivierungsanwendungen exportieren. Die Daten solcher Dokumente werden mithilfe einer Document Definition erfasst, die die Positionen der Felder und die Art der Informationen beschreibt, die sie enthalten können. Dieselbe Document Definition wird verwendet, um Daten aus allen Dokumenten eines bestimmten Batch zu erfassen. Sie teilt der Dokumentenverarbeitungsanwendung mit, wo auf einem Dokument nach bestimmten Daten gesucht werden soll und wie sichergestellt werden kann, dass die Daten korrekt erfasst wurden.
Bei „teilstrukturierten“ Dokumenten variieren die Positionen identischer Datenfelder von einem Dokument zum anderen. Außerdem sind möglicherweise nicht auf allen Dokumenten in einem Batch alle Felder vorhanden (z. B. können einige Dokumente ein Unterschriftsfeld enthalten, während andere keines haben). Ein gutes Beispiel für ein teilstrukturiertes Dokument sind verschiedene Zahlungsdokumente.
Briefe, Registrierungsformulare und juristische Dokumente sind weitere gute Beispiele für teilstrukturierte Dokumente. Dokumente desselben Typs weisen ähnliche Strukturen auf, dennoch kann es Unterschiede zwischen ihren Feldern geben. So enthalten Briefe beispielsweise oben auf der Seite den Namen und die Adresse des Absenders, juristische Dokumente enthalten die Namen der Parteien und ihre Angaben, das Zahlungsdatum usw.
Da die genaue Position der Felder auf teilstrukturierten Dokumenten nicht im Voraus bekannt ist, können Daten aus solchen Dokumenten nicht mithilfe einer Document Definition erfasst werden. Das bedeutet, dass herkömmliche Datenerfassungssysteme keine Daten aus solchen Dokumenten extrahieren können.
Mit ABBYY FlexiLayout Studio können Sie unstrukturierte Dokumente formal beschreiben und dem Programm einen Suchalgorithmus bereitstellen, sodass es Datenfelder finden und Informationen aus diesen Feldern extrahieren kann. Eine formale Beschreibung stützt sich auf die wechselseitigen Beziehungen zwischen den Feldern in einem unstrukturierten Dokument und auf die Art der Daten innerhalb dieser Felder. Erstellte Beschreibungen können anhand von Dokumentbildern getestet werden, um sicherzustellen, dass Informationen zuverlässig extrahiert werden können.
Die mit ABBYY FlexiLayout Studio erstellten formalisierten Beschreibungen werden FlexiLayouts genannt. Um mit der Datenerfassung aus unstrukturierten Dokumenten mithilfe eines FlexiLayouts zu beginnen, müssen Sie es in eine Datenerfassungsanwendung wie ABBYY FlexiCapture exportieren. Die ABBYY FlexiCapture-Technologie bietet eine große Bandbreite an Datenerfassungsfunktionen, sodass Sie praktisch jede Art von Dokument verarbeiten können.
