Erstellen Sie Document-Skills, um Daten aus strukturierten, halbstrukturierten und unstrukturierten Dokumenten zu extrahieren
Um Daten aus Dokumenten zu extrahieren, erstellen Sie einen Document-Skill.Das Szenario und die eingesetzten Technologien (als Aktivitäten verfügbar) hängen weitgehend von der Struktur der zu verarbeitenden Dokumente ab. Grundsätzlich lassen sich Dokumente in folgende Typen einteilen:
Strukturierte Dokumente (auch als feste Formulare bezeichnet) enthalten stets dieselben Informationen und weisen entweder dasselbe Layout oder nur eine sehr geringe Zahl an Layouts auf. Beispiele für strukturierte Dokumente sind Formulare, Fragebögen und Umfragen.
Halbstrukturierte Dokumente enthalten im Allgemeinen identische Informationen, jedoch können sich Position, Größe und Anzahl der Felder von Dokument zu Dokument unterscheiden, was die Datenerfassung erschwert. Vantage nutzt räumliche und logische Beziehungen zwischen bestimmten Elementen und Feldern, um die benötigten Daten zu finden und zu extrahieren. Beispiele für halbstrukturierte Dokumente sind Rechnungen, Zahlungsanweisungen und Konnossemente.Wenn Ihr Dokumentensatz aus strukturierten oder halbstrukturierten Dokumenten besteht, sehen Sie sich die Szenarien in den Abschnitten Verarbeitung strukturierter Dokumente und Verarbeitung halbstrukturierter Dokumente an.
Unstrukturierte Dokumente bestehen aus frei formuliertem Text, der in Absätze und Sätze unterteilt ist und Daten enthält, die extrahiert werden müssen. In manchen unstrukturierten Dokumenten kann ein Feld auf die nächste Seite überlaufen. Beispiele für unstrukturierte Dokumente sind Verträge, E-Mails und Forschungsartikel.Wenn Ihr Dokumentensatz aus unstrukturierten Dokumenten besteht, lesen Sie die Szenarien im Abschnitt Verarbeitung unstrukturierter Dokumente.
Wenn Ihr Dokumentensatz sowohl halbstrukturierte als auch unstrukturierte Dokumente enthält oder wenn Ihre Dokumente sowohl halbstrukturierte als auch unstrukturierte Inhalte umfassen (zum Beispiel Absätze mit einfachem Text im Wechsel mit Tabellen), sehen Sie sich die Szenarien im Abschnitt Verarbeitung gemischter Dokumentensätze und Dokumente mit gemischter Struktur an.