Einsatz von NLP zur Verarbeitung unstrukturierter Dokumente

Natural Language Processing (NLP) ist ein Teilgebiet der künstlichen Intelligenz und der Computerlinguistik. NLP befasst sich mit der computergestützten Analyse und Synthese natürlicher Sprachen. Eine praktische Anwendung von NLP ist die Extraktion aussagekräftiger Daten aus Texten. Wie ein Dokument verarbeitet wird, hängt von seiner Struktur ab. Für unsere Zwecke lassen sich drei Arten von Dokumenten unterscheiden: strukturierte, semistrukturierte und unstrukturierte Dokumente.

Strukturierte Dokumente enthalten eine Reihe klar definierter Datenfelder, deren Gestaltung, Anzahl und Anordnung sich von einem Dokument zum anderen nicht ändern. Beispiele für strukturierte Dokumente sind Formulare, Fragebögen und Anträge.
Semistrukturierte Dokumente enthalten eine Reihe von Datenfeldern, deren Gestaltung, Anzahl und Anordnung von einem Dokument zum anderen erheblich variieren können. Sie werden manchmal auch als „flexible Dokumente“ bezeichnet. Ein Beispiel für semistrukturierte Dokumente sind Rechnungen, bei denen die Anzahl der Einträge und die Formatierung häufig vom ausstellenden Unternehmen abhängen.
Unstrukturierte Dokumente enthalten Informationen, die in keiner Weise strukturiert sind. Sie enthalten außerdem keine expliziten Datenfelder. Beispiele für unstrukturierte Dokumente sind Verträge, Briefe und Bestellungen.

Weitere Informationen zu Dokumenttypen finden Sie unter Arten von Dokumenten, die mit ABBYY FlexiCapture verarbeitet werden. Zur Verarbeitung unstrukturierter Dokumente sollte NLP-Technologie eingesetzt werden. Mit NLP lassen sich beispielsweise die folgenden Arten von Daten aus einem Vertrag extrahieren: Referenznummern, Namen der Parteien, wichtige Daten (Unterzeichnungsdatum, Inkrafttretensdatum, Laufzeit und Kündigungsdatum), Vertragspreis, Gebühren, Zahlungsbedingungen und so weiter. Zum Extrahieren von Informationen aus Tabellen sowie aus strukturierten und semistrukturierten Dokumenten sollten andere Methoden verwendet werden (zum Beispiel FlexiLayouts). Informationen aus Texten extrahieren ABBYY-Softwareprodukte verwenden NLP-Modelle, um Informationen aus unstrukturierten Texten zu extrahieren. Ein NLP-Modell teilt dem Programm mit, welche Entitäten aus einem Dokument extrahiert werden sollen. Wenn Sie ein NLP-Modell mit Beispieldokumenten trainieren, werden das Fachgebiet Ihrer Texte und der geeignete Extraktionsalgorithmus bestimmt, sodass die benötigten Informationen effizienter extrahiert werden können. Der Aufwand für die Erstellung eines NLP-Modells hängt von der Vielfalt Ihrer Dokumente, dem dem Programm zur Verfügung stehenden Kontext sowie von der Komplexität und dem Umfang der Informationen ab, die Sie extrahieren müssen. Die Extraktion von Daten aus unstrukturierten Texten erfordert viel Rechenleistung. Die Analyse längerer Texte dauert entsprechend länger. Oft finden sich die benötigten Informationen jedoch auf einer bestimmten Seite oder in einem bestimmten Absatz eines sehr langen Textes. Der Prozess, solche nützlichen Textteile zu finden, wird als Segmentierung bezeichnet. Dieser Prozess erfordert deutlich weniger Zeit und Rechenressourcen als die Entitätsextraktion. Daher kann es in manchen Fällen sinnvoll sein, ein Dokument vor der Informationsextraktion zu segmentieren. Weitere Informationen zum Identifizieren nützlicher Segmente finden Sie unter Erstellen eines NLP-Modells für die Segmentierung. Um unstrukturierte Dokumente mit NLP zu verarbeiten, führen Sie die folgenden Schritte aus:

Installieren Sie das NLP-Modul.
Erstellen Sie eine Dokumentdefinition.
Erstellen und trainieren Sie ein NLP-Modell.
Alternativ können Sie ein vorhandenes NLP-Modell in Ihre Dokumentdefinition laden.