Zum Hauptinhalt springen
Die Deep-Learning-Aktivität für semi-strukturierte Dokumente ist dafür ausgelegt, produktionsreife kognitive Skills zu erstellen, mit denen mithilfe neuronaler Netze Felder aus semi-strukturierten Dokumenten extrahiert werden.
Hinweis: Diese Aktivität kann keine komplexen Strukturen extrahieren (zum Beispiel verschachtelte Tabellen, also wiederholende Strukturen innerhalb anderer Tabellen) und keine Felder eines anderen Typs als Text. Um solche Strukturen zu extrahieren, verwenden Sie die Extraction Rules-Aktivität.

Anwendungsfälle

Fügen Sie diese Aktivität zu Ihrem Dokumentenverarbeitungs-Workflow hinzu, wenn:
  • Ihr Skill dazu verwendet wird, mehrere Varianten eines bestimmten Dokumenttyps zu verarbeiten.
  • Sie vorhaben, Dokumentvarianten zu verarbeiten, für die Ihr Skill noch nicht trainiert wurde. Beispielsweise verfügen Sie möglicherweise über einen Document-Skill mit einer Fast Learning-Aktivität, der darauf trainiert wurde, Felder aus Kreditverträgen (mit unterschiedlichen Feldstrukturen) zu extrahieren, die von mehreren verschiedenen Banken stammen. Wenn Sie sich entscheiden, diesen bestehenden Skill zu verwenden, um Kreditverträge einer neuen, dem Skill noch unbekannten Bank zu verarbeiten, kann die Extraktionsqualität unzureichend sein. Um die Extraktionsqualität zu verbessern, können Sie statt einer Fast Learning-Aktivität eine Deep Learning-Aktivität verwenden.

Funktionsweise

Deep Learning kombiniert Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs) und Natural Language Processing (NLP)-Token. Durch diese Kombination erkennt Deep Learning Bildmuster, die Struktur von Dokumenten, Feldinhalte und umgebende Bezeichnungen. Es erfordert eine große Anzahl von Dokumenten für das Training, lässt sich jedoch auf neue Dokumentlayouts verallgemeinern, denen es bislang noch nicht begegnet ist, und bietet damit einen tatsächlich vorlagenlosen Ansatz für die Extraktion, was die einzige Möglichkeit darstellt, Dokumente zu verarbeiten, für die zum Zeitpunkt des Trainings kein vollständiger Satz von Layouts verfügbar ist.

Trainingsanforderungen

Für optimale Ergebnisse ist es entscheidend, so viele Dokumente wie möglich korrekt zu kennzeichnen. Die Anzahl der Beispieldokumente, die für das Training verwendet werden, beeinflusst die Qualität der Feldextraktion erheblich. Die empfohlene Anzahl von Beispieldokumenten ist wie folgt:
  • Für Dokumente mit hoher Variabilität: Es werden mindestens 200–300 Beispieldokumente benötigt (2–3 Beispieldokumente pro Variante).
  • Für Dokumente mit geringer Variabilität: Es werden mindestens 10 Beispieldokumente benötigt (2–3 Beispieldokumente pro Variante).
Die Mindestanforderung sind 10, es wird jedoch empfohlen, mehr als 500 gekennzeichnete Dokumente zu haben und sicherzustellen, dass Ihr Trainingssatz ungefähr gleich viele Exemplare aller Dokumentvarianten enthält, die Sie verarbeiten möchten (idealerweise mindestens einige Beispiele jeder Variante). Sie müssen nicht alle möglichen Varianten bereitstellen, aber die Technologie muss genügend unterschiedliche Dokumente „sehen“, um Muster abzuleiten und auf Varianten zu verallgemeinern, denen sie bisher noch nicht begegnet ist. Im Fall von Rechnungen wird beispielsweise erwartet, dass die Technologie gut auf neue Lieferanten verallgemeinert, wenn der Trainingssatz 500 bis 1.000 verschiedene Lieferanten mit jeweils zwei bis drei Beispieldokumenten enthält. Obwohl Deep Learning zur Generalisierung neigt, ist es vorteilhaft, die gängigsten Varianten des Dokuments in den Trainingssatz aufzunehmen, zum Beispiel die Lieferanten, die die meisten Rechnungen bereitstellen.

Trainingsmerkmale

Im Gegensatz zur Fast Learning-Aktivität, die mit einer geringeren Anzahl von Dokumenten trainiert wird und für homogenere Dokumentensätze vorgesehen ist, dauert das Training der Deep Learning-Aktivität deutlich länger und erfordert deutlich mehr Systemressourcen (derzeit 16 CPU-Kerne und 64 GB RAM). Das Training des neuronalen Netzes ist ein iterativer Prozess. Jede Iteration wird als Epoche bezeichnet. Zu Beginn einer Epoche wird der Dokumentensatz in eine Trainings- und eine Validierungsmenge aufgeteilt. Während einer Epoche werden alle Dokumente aus der Trainingsmenge von einem Trainingsalgorithmus verarbeitet. Anschließend wird die Leistung des neuronalen Netzes anhand der Validierungsmenge bewertet, und die Kennzahlen für jedes Feld und den gesamten Dokumentensatz werden aktualisiert. Weitere Informationen finden Sie unter Einrichten einer Deep Learning-Aktivität.