Deep Learning-Aktivität für semi-strukturierte Dokumente

Die Deep Learning-Aktivität für semi-strukturierte Dokumente dient dazu, produktionsreife kognitive Skills zu erstellen, die mithilfe neuronaler Netze Felder aus semi-strukturierten Dokumenten extrahieren.

Diese Aktivität kann keine komplexen Strukturen extrahieren (zum Beispiel verschachtelte Tabellen, also wiederholte Strukturen innerhalb anderer Tabellen) und keine Felder, deren Typ nicht Text ist. Verwenden Sie zum Extrahieren solcher Strukturen die Extraction Rules-Aktivität.

Anwendungsfälle

Fügen Sie diese Aktivität Ihrem Dokumentverarbeitungsablauf hinzu, wenn:

Ihr Skill zum Verarbeiten mehrerer Varianten eines bestimmten Dokumenttyps verwendet wird.
Sie Dokumentvarianten verarbeiten möchten, für die Ihr Skill noch nicht trainiert wurde. Sie verfügen beispielsweise über einen Document-Skill mit einer Fast Learning-Aktivität, der darauf trainiert wurde, Felder aus Darlehensverträgen (mit unterschiedlichen Feldstrukturen) zu extrahieren, die von mehreren verschiedenen Banken stammen. Wenn Sie diesen vorhandenen Skill für die Verarbeitung von Darlehensverträgen einer neuen Bank verwenden möchten, die dem Skill noch unbekannt ist, kann die Extraktionsqualität unzureichend sein. Um die Extraktionsqualität zu verbessern, können Sie anstelle einer Fast Learning-Aktivität eine Deep Learning-Aktivität verwenden.

So funktioniert es

Deep Learning kombiniert Convolutional Neural Networks (CNNs), Recurrent Neural Networks (RNNs) und Natural Language Processing (NLP)-Token. Durch diese Kombination erfasst Deep Learning Bildmuster, die Struktur von Dokumenten, Feldinhalte und umgebende Beschriftungen. Für das Training benötigt es eine große Anzahl von Dokumenten, kann jedoch auch auf neue Dokumentlayouts verallgemeinern, die es noch nicht gesehen hat. Damit bietet es einen wirklich vorlagenfreien Extraktionsansatz – den einzigen Weg, Dokumente zu verarbeiten, für die in der Trainingsphase kein vollständiger Satz von Layouts verfügbar ist.

Trainingsanforderungen

Für optimale Ergebnisse ist es entscheidend, möglichst viele Dokumente korrekt zu annotieren. Die Anzahl der für das Training verwendeten Beispieldokumente hat erheblichen Einfluss auf die Qualität der Feldextraktion. Die empfohlene Anzahl an Beispieldokumenten ist wie folgt:

Für Dokumente mit hoher Variabilität: Mindestens 200–300 Beispieldokumente (2–3 Beispieldokumente pro Variante) sind erforderlich.
Für Dokumente mit geringer Variabilität: Mindestens 10 Beispieldokumente sind erforderlich (2–3 Beispieldokumente pro Variante).

Das Minimum liegt bei 10, empfohlen werden jedoch mehr als 500 annotierte Dokumente. Achten Sie dabei darauf, dass Ihr Trainingsdatensatz von allen Dokumentvarianten, die Sie verarbeiten möchten, ungefähr gleich viele Beispiele enthält (idealerweise mindestens einige Beispiele pro Variante). Sie müssen nicht alle möglichen Varianten bereitstellen, aber die Technologie muss genügend unterschiedliche Dokumente sehen, um Muster abzuleiten und auf Varianten zu generalalisieren, die sie noch nicht gesehen hat. Bei Rechnungen ist beispielsweise zu erwarten, dass die Technologie gut auf neue Lieferanten generalisiert, wenn der Trainingsdatensatz 500 bis 1.000 verschiedene Lieferanten umfasst und von jedem jeweils zwei bis drei Beispieldokumente enthält. Obwohl Deep Learning tendenziell gut generalisiert, ist es sinnvoll, die gängigsten Dokumentvarianten in den Trainingsdatensatz aufzunehmen, zum Beispiel von den Lieferanten, die die meisten Rechnungen stellen.

Merkmale des Trainings

Im Gegensatz zur Fast Learning-Aktivität, die mit einer kleineren Anzahl von Dokumenten trainiert wird und für eher schlanke Dokumentensätze gedacht ist, dauert das Training der Deep Learning-Aktivität deutlich länger. Das Training des neuronalen Netzwerks ist ein iterativer Prozess. Jede Iteration wird als Epoche bezeichnet. Zu Beginn einer Epoche wird der Dokumentensatz in eine Trainingsmenge und eine Validierungsmenge aufgeteilt. Während einer Epoche werden alle Dokumente aus der Trainingsmenge durch einen Trainingsalgorithmus verarbeitet. Anschließend wird die Leistung des neuronalen Netzwerks anhand der Validierungsmenge bewertet, und die Metriken für jedes Feld und den gesamten Dokumentensatz werden aktualisiert. Weitere Informationen finden Sie unter Einrichten einer Deep Learning-Aktivität.

​Anwendungsfälle

​So funktioniert es

​Trainingsanforderungen

​Merkmale des Trainings

Anwendungsfälle

So funktioniert es

Trainingsanforderungen

Merkmale des Trainings