Unstrukturierte Dokumente im Advanced Designer verarbeiten

Skills für die Verarbeitung unstrukturierter Dokumente können nur im Advanced Designer erstellt werden; der cloudbasierte Skill Designer unterstützt diese Szenarien nicht. Dabei kommen vier zentrale NLP-Aktivitäten zum Einsatz, um Entitäten zu identifizieren, Text zu segmentieren und Felder aus Freitextinhalten wie Verträgen, Briefen und E-Mails zu extrahieren:

Jede dieser Aktivitäten unterstützt nur eine begrenzte Anzahl von Sprachen. Die Sprachliste finden Sie auf der Referenzseite der jeweiligen Aktivität.

Wählen Sie ein Szenario

Szenario	Wann zu verwenden	Zentrale Aktivitäten
Vortrainierte Named Entities (gesamtes Dokument)	Entitäten können überall vorkommen — nur minimale Konfiguration erforderlich	NER (+ Address Parsing)
Vortrainierte Named Entities (bestimmte Absätze)	Die Entität befindet sich immer in einem bekannten Absatz	Segmentation + NER (oder Address Parsing)
Benutzerdefinierte Named Entities (Deep Learning for NLP)	Vortrainierte Modelle können nicht eindeutig unterscheiden, oder Ihr Entitätstyp wird nicht abgedeckt	Segmentation + Deep Learning for NLP

Allen folgenden Szenarien liegt ein gemeinsames Muster zugrunde; nur die Aktivitäten, die Sie dem Verarbeitungsablauf hinzufügen, unterscheiden sich.

Typischer Workflow

Einen Document-Skill erstellen

Öffnen Sie Advanced Designer und klicken Sie auf der Startseite auf Create Document Skill.

Dokumente hochladen

Laden Sie auf der Registerkarte Documents die Dokumente hoch, die Sie zum Einrichten des Skills verwenden möchten.

Felder definieren und kennzeichnen

Erstellen und konfigurieren Sie auf der Registerkarte Fields die Felder, die der Skill extrahieren soll. Kennzeichnen Sie die Dokumente im Abschnitt Reference.

NLP-Aktivitäten hinzufügen und konfigurieren

Fügen Sie auf der Registerkarte Activities die Aktivitäten für Ihr Szenario hinzu (siehe unten). Öffnen Sie jede Aktivität im Activity Editor, um sie zu konfigurieren und zu trainieren.

Testen und veröffentlichen

Klicken Sie auf Test Skill Using Selected Documents, um die Ergebnisse auszuwerten. Wenn die Ergebnisse gut genug sind, veröffentlichen Sie den Skill.

Vortrainierte Named Entities (gesamtes Dokument)

Verwenden Sie dieses Szenario, wenn die benötigten Entitäten an beliebiger Stelle im Dokument vorkommen können — zum Beispiel Firmennamen und Adressen in einem Brief. Fügen Sie eine Named Entities (NER)-Aktivität hinzu und ordnen Sie jede Named Entity einem Feld zu. Wenn Sie eine Adresse außerdem in ihre Bestandteile aufteilen müssen (Straße, Stadt, Bundesstaat, Land, Postleitzahl), fügen Sie eine Address Parsing-Aktivität hinzu und ordnen Sie die Bestandteile Feldern zu.

Dokumentenverarbeitungsablauf mit einer Named Entities (NER)-Aktivität

Vortrainierte Named Entities (spezifische Absätze)

Verwenden Sie dieses Szenario, wenn sich die Entität immer im selben Absatz befindet — zum Beispiel ein Kaufbetrag in der Preisklausel eines Kaufvertrags. Isolieren Sie zuerst den Absatz mit einer Segmentation-Aktivität und führen Sie dann für das segmentierte Feld eine Aktivität Named Entities (NER) oder Address Parsing aus. Sie können den Absatz statt mit Segmentation auch mit einer Fast Learning-Aktivität oder einer NLP Extraction Rules-Aktivität isolieren und dann NER oder Address Parsing auf das Ergebnis anwenden.

Vortrainierte Aktivitäten sind einfach zu konfigurieren und erfordern kein Training, aber ein neuronales Netzwerk, das mit Ihren Dokumenten trainiert wurde, kann Daten unter Umständen genauer extrahieren. Wenn Sie über einen großen Dokumentensatz verfügen, probieren Sie auch das unten beschriebene Szenario benutzerdefinierte Named Entities aus und wählen Sie die Variante, die besser funktioniert.

Dokumentenverarbeitungsablauf mit Segmentation, die Named Entities (NER) und Address Parsing speist

Benutzerdefinierte Named Entities (Deep Learning for NLP)

Verwenden Sie dieses Szenario, wenn vortrainierte Aktivitäten die benötigten Entitäten nicht eindeutig unterscheiden können — zum Beispiel, wenn nur der Name einer Organisation aus einem Absatz extrahiert werden soll, in dem beide Vertragsparteien aufgeführt sind, oder wenn ein Entitätstyp extrahiert werden soll, den NER nicht abdeckt (z. B. eine E-Mail-Adresse). Kombinieren Sie eine Segmentation-Aktivität mit einer Deep Learning for NLP-Aktivität: Segmentation isoliert den Absatz, und Deep Learning extrahiert die gewünschten Felder.

Das Training einer Deep Learning for NLP-Aktivität erfordert mindestens 50 Dokumente (150 empfohlen). Für optimale Ergebnisse sollten Sie auch die vortrainierte Aktivität Named Entities (NER) ausprobieren und dann die auswählen, die aus Ihren Dokumenten präziser extrahiert.

Dokumentenverarbeitungsablauf, bei dem Segmentation eine Deep Learning for NLP-Aktivität speist

​Wählen Sie ein Szenario

​Typischer Workflow

​Vortrainierte Named Entities (gesamtes Dokument)

​Vortrainierte Named Entities (spezifische Absätze)

​Benutzerdefinierte Named Entities (Deep Learning for NLP)

​Verwandte Aktivitäten

Wählen Sie ein Szenario

Typischer Workflow

Vortrainierte Named Entities (gesamtes Dokument)

Vortrainierte Named Entities (spezifische Absätze)

Benutzerdefinierte Named Entities (Deep Learning for NLP)

Verwandte Aktivitäten