Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Skills für die Verarbeitung unstrukturierter Dokumente können nur im Advanced Designer erstellt werden; der cloudbasierte Skill Designer unterstützt diese Szenarien nicht. Dabei kommen vier zentrale NLP-Aktivitäten zum Einsatz, um Entitäten zu identifizieren, Text zu segmentieren und Felder aus Freitextinhalten wie Verträgen, Briefen und E-Mails zu extrahieren:
Jede dieser Aktivitäten unterstützt nur eine begrenzte Anzahl von Sprachen. Die Sprachliste finden Sie auf der Referenzseite der jeweiligen Aktivität.

Wählen Sie ein Szenario

SzenarioWann zu verwendenZentrale Aktivitäten
Vortrainierte Named Entities (gesamtes Dokument)Entitäten können überall vorkommen — nur minimale Konfiguration erforderlichNER (+ Address Parsing)
Vortrainierte Named Entities (bestimmte Absätze)Die Entität befindet sich immer in einem bekannten AbsatzSegmentation + NER (oder Address Parsing)
Benutzerdefinierte Named Entities (Deep Learning for NLP)Vortrainierte Modelle können nicht eindeutig unterscheiden, oder Ihr Entitätstyp wird nicht abgedecktSegmentation + Deep Learning for NLP
Allen folgenden Szenarien liegt ein gemeinsames Muster zugrunde; nur die Aktivitäten, die Sie dem Verarbeitungsablauf hinzufügen, unterscheiden sich.

Typischer Workflow

1

Einen Document-Skill erstellen

Öffnen Sie Advanced Designer und klicken Sie auf der Startseite auf Create Document Skill.
2

Dokumente hochladen

Laden Sie auf der Registerkarte Documents die Dokumente hoch, die Sie zum Einrichten des Skills verwenden möchten.
3

Felder definieren und kennzeichnen

Erstellen und konfigurieren Sie auf der Registerkarte Fields die Felder, die der Skill extrahieren soll. Kennzeichnen Sie die Dokumente im Abschnitt Reference.
4

NLP-Aktivitäten hinzufügen und konfigurieren

Fügen Sie auf der Registerkarte Activities die Aktivitäten für Ihr Szenario hinzu (siehe unten). Öffnen Sie jede Aktivität im Activity Editor, um sie zu konfigurieren und zu trainieren.
5

Testen und veröffentlichen

Klicken Sie auf Test Skill Using Selected Documents, um die Ergebnisse auszuwerten. Wenn die Ergebnisse gut genug sind, veröffentlichen Sie den Skill.

Vortrainierte Named Entities (gesamtes Dokument)

Verwenden Sie dieses Szenario, wenn die benötigten Entitäten an beliebiger Stelle im Dokument vorkommen können — zum Beispiel Firmennamen und Adressen in einem Brief. Fügen Sie eine Named Entities (NER)-Aktivität hinzu und ordnen Sie jede Named Entity einem Feld zu. Wenn Sie eine Adresse außerdem in ihre Bestandteile aufteilen müssen (Straße, Stadt, Bundesstaat, Land, Postleitzahl), fügen Sie eine Address Parsing-Aktivität hinzu und ordnen Sie die Bestandteile Feldern zu.
Dokumentenverarbeitungsablauf mit einer Named Entities (NER)-Aktivität

Vortrainierte Named Entities (spezifische Absätze)

Verwenden Sie dieses Szenario, wenn sich die Entität immer im selben Absatz befindet — zum Beispiel ein Kaufbetrag in der Preisklausel eines Kaufvertrags. Isolieren Sie zuerst den Absatz mit einer Segmentation-Aktivität und führen Sie dann für das segmentierte Feld eine Aktivität Named Entities (NER) oder Address Parsing aus. Sie können den Absatz statt mit Segmentation auch mit einer Fast Learning-Aktivität oder einer NLP Extraction Rules-Aktivität isolieren und dann NER oder Address Parsing auf das Ergebnis anwenden.
Vortrainierte Aktivitäten sind einfach zu konfigurieren und erfordern kein Training, aber ein neuronales Netzwerk, das mit Ihren Dokumenten trainiert wurde, kann Daten unter Umständen genauer extrahieren. Wenn Sie über einen großen Dokumentensatz verfügen, probieren Sie auch das unten beschriebene Szenario benutzerdefinierte Named Entities aus und wählen Sie die Variante, die besser funktioniert.
Dokumentenverarbeitungsablauf mit Segmentation, die Named Entities (NER) und Address Parsing speist

Benutzerdefinierte Named Entities (Deep Learning for NLP)

Verwenden Sie dieses Szenario, wenn vortrainierte Aktivitäten die benötigten Entitäten nicht eindeutig unterscheiden können — zum Beispiel, wenn nur der Name einer Organisation aus einem Absatz extrahiert werden soll, in dem beide Vertragsparteien aufgeführt sind, oder wenn ein Entitätstyp extrahiert werden soll, den NER nicht abdeckt (z. B. eine E-Mail-Adresse). Kombinieren Sie eine Segmentation-Aktivität mit einer Deep Learning for NLP-Aktivität: Segmentation isoliert den Absatz, und Deep Learning extrahiert die gewünschten Felder.
Das Training einer Deep Learning for NLP-Aktivität erfordert mindestens 50 Dokumente (150 empfohlen). Für optimale Ergebnisse sollten Sie auch die vortrainierte Aktivität Named Entities (NER) ausprobieren und dann die auswählen, die aus Ihren Dokumenten präziser extrahiert.
Dokumentenverarbeitungsablauf, bei dem Segmentation eine Deep Learning for NLP-Aktivität speist

Named Entities (NER)-Aktivität

Extrahieren Sie vortrainierte Entitäten wie Namen, Organisationen und Datumsangaben aus unstrukturiertem Text.

Address Parsing-Aktivität

Teilen Sie Adressen in Straße, Stadt, Bundesstaat, Land und Postleitzahl auf.

Segmentation-Aktivität

Isolieren Sie den Absatz, der die Daten enthält, die Sie extrahieren möchten.

Deep Learning for NLP-Aktivität

Trainieren Sie ein neuronales Netzwerk, um benutzerdefinierte oder schwer zu unterscheidende Entitäten zu extrahieren.