Zum Hauptinhalt springen
Die Segmentierungsaktivität dient dazu, Text in unstrukturierten Dokumenten in Absätze zu unterteilen. Dadurch kann das Programm die Suchbereiche für Felder eingrenzen, die von anderen Aktivitäten extrahiert werden sollen. Die Aktivität kann auch verwendet werden, um ganze Absätze in Text-Felder zu übernehmen (zum Beispiel, wenn Sie rechtliche Klauseln und Bedingungen aus einem Vertrag extrahieren möchten).
Beispielabsatz

Anwendungsfälle

Fügen Sie diese Aktivität in den folgenden Fällen zu Ihrem Dokumentenverarbeitungsablauf hinzu:
  • Wenn Sie wissen, dass die benannten Entitäten, die Sie aus den Dokumenten extrahieren möchten, sich immer im selben Absatz befinden. Wenn Sie beispielsweise wissen, dass Organisationsnamen und Adressen, die Sie extrahieren müssen, im ersten Absatz jedes Vertrags stehen, können Sie den ersten Absatz mit einer Segmentation-Aktivität extrahieren und anschließend Unternehmensnamen und Adressen aus diesem Absatz mit einer Named Entities (NER)-Aktivität extrahieren. Dieser Ansatz ist zuverlässiger, als benannte Entitäten aus dem gesamten Dokument zu extrahieren, da Sie den konkreten Bereich steuern können, aus dem diese Entitäten extrahiert werden.
  • Wenn ein Absatz vollständig extrahiert werden muss, weil sein gesamter Inhalt relevant ist, zum Beispiel ein Absatz, der die Zahlungsbedingungen eines Vertrags enthält.

Funktionsweise

Segmentierungsaktivitäten werden mithilfe von Referenzkennzeichnung trainiert, daher ist es unerlässlich, möglichst viele Dokumente korrekt zu kennzeichnen. Wenn der Trainingssatz genügend Dokumente enthält, wird die Aktivität per Kreuzvalidierung trainiert. Der Dokumentensatz wird in mehrere Teilmengen aufgeteilt, und die Aktivität wird mehrfach trainiert. Jedes Mal wird eine Teilmenge vom Training ausgeschlossen und für interne Tests verwendet, wodurch die Trainingsergebnisse validiert werden können. Diese Technik verbessert die Extraktionsgenauigkeit und hilft zudem, Kennzeichnungsfehler zu erkennen und Korrekturen dafür vorzuschlagen. Die empfohlene Anzahl an Beispieldokumenten lautet:
  • Für Dokumente mit hoher Variabilität sind mindestens 100 Beispieldokumente erforderlich.
  • Für Dokumente mit geringer Variabilität sind mindestens 20 Beispieldokumente erforderlich.
Weitere Informationen finden Sie unter Einrichten einer Segmentierungsaktivität.