Zum Hauptinhalt springen
Die Segmentierungsaktivität ist dafür konzipiert, Text in unstrukturierten Dokumenten in Absätze zu unterteilen. So kann das Programm die Suchbereiche für Felder eingrenzen, die von anderen Aktivitäten extrahiert werden sollen. Die Aktivität kann auch verwendet werden, um ganze Absätze in Textfelder zu extrahieren (zum Beispiel wenn Sie juristische Klauseln und Bedingungen aus einem Vertrag extrahieren möchten).
Beispielabsatz

Anwendungsfälle

Fügen Sie diese Aktivität in den folgenden Fällen zu Ihrem Dokumentenverarbeitungsablauf hinzu:
  • Wenn Sie wissen, dass die benannten Entitäten, die Sie aus den Dokumenten extrahieren möchten, sich immer im selben Absatz befinden. Wenn Sie beispielsweise wissen, dass Organisationsnamen und Adressen, die Sie extrahieren müssen, im ersten Absatz jedes Vertrags stehen, können Sie den ersten Absatz mit einer Segmentation-Aktivität extrahieren und anschließend Unternehmensnamen und Adressen aus diesem Absatz mit einer Named Entities (NER)-Aktivität extrahieren. Dieser Ansatz ist zuverlässiger, als benannte Entitäten aus dem gesamten Dokument zu extrahieren, da Sie den konkreten Bereich steuern können, aus dem diese Entitäten extrahiert werden.
  • Wenn ein Absatz vollständig extrahiert werden muss, weil sein gesamter Inhalt relevant ist, zum Beispiel ein Absatz, der die Zahlungsbedingungen eines Vertrags enthält.

Funktionsweise

Segmentierungsaktivitäten werden mithilfe von Referenzkennzeichnungen trainiert. Daher ist es entscheidend, so viele Dokumente wie möglich korrekt zu kennzeichnen. Wenn der Trainingsdatensatz genügend Dokumente enthält, wird die Aktivität per Kreuzvalidierung trainiert. Der Dokumentensatz wird in mehrere Teilmengen aufgeteilt, und die Aktivität wird mehrfach trainiert. Jedes Mal wird eine Teilmenge vom Training ausgeschlossen und für interne Tests verwendet, wodurch die Trainingsergebnisse validiert werden können. Diese Technik verbessert die Extraktionsgenauigkeit, erkennt Fehler bei der Kennzeichnung und schlägt Korrekturen dafür vor. Die empfohlene Anzahl an Beispieldokumenten ist wie folgt:
  • Für Dokumente mit hoher Variabilität sind mindestens 100 Beispieldokumente erforderlich.
  • Für Dokumente mit geringer Variabilität sind mindestens 20 Beispieldokumente erforderlich.
Weitere Informationen finden Sie unter Einrichten einer Segmentierungsaktivität.