Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Die Segmentation-Aktivität dient dazu, Text in unstrukturierten Dokumenten in Absätze zu unterteilen. Dadurch kann das Programm die Suchbereiche für Felder eingrenzen, die von anderen Aktivitäten extrahiert werden sollen. Die Aktivität kann auch verwendet werden, um ganze Absätze in Text-Felder zu übernehmen (zum Beispiel, wenn Sie rechtliche Klauseln und Bedingungen aus einem Vertrag extrahieren möchten).
Beispielabsatz

Anwendungsfälle

Fügen Sie diese Aktivität in den folgenden Fällen zu Ihrem Dokumentverarbeitungsablauf hinzu:
  • Wenn Sie wissen, dass die benannten Entitäten, die Sie aus den Dokumenten extrahieren möchten, sich immer im selben Absatz befinden. Wenn Sie beispielsweise wissen, dass Organisationsnamen und Adressen, die Sie extrahieren müssen, im ersten Absatz jedes Vertrags stehen, können Sie den ersten Absatz mit einer Segmentation-Aktivität extrahieren und anschließend Unternehmensnamen und Adressen aus diesem Absatz mit einer Named Entities (NER)-Aktivität extrahieren. Dieser Ansatz ist zuverlässiger, als benannte Entitäten aus dem gesamten Dokument zu extrahieren, da Sie den konkreten Bereich steuern können, aus dem diese Entitäten extrahiert werden.
  • Wenn ein Absatz vollständig extrahiert werden muss, weil sein gesamter Inhalt relevant ist, zum Beispiel ein Absatz, der die Zahlungsbedingungen eines Vertrags enthält.

Funktionsweise

Segmentierungsaktivitäten werden anhand der Referenzkennzeichnung trainiert. Daher ist es wichtig, möglichst viele Dokumente korrekt zu kennzeichnen. Wenn der Trainingsdatensatz genügend Dokumente enthält, wird die Aktivität mithilfe der Kreuzvalidierung trainiert. Der Dokumentensatz wird in mehrere Teilmengen aufgeteilt, und die Aktivität wird mehrmals trainiert. Dabei wird jedes Mal eine Teilmenge vom Training ausgeschlossen und für interne Tests verwendet, sodass die Trainingsergebnisse validiert werden können. Diese Technik verbessert die Extraktionsgenauigkeit, erkennt Fehler bei der Kennzeichnung und schlägt entsprechende Korrekturen vor. Die empfohlene Anzahl von Beispieldokumenten ist wie folgt:
  • Für Dokumente mit hoher Variabilität sind mindestens 100 Beispieldokumente erforderlich.
  • Für Dokumente mit geringer Variabilität sind mindestens 20 Beispieldokumente erforderlich.
Weitere Informationen finden Sie unter Einrichten einer Segmentation-Aktivität.