Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Um ein Dokument zu kennzeichnen, markieren Sie die Regionen, die Feldwerte enthalten, und geben Sie dem Skill an, welchen Datentyp jedes Feld hat. Bevor Sie beginnen, wählen Sie die passende Auswahlmethode für die Form des Felds aus und befolgen Sie dann die typspezifischen Richtlinien für strukturierte, semistrukturierte oder unstrukturierte Dokumente.

Auswahlmethoden

MethodeAm besten geeignet für
Auf ein Wort zeigen und klickenEinwort-Felder
Ein Rechteck um Wörter ziehensemistrukturierte Dokumente
Auf das erste Wort klicken und dann bei gedrückter linker Maustaste bis zum letzten Wort ziehenUnstrukturierte Dokumente

Strukturierte Dokumente

Strukturierte Dokumente (z. B. vorformatierte Formulare) enthalten immer dieselben Informationen an denselben Stellen. Sie müssen nur einige Beispieldokumente kennzeichnen, da es keine Abweichungen im Layout gibt.
  • Geben Sie die Region jedes Felds genau an — Feldwerte allein reichen für das Training nicht aus.
  • Markieren Sie den gesamten Platzhalter, nicht den darin enthaltenen Wert.
  • Wenn ein Feld keinen Wert enthält, markieren Sie den leeren Platzhalter trotzdem.
  • Halten Sie bei mehrteiligen Feldern Shift gedrückt, um weitere Teile hinzuzufügen. Alle Teile müssen sich auf derselben Seite befinden.
  • Kennzeichnen Sie bei Formularen mit festem Layout jede Zeile, auch leere Zeilen.
  • Wenn Sie nach dem Kennzeichnen ein neues Feld hinzufügen, gehen Sie zurück und kennzeichnen Sie dieses Feld in jedem Dokument des Trainingsdatensatzes.

Semistrukturierte Dokumente

Semistrukturierte Dokumente — Abrechnungen, Zahlungsaufträge, Rechnungen — enthalten ähnliche Felder, aber Position, Größe und Anzahl der Felder variieren von Dokument zu Dokument.
  • Geben Sie die Region jedes Felds genau an — Feldwerte allein reichen für das Training nicht aus.
  • Klicken Sie auf den Wert des Felds (das Wort oder die Wörter, die es enthält); die Region wird automatisch erstellt.
  • Wenn ein Feld keinen Wert enthält, erstellen Sie keine Region dafür.
  • Markieren Sie keine Wortteile — es wird nur mit ganzen Wörtern trainiert.
  • Halten Sie bei mehrteiligen Feldern Shift gedrückt, um weitere Teile hinzuzufügen. Alle Teile müssen sich auf derselben Seite befinden.
  • Weisen Sie das Programm nicht an, Felder innerhalb der Region eines anderen Felds zu finden (ob es sich um ein einzelnes Feld wie eine Adresse oder eine Tabellenzelle wie Description handelt). Um aus einer großen Region zu extrahieren, verketten Sie Aktivitäten: eine Extraktionsaktivität für semistrukturierte Dokumente, um die Region zu finden, und anschließend eine NLP Extraction Rules activity oder eine Skriptregel, um bestimmte Felder daraus zu extrahieren.
  • Wenn Sie nach dem Kennzeichnen ein neues Feld hinzufügen, gehen Sie zurück und kennzeichnen Sie dieses Feld in jedem Dokument im Trainingsdatensatz.

Tabellen und wiederholbare Gruppen

Entscheiden Sie bei sich wiederholenden Daten zwischen einer Tabelle und einer wiederholbaren Gruppe:
Verwenden Sie diesWann
TabelleTabellarische Daten mit einer gemeinsamen Kopfzeile und Werten, neben denen keine Schlüsselwörter stehen
Wiederholbare Gruppe mit der Option Mehrere Elemente zulassenWeniger strukturierte Daten, bei denen die Schlüsselwörter neben den Werten stehen
Wenn verschiedene Dokumente unterschiedlich aufgebaut sind, wählen Sie die Option, die auf die meisten zutrifft. Um eine Tabelle zu kennzeichnen, markieren Sie die Zellen der ersten Zeile nacheinander (jeder Klick erstellt eine Spalte), klicken Sie dann auf Tabelle ab dieser Zeile fortsetzen und prüfen Sie, ob der Rest der Tabelle korrekt gekennzeichnet ist.
Bei großen Tabellen auf visuell ähnlichen Seiten können Sie die ähnlichen Seiten in der Mitte löschen und nur die erste Seite, die letzte Seite und einige Seiten dazwischen kennzeichnen.

Unstrukturierte Dokumente

Unstrukturierte Dokumente — Verträge, wissenschaftliche Artikel, E-Mail-Nachrichten — haben keine einheitliche Struktur.
  • Legen Sie die Region für jedes Feld präzise fest — Feldwerte allein reichen für das Training nicht aus.
  • Schließen Sie bei Segmenten (Feldern, die mit der Segmentation-Aktivität trainiert werden) einen oder mehrere vollständige Absätze ein. Ein Segment kann nicht nur einen Teil eines Absatzes enthalten.
  • Klicken Sie auf den Wert des Feldes (das Wort oder die Wörter, die es enthält); die Region wird automatisch erstellt.
  • Wenn ein Feld keinen Wert enthält, erstellen Sie keine Region dafür.
  • Markieren Sie keine Wortteile — das Modell lernt nur anhand ganzer Wörter.
  • Wenn auf ein Wort ein Satzzeichen folgt, passen Sie die Region so an, dass das Satzzeichen nicht mit eingeschlossen wird.
  • Eine Feldregion kann sich über mehrere Seiten erstrecken (zum Beispiel eine Vertragsklausel). Kennzeichnen Sie den ersten Teil auf der ersten Seite und halten Sie dann Shift gedrückt, während Sie auf der nächsten Seite fortfahren.
  • Um ein Feld innerhalb der Region eines anderen Feldes zu kennzeichnen (zum Beispiel ein Feld innerhalb eines Segments), wählen Sie das innere Feld aus und beginnen Sie mit dem Kennzeichnen — dadurch wird eine neue Region erstellt, anstatt die äußere auszuwählen.
Dies ist das Gegenteil der obigen Richtlinie für semistrukturierte Dokumente: Segmente in unstrukturierten Dokumenten sind darauf ausgelegt, innere Felder zu enthalten, daher ist das Kennzeichnen innerhalb dieser Segmente beabsichtigt. Bei semistrukturierten Dokumenten führt die entsprechende Verschachtelung zu Trainingskonflikten.

Dokumente kennzeichnen

Annotierte Dokumente aus Trainingsdatensätzen, der manuellen Überprüfung oder aus FlexiCapture wiederverwenden.

Importieren aus FlexiCapture

Format und Vorgehensweise für die Wiederverwendung von in FlexiCapture annotierten Dokumenten.

Dokumentkategorien

Hintergrundinformationen zu strukturierten, semistrukturierten, unstrukturierten und gemischten Dokumenten.

Segmentation-Aktivität

Zum Segmentieren von Feldern in unstrukturierten Dokumenten.