Zum Hauptinhalt springen
Sie müssen eine bestimmte Anzahl von Dokumenten annotieren, um ein Skill zu trainieren und zu testen. Die folgenden Richtlinien helfen Ihnen, Ihre Dokumente korrekt zu annotieren.
Hinweis: Richtlinien zum Annotieren unstrukturierter Dokumente finden Sie im Advanced Designer Guide.

Strukturierte Dokumente

Strukturierte Dokumente enthalten immer genau denselben Informationstyp an genau denselben Positionen. Ein Beispiel für strukturierte Dokumente sind vorformatierte Formulare. Sie müssen nur wenige Beispieldokumente für das Training kennzeichnen, da ihr Layout keine Varianten aufweist. Beachten Sie beim Kennzeichnen strukturierter Dokumente die folgenden Richtlinien:
  • Achten Sie darauf, den Bereich jedes Felds präzise anzugeben, da Feldwerte allein für das Training nicht ausreichen.
  • Klicken Sie zum Markieren des Bereichs eines Felds nicht auf dessen Wert, sondern markieren Sie den gesamten Platzhalter.
  • Wenn ein Feld keinen Wert enthält, markieren Sie den leeren Platzhalter.
  • Wenn ein Feld aus mehreren Teilen besteht, halten Sie die Taste Umschalt gedrückt, um die Teile hinzuzufügen. Bitte beachten Sie, dass alle Teile auf derselben Seite liegen müssen.
  • Wenn ein festes Formular eine Tabelle enthält, markieren Sie alle Zeilen, einschließlich der leeren.
  • Wenn nach bereits erfolgter Kennzeichnung ein Feld hinzugefügt wird, muss dieses neue Feld in allen Dokumenten des Trainingssatzes gekennzeichnet werden. Bitte überprüfen Sie alle Ihre Dokumente und kennzeichnen Sie das neue Feld in allen Dokumenten, in denen es vorkommt.

Halbstrukturierte Dokumente

Halbstrukturierte Dokumente enthalten im Allgemeinen dieselben oder ähnliche Arten von Informationen, jedoch können Position, Größe und Anzahl der Felder von Dokument zu Dokument variieren. Beispiele für halbstrukturierte Dokumente sind Rechnungen, Zahlungsaufträge und Eingangsrechnungen. Verwenden Sie die folgenden Richtlinien beim Labeln halbstrukturierter Dokumente:
  • Achten Sie darauf, den Bereich jedes Felds genau anzugeben, da Feldwerte allein für das Training nicht ausreichen.
  • Um den Bereich eines Felds zu markieren, klicken Sie auf seinen Wert (d. h. das darin enthaltene Wort oder die Wörter); der Bereich wird automatisch erstellt.
  • Wenn ein Feld keinen Wert enthält, erstellen Sie keinen Bereich für dieses Feld.
  • Markieren Sie keine Wortteile, da das Programm nur mit ganzen Wörtern lernen kann.
  • Wenn ein Feld aus mehreren Teilen besteht, halten Sie die Taste Umschalt gedrückt, um die Teile hinzuzufügen. Bitte beachten Sie, dass sich alle Teile auf derselben Seite befinden sollten.
  • Wenn Sie eine wiederkehrende Struktur haben, analysieren Sie zunächst Ihre Dokumente und erstellen Sie entweder eine Tabelle oder eine wiederholbare Gruppe. Wenn Ihre Dokumente Tabellen mit einer gemeinsamen Kopfzeile und Werten enthalten, neben denen keine Schlüsselwörter stehen, erstellen Sie eine Tabelle. Wenn Ihre Daten weniger strukturiert sind und Schlüsselwörter neben den Werten stehen, erstellen Sie eine Gruppe mit der Option Mehrere Elemente zulassen. Wenn Daten in verschiedenen Dokumenten unterschiedlich organisiert sind, wählen Sie die Option, die für die Mehrheit der Dokumente am besten passt.
  • Beim Labeln einer Tabelle markieren Sie die erste Zeile und klicken Sie dann auf Tabelle ab dieser Zeile fortsetzen. Vergewissern Sie sich, dass die gesamte Tabelle korrekt gelabelt wurde. Um die Zellen der ersten Zeile zu markieren, klicken Sie nacheinander auf die Zellen; die entsprechenden Spalten werden automatisch erstellt. Fahren Sie fort, bis die gesamte Tabelle markiert wurde.
Hinweis: Wenn Tabellen groß sind und Dokumentseiten ein ähnliches Erscheinungsbild haben, können Sie die ähnlichen Seiten löschen und die erste und die letzte Seite sowie einige Seiten dazwischen labeln.
  • Weisen Sie das Programm nicht an, Felder innerhalb des Bereichs eines anderen Felds zu finden, unabhängig davon, ob es sich um ein einzelnes Feld (z. B. eine Adresse) oder eine Tabellenzelle (z. B. „Description“) handelt. Wenn Sie Daten aus einem großen Textfragment extrahieren müssen, verwenden Sie den Advanced Designer.
  • Wenn ein Feld hinzugefügt wird, nachdem bereits Labeling durchgeführt wurde, muss dieses neue Feld in allen Dokumenten des Trainingssatzes gelabelt werden. Bitte überprüfen Sie alle Ihre Dokumente und labeln Sie das neue Feld in allen Dokumenten, in denen es vorkommt.