Um ein Dokument zu kennzeichnen, markieren Sie die Regionen, die Feldwerte enthalten, und geben Sie dem Skill an, welchen Datentyp jedes Feld hat. Bevor Sie beginnen, wählen Sie die passende Auswahlmethode für die Form des Felds aus und befolgen Sie dann die typspezifischen Richtlinien für strukturierte, semistrukturierte oder unstrukturierte Dokumente.Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
Auswahlmethoden
| Methode | Am besten geeignet für |
|---|---|
| Auf ein Wort zeigen und klicken | Einwort-Felder |
| Ein Rechteck um Wörter ziehen | semistrukturierte Dokumente |
| Auf das erste Wort klicken und dann bei gedrückter linker Maustaste bis zum letzten Wort ziehen | Unstrukturierte Dokumente |
Strukturierte Dokumente
- Geben Sie die Region jedes Felds genau an — Feldwerte allein reichen für das Training nicht aus.
- Markieren Sie den gesamten Platzhalter, nicht den darin enthaltenen Wert.
- Wenn ein Feld keinen Wert enthält, markieren Sie den leeren Platzhalter trotzdem.
- Halten Sie bei mehrteiligen Feldern Shift gedrückt, um weitere Teile hinzuzufügen. Alle Teile müssen sich auf derselben Seite befinden.
- Kennzeichnen Sie bei Formularen mit festem Layout jede Zeile, auch leere Zeilen.
- Wenn Sie nach dem Kennzeichnen ein neues Feld hinzufügen, gehen Sie zurück und kennzeichnen Sie dieses Feld in jedem Dokument des Trainingsdatensatzes.
Semistrukturierte Dokumente
- Geben Sie die Region jedes Felds genau an — Feldwerte allein reichen für das Training nicht aus.
- Klicken Sie auf den Wert des Felds (das Wort oder die Wörter, die es enthält); die Region wird automatisch erstellt.
- Wenn ein Feld keinen Wert enthält, erstellen Sie keine Region dafür.
- Markieren Sie keine Wortteile — es wird nur mit ganzen Wörtern trainiert.
- Halten Sie bei mehrteiligen Feldern Shift gedrückt, um weitere Teile hinzuzufügen. Alle Teile müssen sich auf derselben Seite befinden.
- Weisen Sie das Programm nicht an, Felder innerhalb der Region eines anderen Felds zu finden (ob es sich um ein einzelnes Feld wie eine Adresse oder eine Tabellenzelle wie Description handelt). Um aus einer großen Region zu extrahieren, verketten Sie Aktivitäten: eine Extraktionsaktivität für semistrukturierte Dokumente, um die Region zu finden, und anschließend eine NLP Extraction Rules activity oder eine Skriptregel, um bestimmte Felder daraus zu extrahieren.
- Wenn Sie nach dem Kennzeichnen ein neues Feld hinzufügen, gehen Sie zurück und kennzeichnen Sie dieses Feld in jedem Dokument im Trainingsdatensatz.
Tabellen und wiederholbare Gruppen
| Verwenden Sie dies | Wann |
|---|---|
| Tabelle | Tabellarische Daten mit einer gemeinsamen Kopfzeile und Werten, neben denen keine Schlüsselwörter stehen |
| Wiederholbare Gruppe mit der Option Mehrere Elemente zulassen | Weniger strukturierte Daten, bei denen die Schlüsselwörter neben den Werten stehen |
Unstrukturierte Dokumente
- Legen Sie die Region für jedes Feld präzise fest — Feldwerte allein reichen für das Training nicht aus.
- Schließen Sie bei Segmenten (Feldern, die mit der Segmentation-Aktivität trainiert werden) einen oder mehrere vollständige Absätze ein. Ein Segment kann nicht nur einen Teil eines Absatzes enthalten.
- Klicken Sie auf den Wert des Feldes (das Wort oder die Wörter, die es enthält); die Region wird automatisch erstellt.
- Wenn ein Feld keinen Wert enthält, erstellen Sie keine Region dafür.
- Markieren Sie keine Wortteile — das Modell lernt nur anhand ganzer Wörter.
- Wenn auf ein Wort ein Satzzeichen folgt, passen Sie die Region so an, dass das Satzzeichen nicht mit eingeschlossen wird.
- Eine Feldregion kann sich über mehrere Seiten erstrecken (zum Beispiel eine Vertragsklausel). Kennzeichnen Sie den ersten Teil auf der ersten Seite und halten Sie dann Shift gedrückt, während Sie auf der nächsten Seite fortfahren.
- Um ein Feld innerhalb der Region eines anderen Feldes zu kennzeichnen (zum Beispiel ein Feld innerhalb eines Segments), wählen Sie das innere Feld aus und beginnen Sie mit dem Kennzeichnen — dadurch wird eine neue Region erstellt, anstatt die äußere auszuwählen.
Dies ist das Gegenteil der obigen Richtlinie für semistrukturierte Dokumente: Segmente in unstrukturierten Dokumenten sind darauf ausgelegt, innere Felder zu enthalten, daher ist das Kennzeichnen innerhalb dieser Segmente beabsichtigt. Bei semistrukturierten Dokumenten führt die entsprechende Verschachtelung zu Trainingskonflikten.
Dokumente kennzeichnen
Annotierte Dokumente aus Trainingsdatensätzen, der manuellen Überprüfung oder aus FlexiCapture wiederverwenden.
Importieren aus FlexiCapture
Format und Vorgehensweise für die Wiederverwendung von in FlexiCapture annotierten Dokumenten.
Dokumentkategorien
Hintergrundinformationen zu strukturierten, semistrukturierten, unstrukturierten und gemischten Dokumenten.
Segmentation-Aktivität
Zum Segmentieren von Feldern in unstrukturierten Dokumenten.
