Varianten von Dokumenttypen
- Bei Hunderten von Varianten können mit Online Learning in Vantage trainierte Skills Daten nahezu fehlerfrei extrahieren.
- Bei Tausenden von Varianten können mit der Deep-Learning-Aktivität trainierte Skills Daten mit einer Genauigkeit von etwa 80 % bis 90 % extrahieren, abhängig von der Komplexität der Dokumenttypen.
- Für die wichtigsten Varianten eines Dokumenttyps sorgen Skills, die mit den Aktivitäten Fast Learning und/oder Extraction Rules trainiert wurden, für eine genaue Extraktion von Daten aus komplexen Dokumenten.
- Für strukturierte Dokumente, die immer denselben Informationstyp an exakt denselben Positionen enthalten, empfehlen wir die Verwendung von bis zu 10 Varianten. Wenn ein Formular mit fester Struktur viele Varianten hat, empfehlen wir, alle als unterschiedliche Dokumenttypen zu behandeln. Weitere Informationen finden Sie unter Processing structured documents.
Trainieren und Testen eines Document-Skills
- Trainingssatz
- Testsatz
- Blindset (ein zusätzlicher Testsatz, der Beispieldokumente enthält, die in keinem der beiden oben genannten Sätze enthalten sind)
Anforderungen an den Trainingssatz
- Deep Learning activity for semi-structured documents:
- Für Dokumente mit hoher Variabilität sind mindestens 200–300 Beispieldokumente erforderlich (2–3 pro Variante). Generell empfehlen wir, etwa 1.000 Dokumente im Satz zu haben.
- Für Dokumente mit geringer Variabilität sind 100 Beispieldokumente in der Regel ausreichend.
- Segmentation activity:
- Für Dokumente mit hoher Variabilität empfehlen wir mindestens 100 Beispieldokumente.
- Für Dokumente mit geringer Variabilität empfehlen wir mindestens 20 Beispieldokumente.
- Deep Learning for NLP activity:
- Für Dokumente mit hoher Variabilität empfehlen wir mindestens 300 Beispieldokumente (2–3 pro Variante).
- Für Dokumente mit geringer Variabilität empfehlen wir mindestens 50 Beispieldokumente.
Hinweis: Auch wenn Sie nicht die empfohlene Anzahl an Beispieldokumenten haben, ist ein Beispieldokument pro Variante besser als gar keines.
Anforderungen an den Testsatz
Anforderungen an den Blind‑Satz
Hinweis: Verwenden Sie für das Training und das Testen Ihrer Skill unbedingt unterschiedliche Dokumente.
Konfigurieren eines Document-Skills
- Klicken Sie auf die Schaltfläche „Einstellungen“ neben dem Skill-Namen, um die Skill-Einstellungen anzuzeigen und anzupassen.
- Laden Sie auf der Registerkarte „Documents“ einige Dokumente hoch.
- Beschriften Sie auf der Registerkarte „Fields“ die Datenfelder, aus denen Werte extrahiert werden sollen, und geben Sie deren Positionen an.
- Konfigurieren Sie auf der Registerkarte „Activities“ den Dokumentverarbeitungsablauf.
- Testen Sie auf der Registerkarte „Results“ Ihren Skill, um zu sehen, wie gut er bei Beispieldokumenten funktioniert.
- Veröffentlichen Sie Ihren Skill auf der Registerkarte „Publish“.
