Zum Hauptinhalt springen
Ein Document-Skill ermöglicht es Ihnen, Feldwerte aus strukturierten und halbstrukturierten Dokumenten eines einzelnen Typs zu extrahieren. Dokumente desselben Typs haben genau denselben Satz an Feldern und Validierungsregeln sowie dieselbe Struktur; beispielsweise sind Rechnungen, Verträge und Lieferscheine drei Dokumenttypen. Strukturierte Dokumente sind Formulare, bei denen die Position der Felder in jeder Dokumentinstanz gleich ist. Beispiele für strukturierte Dokumente sind Fragebögen, Antragsformulare und Steuererklärungen.
Hinweis: Sie können Skills für strukturierte Dokumente auch im Advanced Designer erstellen und bearbeiten, wenn Sie die Verarbeitung strukturierter Dokumente mit anderen Vantage-Technologien kombinieren möchten.
Halbstrukturierte Dokumente haben einen spezifischen Satz an Feldern, deren Bezeichnungen, Anzahl und Positionen von Dokument zu Dokument desselben Typs variieren. Ein typisches Beispiel für halbstrukturierte Dokumente sind von verschiedenen Unternehmen ausgestellte Rechnungen, die sich in der Anzahl und Formatierung der Positionen unterscheiden. Jede Rechnung enthält eine Rechnungsnummer und den Gesamtbetrag, jedoch variiert die genaue Position dieser Informationen von Rechnung zu Rechnung. Um mit dem Training Ihres Document-Skills zu beginnen, markieren Sie die Felder in einem Dokument. Während des Trainings schlägt das Programm automatisch Feldpositionen vor, um den Kennzeichnungsprozess zu erleichtern.
Hinweis: Derzeit kann im Rahmen eines einzelnen Vorgangs nur eine Datei von einem Document-Skill verarbeitet werden. Wenn Sie mehrere Dateien verarbeiten müssen, verwenden Sie die Aktivität Extract des Process-Skills.

Varianten von Dokumenttypen

Dokumente eines Typs haben fast immer identische Sätze von Feldern, Validierungsregeln und Struktur. Die Varianten eines einzelnen Dokumenttyps können sich geringfügig unterscheiden, zum Beispiel je nach Jahr der Ausstellung. Dokumente eines Typs können von einem Document-Skill verarbeitet werden, der mit verschiedenen Varianten dieses Dokumenttyps trainiert wurde. Vantage und Advanced Designer können eine beliebige Anzahl von Varianten innerhalb eines einzelnen Dokumenttyps verarbeiten:
  • Bei Hunderten von Varianten können mit Online Learning in Vantage trainierte Skills Daten nahezu fehlerfrei extrahieren.
  • Bei Tausenden von Varianten können mit der Deep-Learning-Aktivität trainierte Skills Daten mit einer Genauigkeit von etwa 80–90 % extrahieren, abhängig von der Komplexität der Dokumenttypen.
  • Für die wichtigsten Varianten eines Dokumenttyps gewährleisten mit den Aktivitäten Fast Learning und/oder Extraction Rules trainierte Skills eine präzise Datenausleitung aus komplexen Dokumenten.
  • Für strukturierte Dokumente, die stets denselben Informationstyp an exakt denselben Positionen enthalten, empfehlen wir bis zu 10 Varianten. Wenn ein festes Formular viele Varianten aufweist, empfehlen wir, diese als unterschiedliche Dokumenttypen zu behandeln.
Beim Trainieren und Testen eines Skills empfehlen wir Folgendes:
  • Beim Trainieren eines Skills verwenden Sie einen repräsentativen Dokumentensatz mit mindestens 2–3 Dokumenten je Variante. Wenn es viele Varianten gibt und der Satz nicht mindestens ein Dokument jeder Variante enthält, können Sie die Deep-Learning-Aktivität verwenden. Sie erkennt Bildmuster, die räumliche Struktur von Dokumenten, Feldinhalte und umgebende Beschriftungen und kann Varianten verarbeiten, die nicht für das Training verwendet wurden.
  • Beim Testen eines Skills verwenden Sie eine Dokumentverteilung, die der im tatsächlichen Dokumentfluss in der Produktion entspricht: Der Anteil der Dokumente einer bestimmten Variante im Trainingssatz sollte repräsentativ dafür sein, wie häufig die Variante in Ihrem Dokumentfluss auftritt. So wird sichergestellt, dass die Genauigkeitsschätzung aussagekräftig ist. Testen Sie Skills dazu mit einer Zufallsstichprobe von Dokumenten aus dem realen Dokumentfluss in der Produktion.
  • Eine Stichprobe einer Variante ist besser als gar keine Stichprobe.