Zum Hauptinhalt springen
Ein Document-Skill ermöglicht es Ihnen, Feldwerte aus strukturierten und halbstrukturierten Dokumenten eines einzelnen Typs zu extrahieren. Dokumente desselben Typs haben genau denselben Satz an Feldern und Validierungsregeln sowie dieselbe Struktur; beispielsweise sind Rechnungen, Verträge und Lieferscheine drei Dokumenttypen. Strukturierte Dokumente sind Formulare, bei denen die Position der Felder in jeder Dokumentinstanz gleich ist. Beispiele für strukturierte Dokumente sind Fragebögen, Antragsformulare und Steuererklärungen. Sie können Skills für strukturierte Dokumente auch im Advanced Designer erstellen und bearbeiten, wenn Sie die Verarbeitung strukturierter Dokumente mit anderen Vantage-Technologien kombinieren möchten. Halbstrukturierte Dokumente haben einen spezifischen Satz an Feldern, deren Bezeichnungen, Anzahl und Positionen von Dokument zu Dokument desselben Typs variieren. Ein typisches Beispiel für halbstrukturierte Dokumente sind von verschiedenen Unternehmen ausgestellte Rechnungen, die sich in der Anzahl und Formatierung der Positionen unterscheiden. Jede Rechnung enthält eine Rechnungsnummer und den Gesamtbetrag, jedoch variiert die genaue Position dieser Informationen von Rechnung zu Rechnung. Um mit dem Training Ihres Document-Skills zu beginnen, markieren Sie die Felder in einem Dokument. Während des Trainings schlägt das Programm automatisch Feldpositionen vor, um den Kennzeichnungsprozess zu erleichtern. Derzeit kann im Rahmen eines einzelnen Vorgangs nur eine Datei von einem Document-Skill verarbeitet werden. Wenn Sie mehrere Dateien verarbeiten müssen, verwenden Sie die Aktivität Extract des Process-Skills.

Varianten von Dokumenttypen

Dokumente eines bestimmten Typs haben fast immer identische Sätze von Feldern, Validierungsregeln und Struktur. Die Varianten eines einzelnen Dokumenttyps können sich geringfügig unterscheiden, je nachdem, in welchem Jahr das Dokument ausgestellt wurde. Dokumente eines einzelnen Typs können von einem einzigen Document-Skill verarbeitet werden, der mit verschiedenen Varianten dieses Dokumenttyps trainiert wurde. Vantage und Advanced Designer können eine beliebige Anzahl von Varianten innerhalb eines einzelnen Dokumenttyps verarbeiten:
  • Bei Hunderten von Varianten können Skills, die mit Online Learning in Vantage trainiert wurden, Daten nahezu fehlerfrei extrahieren.
  • Bei Tausenden von Varianten können Skills, die mit der Deep-Learning-Aktivität trainiert wurden, Daten mit einer Genauigkeit von etwa 80 bis 90 % extrahieren, abhängig von der Komplexität der Dokumenttypen.
  • Für die wichtigsten Varianten eines Dokumenttyps stellen Skills, die mit den Aktivitäten Fast Learning und/oder Extraction Rules trainiert wurden, eine präzise Extraktion von Daten aus komplexen Dokumenten sicher.
  • Für strukturierte Dokumente, die immer denselben Informationstyp an exakt denselben Positionen enthalten, empfehlen wir die Verwendung von bis zu 10 Varianten. Wenn ein Formular mit fester Struktur viele Varianten hat, empfehlen wir, diese alle als unterschiedliche Dokumenttypen zu behandeln.
Beim Trainieren und Testen eines Skills empfehlen wir Folgendes:
  • Verwenden Sie beim Trainieren eines Skills eine repräsentative Dokumentenmenge, die mindestens 2–3 Dokumente jeder Variante enthält. Wenn es viele Varianten gibt und die Menge nicht mindestens ein Dokument jeder Variante enthält, können Sie die Deep-Learning-Aktivität verwenden. Sie erkennt Bildmuster, die räumliche Struktur von Dokumenten, Feldinhalte und umliegende Beschriftungen und kann Varianten verarbeiten, die nicht für das Training verwendet wurden.
  • Verwenden Sie beim Testen eines Skills eine Dokumentenverteilung, die dem tatsächlichen Dokumentenfluss in der Produktion ähnelt: Der Prozentsatz der Dokumente einer bestimmten Variante im Trainingssatz sollte repräsentativ dafür sein, wie häufig die Variante in Ihrem Dokumentenfluss vorkommt. Dadurch wird sichergestellt, dass die Genauigkeitsschätzung gültig ist. Zu diesem Zweck testen Sie Skills anhand einer Zufallsstichprobe von Dokumenten aus dem tatsächlichen Dokumentenfluss in der Produktion.
  • Eine Stichprobe für eine Variante ist besser als gar keine Stichprobe.