Zum Hauptinhalt springen
Document-Skills werden verwendet, um Feldwerte aus verschiedenen Arten von Dokumenten zu extrahieren: strukturierte Dokumente (wie Steuer- oder Antragsformulare), semi-strukturierte Dokumente (zum Beispiel Rechnungen, Bestellbelege oder Luftfrachtbriefe) und unstrukturierte Dokumente (etwa Verträge, Mietverträge oder E-Mail-Nachrichten). Document-Skills können entweder in ABBYY Vantage oder im Advanced Designer erstellt werden. Letzterer sollte Ihr bevorzugtes Werkzeug sein, wenn Sie komplexe Document-Skills für nicht standardisierte Dokumente mit variierenden Layouts und Feldstrukturen erstellen müssen. Advanced Designer ermöglicht es Ihnen außerdem, unterschiedliche Technologien in Ihren Document-Skills zu kombinieren, NLP zur Verarbeitung unstrukturierter Dokumente hinzuzufügen oder Bedingungen für die Verarbeitung verschiedener Dokumenttypen festzulegen (siehe Use cases für einen Überblick über typische Szenarien).

Varianten von Dokumenttypen

Dokumente desselben Typs weisen fast immer identische Sätze an Feldern, Validierungsregeln und eine ähnliche Struktur auf. Die Varianten eines einzelnen Dokumenttyps können sich geringfügig unterscheiden, etwa je nach Jahr der Ausstellung. Dokumente desselben Typs können von einem Document-Skill verarbeitet werden, der auf unterschiedlichen Varianten dieses Typs trainiert wurde. Vantage und Advanced Designer unterstützen beliebig viele Varianten innerhalb eines Dokumenttyps:
  • Bei Hunderten von Varianten können mit Online Learning in Vantage trainierte Skills Daten nahezu fehlerfrei extrahieren.
  • Bei Tausenden von Varianten können mit der Deep-Learning-Aktivität trainierte Skills Daten mit einer Genauigkeit von etwa 80 % bis 90 % extrahieren, abhängig von der Komplexität der Dokumenttypen.
  • Für die wichtigsten Varianten eines Dokumenttyps sorgen Skills, die mit den Aktivitäten Fast Learning und/oder Extraction Rules trainiert wurden, für eine genaue Extraktion von Daten aus komplexen Dokumenten.
  • Für strukturierte Dokumente, die immer denselben Informationstyp an exakt denselben Positionen enthalten, empfehlen wir die Verwendung von bis zu 10 Varianten. Wenn ein Formular mit fester Struktur viele Varianten hat, empfehlen wir, alle als unterschiedliche Dokumenttypen zu behandeln. Weitere Informationen finden Sie unter Processing structured documents.

Trainieren und Testen eines Document-Skills

Für optimale Extraktionsergebnisse empfehlen wir, einen Document-Skill mit drei verschiedenen Dokumentensätzen zu trainieren und zu testen:
  • Trainingssatz
  • Testsatz
  • Blindset (ein zusätzlicher Testsatz, der Beispieldokumente enthält, die in keinem der beiden oben genannten Sätze enthalten sind)

Anforderungen an den Trainingssatz

Verwenden Sie für einen Trainingssatz einen repräsentativen Dokumentensatz mit mindestens 2–3 Beispieldokumenten pro Variante. Wenn es viele Varianten gibt und der Satz nicht für jede Variante mindestens ein Beispieldokument enthält, erwägen Sie die Verwendung der Deep-Learning-Aktivität. Diese Aktivität versteht Bildmuster, die Struktur von Dokumenten, Feldinhalte und umgebende Beschriftungen und kann Varianten verarbeiten, die nicht im Training verwendet wurden. Die Anzahl der benötigten Beispieldokumente für die Aktivitäten hängt von den in Ihrem Document-Skill verwendeten Technologien ab:
  • Deep Learning activity for semi-structured documents:
    • Für Dokumente mit hoher Variabilität sind mindestens 200–300 Beispieldokumente erforderlich (2–3 pro Variante). Generell empfehlen wir, etwa 1.000 Dokumente im Satz zu haben.
    • Für Dokumente mit geringer Variabilität sind 100 Beispieldokumente in der Regel ausreichend.
  • Segmentation activity:
    • Für Dokumente mit hoher Variabilität empfehlen wir mindestens 100 Beispieldokumente.
    • Für Dokumente mit geringer Variabilität empfehlen wir mindestens 20 Beispieldokumente.
  • Deep Learning for NLP activity:
    • Für Dokumente mit hoher Variabilität empfehlen wir mindestens 300 Beispieldokumente (2–3 pro Variante).
    • Für Dokumente mit geringer Variabilität empfehlen wir mindestens 50 Beispieldokumente.
Hinweis: Auch wenn Sie nicht die empfohlene Anzahl an Beispieldokumenten haben, ist ein Beispieldokument pro Variante besser als gar keines.

Anforderungen an den Testsatz

Für einen Testsatz sollte die Verteilung der Beispieldokumente der tatsächlichen Verteilung im produktiven Dokumentenfluss entsprechen. So wird sichergestellt, dass die Genauigkeitsschätzung belastbar ist. Wenn beispielsweise Rechnungen eines bestimmten Vendor 30 % des produktiven Dokumentenflusses ausmachen, sollten etwa 30 % der Beispieldokumente im Testsatz von diesem Vendor stammen. Sie können das erforderliche Verhältnis auch erreichen, indem Sie Ihren Skill mit zufällig ausgewählten Dokumenten aus dem produktiven Dokumentenfluss testen.

Anforderungen an den Blind‑Satz

Verwenden Sie für einen Blind‑Satz unbedingt Dokumente, die noch nicht zum Training oder Testen Ihrer Skill verwendet wurden. Die auf einem Blind‑Satz erzielten Extraktionsergebnisse helfen Ihnen, die Qualität Ihrer Skill zu bewerten.
Hinweis: Verwenden Sie für das Training und das Testen Ihrer Skill unbedingt unterschiedliche Dokumente.

Konfigurieren eines Document-Skills

Nachdem Sie auf der Startseite einen Document-Skill erstellt haben, befolgen Sie diese Schritte, um Ihren Skill zu konfigurieren:
  1. Klicken Sie auf die Schaltfläche „Einstellungen“ neben dem Skill-Namen, um die Skill-Einstellungen anzuzeigen und anzupassen.
  2. Laden Sie auf der Registerkarte „Documents“ einige Dokumente hoch.
  3. Beschriften Sie auf der Registerkarte „Fields“ die Datenfelder, aus denen Werte extrahiert werden sollen, und geben Sie deren Positionen an.
  4. Konfigurieren Sie auf der Registerkarte „Activities“ den Dokumentverarbeitungsablauf.
  5. Testen Sie auf der Registerkarte „Results“ Ihren Skill, um zu sehen, wie gut er bei Beispieldokumenten funktioniert.
  6. Veröffentlichen Sie Ihren Skill auf der Registerkarte „Publish“.
Nachdem Sie Ihren Document-Skill konfiguriert und veröffentlicht haben, ist er im Skill Catalog in ABBYY Vantage verfügbar. Im Skill Catalog können Sie Ihre Skills anzeigen und verwalten, einschließlich integrierter Skills, Schreibgeschützter Skills und abgeleiteter Skills.