Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Ein Document-Skill extrahiert Feldwerte aus einem Dokumenttyp. Sie können Document-Skills entweder in ABBYY Vantage (Cloud) oder in Advanced Designer (Windows-Desktopanwendung) erstellen. Verwenden Sie Advanced Designer, wenn Sie mehrere Vantage-Technologien kombinieren, NLP hinzufügen oder den Verarbeitungsablauf je nach Dokumenttyp verzweigen müssen — typische Szenarien finden Sie unter Anwendungsfälle. Hintergrundinformationen zu Dokumentkategorien finden Sie unter Daten aus Dokumenten in Advanced Designer extrahieren.

Varianten von Dokumenttypen

Dokumente desselben Typs haben in der Regel dieselben Felder, Validierungsregeln und dieselbe Struktur, Varianten unterscheiden sich jedoch in kleinen Details — zum Beispiel im Jahr, in dem ein Steuerformular ausgestellt wurde. Ein Document-Skill kann für mehrere Varianten trainiert werden. Welche Technologie Sie wählen, hängt davon ab, wie viele Varianten Sie verarbeiten müssen:
VariantenAm besten geeignet
Bis zu ~10 (feste Formulare)Forms activity — siehe Strukturierte Dokumente in Advanced Designer verarbeiten.
Die meisten wesentlichen VariantenFast Learning und/oder die Aktivität Extraction Rules.
HunderteOnline Learning in Vantage verfeinert den Skill anhand des Feedbacks aus der manuellen Prüfung.
TausendeDeep Learning activity extrahiert mit einer Genauigkeit von ~80–90 %, abhängig von der Komplexität des Dokuments.
Wenn ein festes Formular deutlich mehr als ~10 Varianten hat, behandeln Sie jede Variante als separaten Dokumenttyp.

Training und Testen eines Document-Skills

Für optimale Ergebnisse trainieren und testen Sie den Skill mit drei verschiedenen Dokumentensätzen:
  • Trainingsdatensatz — dient zum Trainieren des Skills.
  • Testdatensatz — dient dazu, die Genauigkeit während der Entwicklung zu messen.
  • Blinddatensatz — ein zusätzlicher Testdatensatz, den der Skill noch nie gesehen hat und der zur Bewertung der tatsächlichen Generalisierungsfähigkeit dient.
Verwenden Sie für jeden Datensatz unterschiedliche Dokumente. Die Wiederverwendung von Trainingsdokumenten im Testdatensatz führt zu zu hohen Genauigkeitsschätzungen.

Trainingsdatensatz

Streben Sie einen repräsentativen Datensatz mit 2–3 Dokumenten pro Variante an. Wenn Sie nicht jede Variante abdecken können, generalisiert die Aktivität Deep Learning anhand von Bildmustern und umgebenden Feldbezeichnungen, sodass sie auch Varianten verarbeiten kann, auf die sie nicht explizit trainiert wurde. Die empfohlene Dokumentanzahl hängt von den verwendeten Aktivitäten ab:
AktivitätDokumente mit hoher VariabilitätDokumente mit geringer Variabilität
Deep Learning für semi-strukturierte DokumenteMindestens 200–300 (2–3 pro Variante)Mindestens 10 (2–3 pro Variante)
SegmentierungMindestens 100Mindestens 20
Deep Learning für NLPMindestens 150 (2–3 pro Variante)Sie können mit 1 beginnen; angestrebt sind 2–3 pro Variante
Auch wenn Sie die empfohlene Anzahl nicht erreichen, ist ein Dokument pro Variante besser als keines.

Testdatensatz

Passen Sie die Verteilung des Testdatensatzes an Ihren Dokumentenfluss in der Produktion an, damit die Genauigkeitsschätzung aussagekräftig ist. Wenn beispielsweise Rechnungen eines Vendors 30 % des Produktionsaufkommens ausmachen, sollte der Testdatensatz etwa 30 % der Rechnungen dieses Vendors enthalten. Am einfachsten erreichen Sie dieses Verhältnis, indem Sie mit zufällig ausgewählten Stichproben aus Produktionsdokumenten testen.

Blinddatensatz

Verwenden Sie Dokumente, die der Skill beim Training oder Testen noch nie gesehen hat. Die Ergebnisse des Blinddatensatzes sind Ihr bester Anhaltspunkt für die Qualität unter realen Bedingungen.

Konfigurieren eines Document-Skills

Nachdem Sie auf der Startseite einen Document-Skill erstellt haben, konfigurieren Sie ihn in dieser Reihenfolge:
1

Skill-Einstellungen

Klicken Sie auf die Schaltfläche „Einstellungen” neben dem Skill-Namen, um die Skill-Einstellungen anzuzeigen und anzupassen.
2

Dokumente hochladen

Laden Sie auf der Registerkarte Documents die Dokumente hoch, mit denen der Skill arbeiten soll.
3

Felder definieren

Erstellen Sie auf der Registerkarte Fields die Felder, die Sie extrahieren möchten, und markieren Sie deren Positionen in Beispieldokumenten.
4

Aktivitäten konfigurieren

Erstellen Sie auf der Registerkarte Activities den Dokumentverarbeitungsablauf.
5

Skill testen

Testen Sie auf der Registerkarte Results den Skill anhand von Beispieldokumenten und überprüfen Sie die Extraktionsqualität.
6

Publish

Veröffentlichen Sie auf der Registerkarte Publish den Skill, um ihn im Skill Catalog in ABBYY Vantage verfügbar zu machen.
Nach der Veröffentlichung erscheint Ihr Skill im Skill Catalog neben integrierten Skills, schreibgeschützten Skills und etwaigen Derived Skills.

Nächste Schritte

Skill-Einstellungen

Konfigurieren Sie Optionen für Erkennung, Training und Verarbeitung.

Aktivitäten

Wählen und kombinieren Sie Aktivitäten für den Verarbeitungsablauf.

Derived Skills

Erstellen Sie einen neuen Skill auf Basis eines integrierten oder schreibgeschützten Vantage-Skills.

Anwendungsfälle

Sehen Sie sich ausgearbeitete Szenarien für gängige Dokumenttypen an.