Zum Hauptinhalt springen

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Ein Document-Skill extrahiert Feldwerte aus strukturierten und halbstrukturierten Dokumenten eines einzigen Typs. Dokumente desselben Typs haben dieselben Felder, Validierungsregeln und dieselbe Struktur — zum Beispiel bilden Rechnungen, Verträge und Versandlisten jeweils einen eigenen Dokumenttyp.
Ein Document-Skill verarbeitet nur eine Datei pro Vorgang. Um mehrere Dateien in einem einzigen Vorgang zu verarbeiten, verwenden Sie die Extract-Aktivität eines Process-Skill.

Strukturierte vs. halbstrukturierte Dokumente

TypFeldpositionBeispieleWo erstellt werden
StrukturiertIn jeder Instanz festFragebögen, Antragsformulare, SteuerformulareVantage. Verwenden Sie Advanced Designer, wenn Sie die Verarbeitung strukturierter Dokumente mit anderen Vantage-Technologien kombinieren müssen.
HalbstrukturiertBeschriftung, Anzahl und Platzierung variieren je nach InstanzRechnungen, Vereinbarungen, VersandlistenVantage oder Advanced Designer.

Training eines Document-Skills

Um mit dem Training eines Document-Skills zu beginnen, markieren Sie die Felder in einem Dokument. Während des Trainings schlägt Vantage automatisch Feldpositionen vor, um die Kennzeichnung zu beschleunigen.

Varianten von Dokumenttypen

Dokumente eines bestimmten Typs haben fast immer identische Felder, Validierungsregeln und Struktur, aber Varianten desselben Typs können sich geringfügig unterscheiden — zum Beispiel je nachdem, in welchem Jahr das Dokument ausgestellt wurde. Ein einzelner Document-Skill kann eine beliebige Anzahl von Varianten verarbeiten; der richtige Trainingsansatz hängt davon ab, wie viele Varianten Sie abdecken müssen.

Auswahl einer Aktivität nach Umfang

Verwenden Sie für strukturierte Formulare (bis zu 10 Varianten) den Vantage Document-Skill. Behandeln Sie zusätzliche Varianten als separate Dokumenttypen. Bei teilstrukturierten Dokumenten hängt das empfohlene Vorgehen von der Anzahl der Varianten ab:
Varianten in Ihrem DokumentensatzEmpfohlenes VorgehenErwartete Genauigkeit
HunderteOnline learning in VantageNahezu fehlerfreie Extraktion
TausendeDeep Learning-Aktivität~80–90 %, abhängig von der Komplexität der Dokumente
Eine Auswahl der wichtigsten VariantenFast Learning- und/oder Extraction Rules-AktivitätenHohe Genauigkeit bei komplexen Dokumenten
Die Aktivitäten Deep Learning, Fast Learning und Extraction Rules sind nur im Advanced Designer verfügbar. Um sie zu verwenden, öffnen Sie Ihren Document-Skill im Advanced Designer — der Skill kann nach der Veröffentlichung weiterhin im Skill Designer und in Process-Skills referenziert werden.

Empfehlungen für Training und Tests

  • Verwenden Sie einen repräsentativen Trainingsdatensatz. Nehmen Sie mindestens 2–3 Dokumente pro Variante auf. Selbst ein einzelnes Beispiel pro Variante ist besser als keines. Wenn der Datensatz nicht alle Varianten abdeckt, verwenden Sie die Deep Learning-Aktivität — sie generalisiert anhand von Bildmustern, räumlicher Struktur, Feldinhalten und umgebenden Beschriftungen und kann auch Varianten verarbeiten, für die sie nicht trainiert wurde.
  • Testen Sie mit produktionsnaher Verteilung. Verwenden Sie eine Zufallsstichprobe aus Ihrem tatsächlichen Dokumentenfluss, sodass jede Variante im Testdatensatz ungefähr mit derselben Häufigkeit vorkommt wie in der Produktion. Dadurch bleibt Ihre Genauigkeitsschätzung belastbar.

Nächste Schritte

Einen Document-Skill einrichten

Erstellen, trainieren und veröffentlichen Sie einen Document-Skill, einschließlich strukturierter Formulare und Online Learning.

Felder hinzufügen

Markieren Sie Felder im Tab Editor und konfigurieren Sie Feldeigenschaften nach Typ.

Dokumente kennzeichnen

Richtlinien zum Kennzeichnen strukturierter und halbstrukturierter Dokumente während des Trainings.

Extrahierte Daten analysieren

Überprüfen Sie Statistiken zur Feldextraktion und korrigieren Sie die Referenzkennzeichnung im Tab Result Review.