Document-Skill - ABBYY Documentation

Ein Document-Skill extrahiert Feldwerte aus strukturierten und halbstrukturierten Dokumenten eines einzigen Typs. Dokumente desselben Typs haben dieselben Felder, Validierungsregeln und dieselbe Struktur — zum Beispiel bilden Rechnungen, Verträge und Versandlisten jeweils einen eigenen Dokumenttyp.

Ein Document-Skill verarbeitet nur eine Datei pro Vorgang. Um mehrere Dateien in einem einzigen Vorgang zu verarbeiten, verwenden Sie die Extract-Aktivität eines Process-Skill.

Strukturierte vs. halbstrukturierte Dokumente

Typ	Feldposition	Beispiele	Wo erstellt werden
Strukturiert	In jeder Instanz fest	Fragebögen, Antragsformulare, Steuerformulare	Vantage. Verwenden Sie Advanced Designer, wenn Sie die Verarbeitung strukturierter Dokumente mit anderen Vantage-Technologien kombinieren müssen.
Halbstrukturiert	Beschriftung, Anzahl und Platzierung variieren je nach Instanz	Rechnungen, Vereinbarungen, Versandlisten	Vantage oder Advanced Designer.

Training eines Document-Skills

Um mit dem Training eines Document-Skills zu beginnen, markieren Sie die Felder in einem Dokument. Während des Trainings schlägt Vantage automatisch Feldpositionen vor, um die Kennzeichnung zu beschleunigen.

Varianten von Dokumenttypen

Dokumente eines bestimmten Typs haben fast immer identische Felder, Validierungsregeln und Struktur, aber Varianten desselben Typs können sich geringfügig unterscheiden — zum Beispiel je nachdem, in welchem Jahr das Dokument ausgestellt wurde. Ein einzelner Document-Skill kann eine beliebige Anzahl von Varianten verarbeiten; der richtige Trainingsansatz hängt davon ab, wie viele Varianten Sie abdecken müssen.

Auswahl einer Aktivität nach Umfang

Verwenden Sie für strukturierte Formulare (bis zu 10 Varianten) den Vantage Document-Skill. Behandeln Sie zusätzliche Varianten als separate Dokumenttypen. Bei teilstrukturierten Dokumenten hängt das empfohlene Vorgehen von der Anzahl der Varianten ab:

Varianten in Ihrem Dokumentensatz	Empfohlenes Vorgehen	Erwartete Genauigkeit
Hunderte	Online learning in Vantage	Nahezu fehlerfreie Extraktion
Tausende	Deep Learning-Aktivität	~80–90 %, abhängig von der Komplexität der Dokumente
Eine Auswahl der wichtigsten Varianten	Fast Learning- und/oder Extraction Rules-Aktivitäten	Hohe Genauigkeit bei komplexen Dokumenten

Die Aktivitäten Deep Learning, Fast Learning und Extraction Rules sind nur im Advanced Designer verfügbar. Um sie zu verwenden, öffnen Sie Ihren Document-Skill im Advanced Designer — der Skill kann nach der Veröffentlichung weiterhin im Skill Designer und in Process-Skills referenziert werden.

Empfehlungen für Training und Tests

Verwenden Sie einen repräsentativen Trainingsdatensatz. Nehmen Sie mindestens 2–3 Dokumente pro Variante auf. Selbst ein einzelnes Beispiel pro Variante ist besser als keines. Wenn der Datensatz nicht alle Varianten abdeckt, verwenden Sie die Deep Learning-Aktivität — sie generalisiert anhand von Bildmustern, räumlicher Struktur, Feldinhalten und umgebenden Beschriftungen und kann auch Varianten verarbeiten, für die sie nicht trainiert wurde.
Testen Sie mit produktionsnaher Verteilung. Verwenden Sie eine Zufallsstichprobe aus Ihrem tatsächlichen Dokumentenfluss, sodass jede Variante im Testdatensatz ungefähr mit derselben Häufigkeit vorkommt wie in der Produktion. Dadurch bleibt Ihre Genauigkeitsschätzung belastbar.

Nächste Schritte

Einen Document-Skill einrichten

Erstellen, trainieren und veröffentlichen Sie einen Document-Skill, einschließlich strukturierter Formulare und Online Learning.

Felder hinzufügen

Markieren Sie Felder im Tab Editor und konfigurieren Sie Feldeigenschaften nach Typ.

Dokumente kennzeichnen

Richtlinien zum Kennzeichnen strukturierter und halbstrukturierter Dokumente während des Trainings.

Extrahierte Daten analysieren

Überprüfen Sie Statistiken zur Feldextraktion und korrigieren Sie die Referenzkennzeichnung im Tab Result Review.

​Strukturierte vs. halbstrukturierte Dokumente

​Training eines Document-Skills

​Varianten von Dokumenttypen

​Auswahl einer Aktivität nach Umfang

​Empfehlungen für Training und Tests

​Nächste Schritte

Einen Document-Skill einrichten

Felder hinzufügen

Dokumente kennzeichnen

Extrahierte Daten analysieren

Strukturierte vs. halbstrukturierte Dokumente

Training eines Document-Skills

Varianten von Dokumenttypen

Auswahl einer Aktivität nach Umfang

Empfehlungen für Training und Tests

Nächste Schritte