Zum Hauptinhalt springen
ABBYY Vantage bietet einen Machine-Learning-Modus zur Verarbeitung strukturierter Dokumente, beispielsweise solcher, bei denen sich die Felder auf allen Dokumentinstanzen an derselben Position befinden. Beispiele hierfür sind Fragebögen, Antragsformulare und Steuererklärungen. Manche strukturierten Dokumente können mehrere Varianten haben, die sich geringfügig in den Feldern und deren Positionen unterscheiden.

Beispielbilder

IRS Form 1040 - 2020 IRS Form 1040 - 2019 Zwei Varianten des IRS-Formulars 1040 für die Jahre 2020 und 2019.

Erstellen von Skills für strukturierte Dokumente

Sie können Skills zur Verarbeitung strukturierter Dokumente sowohl in Vantage als auch im Advanced Designer erstellen. Zum Bearbeiten solcher Skills müssen Sie jedoch den Advanced Designer verwenden. In Vantage können Sie einen Skill zur Verarbeitung strukturierter Dokumente erstellen, indem Sie den Schalter Fixed-form documents für diesen Skill aktivieren. Außerdem müssen Sie einige leere Formulare hochladen und labeln.
Hinweis: Ausführliche Anleitungen zum Erstellen eines Skills zur Verarbeitung strukturierter Dokumente mit mehreren Varianten finden Sie unter Setting up a Document skill for processing structured documents.
Der in Vantage erstellte Skill wird im Advanced Designer angezeigt. Sein Dokumentverarbeitungsfluss umfasst eine Forms-Aktivität, die speziell für die Verarbeitung strukturierter Dokumente konzipiert wurde.
Hinweis: Wenn Sie den Schalter Fixed-form documents nicht aktiviert haben, besteht der Dokumentverarbeitungsfluss Ihres Skills nur aus der Fast Learning-Aktivität.
Im Advanced Designer können Sie Skills für strukturierte Dokumente erstellen und bearbeiten, wenn Sie die Verarbeitung strukturierter Dokumente mit anderen Vantage-Technologien kombinieren möchten. In diesem Fall muss eine Forms-Aktivität durch weitere Aktivitäten ergänzt werden, die im Advanced Designer erstellt und konfiguriert wurden.
Hinweis: Wenn Ihr Dokumentverarbeitungsfluss eine Forms-Aktivität enthält, die von anderen Aktivitäten begleitet wird, oder wenn er mehrere Forms-Aktivitäten umfasst, sind Ihre Bearbeitungsoptionen in Vantage auf das Ändern der Skill-Eigenschaften beschränkt, und das Training ist nicht verfügbar. Für weitergehende Bearbeitungen verwenden Sie den Advanced Designer.

Extrahieren von Daten aus Formularen mit unstrukturierten Elementen oder gemischten Strukturen

Ein strukturiertes Dokument kann gelegentlich ein unstrukturiertes Element enthalten, etwa einen Barcode oder einen Stempel, der beliebig auf dem Dokument platziert ist und ebenfalls erkannt werden muss. Ein weiteres Beispiel ist ein gemischtes Dokument: Ein Teil ist strukturiert, während ein anderer Teil aus einer Tabelle variabler Länge besteht (zum Beispiel eine Tabelle mit unterschiedlicher Zeilenanzahl). Um solche Dokumente zu verarbeiten, verwenden Sie eine Forms-Aktivität, gefolgt von einer Aktivität, die die unstrukturierten Elemente verarbeitet. In den folgenden Schritten setzen wir eine Forms-Aktivität ein, um strukturierte Felder zu verarbeiten, und eine Extraction-Rules-Aktivität, um Barcodes zu erkennen.

Schritte zum Erstellen eines Document-Skills

  1. Öffnen Sie den Advanced Designer. Erstellen Sie auf der Startseite einen neuen Skill, indem Sie auf Create Document Skill klicken.
  2. Navigieren Sie zur Registerkarte Activities und fügen Sie dem Dokumentverarbeitungsfluss eine Forms-Aktivität hinzu.
  3. Klicken Sie auf Activity Editor. Laden Sie auf der Registerkarte Blank Form für jede Variante Ihres Dokuments ein Beispiel eines leeren Formulars hoch (wir empfehlen nicht, mehr als 10 verschiedene Varianten hochzuladen). Beschriften Sie die Felder, aus denen Daten extrahiert werden sollen. Richtlinien zur Beschriftung finden Sie unter Labeling documents.
  4. Klicken Sie auf Train Activity.
  5. Klicken Sie auf die Registerkarte Test Set und laden Sie ausgefüllte Testdokumente hoch. Stellen Sie sicher, dass alle Felder in jedem Dokument korrekt beschriftet sind. Klicken Sie auf Test Activity. Wenn der Vorgang abgeschlossen ist, überprüfen Sie die Ergebnisse.
  6. Kehren Sie zur Registerkarte Activities zurück und fügen Sie dem Dokumentverarbeitungsfluss eine Extraction Rules-Aktivität hinzu.
  7. Klicken Sie auf Activity Editor und konfigurieren Sie die Extraction Rules-Aktivität.
  8. Klicken Sie auf Test Skill Using Selected Documents. Wenn der Vorgang abgeschlossen ist, überprüfen Sie die Ergebnisse. Wenn Sie mit den Ergebnissen zufrieden sind, veröffentlichen Sie Ihren Skill. Andernfalls passen Sie die Beschriftung an und trainieren und testen Sie die Aktivität erneut.

Arbeiten mit Tabellen und wiederholbaren Gruppen

Bei der Verarbeitung strukturierter Dokumente kann Vantage Tabellen und wiederholbare Gruppen verarbeiten, wenn die maximale Anzahl der Tabellenzeilen oder Gruppeninstanzen im Voraus bekannt ist und die Grenzen der Tabelle oder Gruppe fest definiert sind. Sie müssen alle Zeilen labeln, die in allen Varianten des Formulars möglicherweise vorkommen.
Hinweis: In den Verarbeitungsergebnissen werden nur Zeilen mit Daten angezeigt. Leere Zeilen werden ignoriert.
Wenn die Anzahl der Zeilen oder Instanzen in einer Gruppe nicht im Voraus bekannt ist, müssen Sie eine andere Vantage‑Technologie verwenden.
Hinweis: Derzeit können nur Tabellen mit Textwerten verarbeitet werden. Wenn Ihre Tabelle Spalten mit Kontrollkästchen oder Barcodes enthält, verwenden Sie stattdessen eine wiederholbare Gruppe.

Daten aus Formularen und unstrukturierten Dokumenten in einem Ablauf extrahieren

Mitunter werden Informationen sowohl über Formulare als auch über unstrukturierte Dokumente erfasst. So können etwa Antworten auf einen Fragebogen entweder auf gedruckten Formularen oder als unstrukturierte, frei formulierte Dokumente eingehen. Um eine Mischung solcher Dokumente zu verarbeiten, verwenden Sie eine Kombination aus einer Forms-Aktivität zur Verarbeitung von Formularen und einer Fast Learning- oder Extraction Rules-Aktivität zur Verarbeitung unstrukturierter Dokumente. Anschließend müssen Sie eine Classify-Aktivität anwenden, um Formulare von unstrukturierten Dokumenten zu trennen.

Schritte zum Erstellen eines Document-Skills

  1. Öffnen Sie den Advanced Designer. Erstellen Sie auf der Startseite einen neuen Skill, indem Sie auf Create Document Skill klicken.
  2. Navigieren Sie zur Registerkarte Activities und fügen Sie dem Dokumentverarbeitungsfluss eine Forms-Aktivität hinzu.
  3. Klicken Sie auf Activity Editor. Laden Sie auf der Registerkarte Blank Form ein Beispiel einer leeren Vorlage hoch und kennzeichnen Sie die Felder, aus denen Daten extrahiert werden sollen. Richtlinien zum Labeln finden Sie unter Labeling documents.
  4. Klicken Sie auf Train Activity.
  5. Klicken Sie auf die Registerkarte Test Set und laden Sie ausgefüllte Testdokumente hoch. Stellen Sie sicher, dass alle Felder in jedem Dokument korrekt gekennzeichnet sind. Klicken Sie auf Test Activity. Überprüfen Sie nach Abschluss des Vorgangs die Ergebnisse.
  6. Navigieren Sie zur Registerkarte Activities und fügen Sie dem Dokumentverarbeitungsfluss eine Fast-Learning-Aktivität hinzu.
  7. Öffnen Sie den Activity Editor, um die Aktivität zu konfigurieren und zu trainieren.
  8. Navigieren Sie zur Registerkarte Activities und fügen Sie am Anfang des Dokumentverarbeitungsflusses eine Classify-Aktivität hinzu.
  9. Klicken Sie auf Activity Editor und richten Sie die Classify-Aktivität ein. Sie müssen für jede Dokumentvariante eine Klasse erstellen, die Klassen Ihren Dokumenten zuweisen und die Aktivität trainieren.
  10. Kehren Sie zur Registerkarte Activities zurück und fügen Sie eine IF-Aktivität hinzu, um bedingte Verzweigungen für den Dokumentverarbeitungsfluss einzurichten. Verbinden Sie diese Aktivität mit den Forms- und Fast-Learning-Aktivitäten.
  11. Klicken Sie auf Test Skill Using Selected Documents. Überprüfen Sie nach Abschluss des Vorgangs die Ergebnisse. Wenn Sie mit den Ergebnissen zufrieden sind, veröffentlichen Sie Ihren Skill. Andernfalls passen Sie die Kennzeichnungen an und trainieren Sie die Aktivität erneut.