Zum Hauptinhalt springen
Für die Datenerfassung aus halbstrukturierten Dokumenten wird Advanced Designer bei komplexen Dokumentensätzen eingesetzt (z. B. wenn viele stark unterschiedliche Dokumentvarianten vorliegen). Der Dokumentverarbeitungsablauf umfasst Aktivitäten, die auf die Extraktion von Daten aus halbstrukturierten Dokumenten ausgerichtet sind.

Neue Dokumentvarianten können nach der Entwicklung auftreten

Angenommen, Sie müssen Dokumente desselben Typs mit unterschiedlichen Layouts verarbeiten und können während der Skill-Entwicklung nicht alle Varianten bereitstellen. Das kann der Fall sein, wenn Sie einen Skill erstellen, um Rechnungen verschiedener Lieferanten zu verarbeiten. In der Regel hat jeder Lieferant seine eigene Rechnungsvorlage, und neue Vorlagen werden mit Sicherheit hinzukommen. Wenn Sie genügend Dokumentbeispiele haben, können Sie eine Deep-Learning-Aktivität gefolgt von der Fast-Learning-Aktivität verwenden. Die Deep-Learning-Aktivität verarbeitet unvorhergesehene Dokumentvarianten, während die Fast-Learning-Aktivität die vom Kunden bereitgestellten spezifischen Varianten erlernt und für diese Dokumente eine noch höhere Qualität erzielt. Die Fast-Learning-Aktivität kann auch über den Online-Learning-Feedback-Loop aus der manuellen Überprüfung trainiert werden. Deep Learning mit Fast Learning

Schritte zum Erstellen eines Document-Skills

  1. Öffnen Sie den Advanced Designer. Erstellen Sie einen neuen Skill, indem Sie auf der Startseite auf Create Document Skill klicken.
  2. Verwenden Sie die Registerkarte Documents, die geöffnet wird, um Dokumente hochzuladen, die zur Einrichtung Ihres Skills verwendet werden.
  3. Nachdem Sie Ihre Bilder hochgeladen haben, wechseln Sie zur Registerkarte Fields und richten Sie eine Feldstruktur für den Skill ein, indem Sie Felder erstellen und konfigurieren, die mit dem Skill extrahiert werden. Kennzeichnen Sie Dokumente im Abschnitt Reference.
  4. Navigieren Sie zur Registerkarte Activities und fügen Sie dem Dokumentverarbeitungsfluss eine Deep-Learning-Aktivität für halbstrukturierte Dokumente hinzu.
  5. Öffnen Sie den Activity Editor, um die Deep-Learning-Aktivität zu konfigurieren und zu trainieren. Beachten Sie, dass der für das Training dieser Aktivität verwendete Dokumentensatz mindestens 100 gekennzeichnete Dokumente enthalten sollte.
  6. Kehren Sie zur Registerkarte Activities zurück und fügen Sie dem Dokumentverarbeitungsfluss eine Fast-Learning-Aktivität hinzu.
  7. Öffnen Sie den Activity Editor, um die Aktivität zu konfigurieren und zu trainieren.
  8. Testen Sie Ihren Skill, indem Sie auf Test Skill Using Selected Documents klicken, und analysieren Sie die Ergebnisse.
  9. Wenn die Testergebnisse zufriedenstellend sind, veröffentlichen Sie Ihren Skill.

Einige Dokumente enthalten Strukturen, die sich nicht mit Machine Learning extrahieren lassen

Angenommen, der Großteil der Dokumentvarianten in Ihrem Dokumentensatz kann mit den Aktivitäten Deep Learning und Fast Learning verarbeitet werden. Dennoch können einige Dokumente verschachtelte Tabellen enthalten oder sich auf andere Weise deutlich von allen übrigen für das Training verwendeten Dokumenten unterscheiden. Um solche Dokumente zu verarbeiten, müssen Sie sie mithilfe der Aktivität Classification vom Hauptdokumentensatz trennen:
  • Verwenden Sie die Aktivität Classify By Company, wenn die Dokumentvarianten von unterschiedlichen Unternehmen stammen und der Firmenname und/oder die Adresse auf dem Dokument aufgedruckt ist. Beispiel: Bei der Verarbeitung von Kontoauszügen verschiedener Banken können Sie problemlos eine Datenbankliste dieser Banken bereitstellen und so alle Varianten abdecken, die separat behandelt werden sollten.
  • Verwenden Sie in allen anderen Fällen die Aktivität Classify By Text and Image. Diese multimodale Klassifizierungstechnologie nutzt Text, räumliche Struktur und Bildmuster, um unterschiedliche Dokumentvarianten zu unterscheiden, und erkennt daher abweichende Varianten zuverlässig.
Verwenden Sie eine IF-Aktivität, um den Dokumentverarbeitungsfluss zu verzweigen und Dokumentvarianten mit geringer Verarbeitungsqualität zu separieren (z. B. wie zuvor erwähnt Dokumente mit verschachtelten Tabellen). Verwenden Sie anschließend eine Extraction Rules-Aktivität, um gezielt Felder und Tabellen aus solchen Dokumenten zu extrahieren. IF mit Deep Learning und Extraction Rules

Schritte zum Erstellen eines Document-Skills

  1. Öffnen Sie den Advanced Designer. Erstellen Sie einen neuen Skill, indem Sie auf der Startseite Create Document Skill auswählen.
  2. Verwenden Sie die Registerkarte Documents, die sich öffnet, um die Dokumente hochzuladen, mit denen Sie Ihren Skill einrichten. Fügen Sie für jede Variante eine ungefähr gleiche Anzahl an Dokumenten hinzu, um sicherzustellen, dass Ihr Dokumentensatz für das Einrichten eines Klassifikators ausreicht.
  3. Nachdem Sie Ihre Bilder hochgeladen haben, wechseln Sie zur Registerkarte Fields und richten Sie die Feldstruktur für den Skill ein, indem Sie die Felder erstellen und konfigurieren, die mit dem Skill extrahiert werden. Beschriften Sie Dokumente im Bereich Reference.
  4. Navigieren Sie zur Registerkarte Activities und fügen Sie dem Dokumentverarbeitungsfluss eine Classify-Aktivität hinzu.
  5. Öffnen Sie den Activity Editor und konfigurieren Sie die Classify-Aktivität. Erstellen Sie dazu für jede Variante eine entsprechende Klasse, weisen Sie diese Klassen Ihren Dokumenten zu und trainieren Sie die Aktivität.
  6. Kehren Sie zur Registerkarte Activities zurück und richten Sie eine bedingte Verzweigung für den Verarbeitungsfluss ein, indem Sie eine IF-Aktivität sowie separate Aktivitäten zum Verarbeiten jeder Dokumentvariante hinzufügen.
  7. Konfigurieren Sie die erstellten Aktivitäten.
  8. Testen Sie Ihren Skill, indem Sie Test Skill Using Selected Documents auswählen, und analysieren Sie die Ergebnisse.
  9. Wenn die Testergebnisse zufriedenstellend sind, veröffentlichen Sie Ihren Skill.

Sie haben nicht genügend Dokumente, um Machine Learning zu verwenden

Angenommen, Sie müssen Daten aus einer kleinen Anzahl von Dokumentvarianten extrahieren, haben jedoch nicht genügend Dokumente, um eine Deep-Learning-Activity zu trainieren. Sie verfügen jedoch über Expertenwissen, mit dem Sie die grundlegenden Prinzipien der Datenextraktion für jede Dokumentvariante beschreiben können. Wenn Sie beispielsweise ein Skill erstellen, um Steuerformulare für verschiedene Jahre zu verarbeiten, können Sie all Ihre Dokumente mit einer Classify-Activity in verschiedene Varianten aufteilen. Darauf sollte eine Reihe von Extraction-Rules-Activities folgen, wobei jede Activity auf eine bestimmte Dokumentvariante zugeschnitten ist. Fügen Sie eine Fast Learning activity hinzu, wenn Vantage Ihr Skill weiter trainieren soll. Multiple Extraction Rules

Schritte zum Erstellen eines Document-Skills

  1. Öffnen Sie den Advanced Designer. Erstellen Sie einen neuen Skill, indem Sie auf der Startseite auf Create Document Skill klicken.
  2. Verwenden Sie die Registerkarte Documents, die geöffnet wird, um Dokumente hochzuladen, die zum Einrichten Ihres Skills dienen. Fügen Sie für jede Variante eine ungefähr gleiche Anzahl von Dokumenten hinzu, um sicherzustellen, dass Ihr Dokumentensatz für das Einrichten eines Klassifikators ausreichend ist.
  3. Nachdem Sie Ihre Bilder hochgeladen haben, wechseln Sie zur Registerkarte Fields und richten Sie eine Feldstruktur für den Skill ein, indem Sie Felder erstellen und konfigurieren, die mit dem Skill extrahiert werden. Kennzeichnen Sie Dokumente im Abschnitt Reference.
  4. Wechseln Sie zur Registerkarte Activities und fügen Sie dem Dokumentverarbeitungsfluss eine Classify-Aktivität hinzu.
  5. Öffnen Sie den Activity Editor und konfigurieren Sie die Classify-Aktivität. Erstellen Sie dazu eine entsprechende Klasse für jede Variante, ordnen Sie diese Klassen Ihren Dokumenten zu und trainieren Sie die Aktivität.
  6. Kehren Sie zur Registerkarte Activities zurück und erstellen Sie eine Extraction Rules-Aktivität. Fügen Sie diesem Workflow-Element weitere Extraction Rules-Aktivitäten hinzu. Richten Sie Verzweigungsbedingungen ein, indem Sie das Feld auswählen, das von der Classify-Aktivität befüllt wird, und dessen Werte den Extraction Rules-Aktivitäten zuordnen. Sie können diesen Schritt auch für Dokumente bestimmter Klassen überspringen, die keine speziellen Extraktionsregeln benötigen.
  7. Konfigurieren Sie die von Ihnen erstellten Extraktionsaktivitäten.
  8. Testen Sie Ihren Skill, indem Sie auf Test Skill Using Selected Documents klicken, und analysieren Sie die Ergebnisse.
  9. Veröffentlichen Sie Ihren Skill, sobald die Testergebnisse ausreichend gut sind.