Zum Hauptinhalt springen

Datenextraktion aus einem gemischten Dokumentensatz (teilstrukturierte und unstrukturierte)

Angenommen, ein einzelner Document-Skill soll sowohl teilstrukturierte als auch unstrukturierte Dokumente verarbeiten. Klassifizieren Sie in diesem Fall die Dokumente zunächst mit der Aktivität Classify By Text and Image in die entsprechenden Typen. Diese kombiniert textuelle und geometrische Merkmale und kann dadurch auch Bilder geringerer Qualität sowie Dokumente verschiedener Klassen klassifizieren, die sich nur durch grafische Objekte wie Unterschriften oder Siegel unterscheiden lassen. Verwenden Sie eine IF-Aktivität, um den Dokumentverarbeitungsfluss aufzuteilen und unstrukturierte von teilstrukturierten Dokumenten zu trennen. Jeder Zweig kann mit einem der Szenarien aus den Abschnitten Processing semi-structured documents und Processing unstructured documents verarbeitet werden. Beispielsweise können teilstrukturierte Dokumente mit einer Fast Learning-Aktivität verarbeitet werden, während unstrukturierte Dokumente durch eine Kombination aus einer Segmentation-Aktivität und einer Deep Learning-Aktivität für NLP verarbeitet werden. Da die beschriebenen Dokumente alle zum selben Typ gehören, verfügen sie über denselben Satz an Ausgabefeldern. Gemischter Dokumentverarbeitungsfluss

Schritte zum Erstellen eines Document-Skills

  1. Öffnen Sie den Advanced Designer. Erstellen Sie einen neuen Skill, indem Sie auf der Startseite Create Document Skill auswählen.
  2. Verwenden Sie die Registerkarte Documents, die geöffnet wird, um die Dokumente hochzuladen, mit denen Sie Ihren Skill einrichten. Um sicherzustellen, dass Ihr Dokumentensatz für die Einrichtung eines Klassifikators ausreicht, fügen Sie für jede Variante eine ungefähr gleiche Anzahl von Dokumenten hinzu.
  3. Nachdem Sie Ihre Bilder hochgeladen haben, wechseln Sie zur Registerkarte Fields und richten Sie eine Feldstruktur für den Skill ein, indem Sie die Felder erstellen und konfigurieren, die mit dem Skill extrahiert werden. Beschriften Sie Dokumente im Abschnitt Reference.
  4. Wechseln Sie zur Registerkarte Activities und fügen Sie dem Dokumentverarbeitungs-Flow eine Classify-Aktivität hinzu.
  5. Öffnen Sie den Activity Editor und richten Sie die Classify-Aktivität ein. Erstellen Sie dazu eine entsprechende Klasse für jede Variante, ordnen Sie diese Klassen Ihren Dokumenten zu und trainieren Sie die Aktivität.
  6. Kehren Sie zur Registerkarte Activities zurück und richten Sie eine bedingte Verzweigung für den Verarbeitungs-Flow ein, indem Sie eine IF-Aktivität sowie separate Aktivitäten zum Verarbeiten der einzelnen Dokumentvarianten hinzufügen.
  7. Richten Sie die von Ihnen erstellten Aktivitäten ein und trainieren Sie sie.
  8. Testen Sie Ihren Skill, indem Sie Test Skill Using Selected Documents auswählen, und analysieren Sie die Ergebnisse.
  9. Sobald die Testergebnisse zufriedenstellend sind, veröffentlichen Sie Ihren Skill.

Text aus Tabellenzellen in semi-strukturierten Dokumenten extrahieren

Angenommen, Sie extrahieren Daten aus semi-strukturierten Dokumenten mit Tabellen und müssen nicht nur den Text jeder Zelle erfassen, sondern auch bestimmte numerische Werte, die im Zelltext eingebettet sind. Wenn Sie beispielsweise Informationen zu einem Kreditnehmer aus einem Closing-Disclosure-Dokument benötigen, können Sie eine Fast-Learning-Aktivität verwenden, die für semi-strukturierte Dokumente vorgesehen ist, um den vollständigen Text der betreffenden Tabellenzelle zu extrahieren, und anschließend eine Aktivität für unstrukturierte Dokumente (in diesem Fall Named Entities (NER) und Address Parsing), um den Namen des Kreditnehmers und einen Teil seiner Adresse aus der betreffenden Zelle zu extrahieren. Fast Learning mit NER und Address Parsing

Schritte zum Erstellen eines Document-Skills

  1. Öffnen Sie den Advanced Designer. Erstellen Sie einen neuen Skill, indem Sie auf der Startseite Create Document Skill auswählen.
  2. Verwenden Sie die Registerkarte Documents, die sich öffnet, um die Dokumente hochzuladen, mit denen Ihr Skill eingerichtet wird.
  3. Nachdem Sie Ihre Bilder hochgeladen haben, wechseln Sie zur Registerkarte Fields und richten Sie eine Feldstruktur für den Skill ein, indem Sie die Felder erstellen und konfigurieren, die mit dem Skill extrahiert werden sollen. Kennzeichnen Sie die Dokumente im Abschnitt Reference.
  4. Wechseln Sie zur Registerkarte Activities, erstellen Sie eine Fast Learning-Aktivität und geben Sie die Felder an, die durch diese Aktivität extrahiert werden.
  5. Öffnen Sie den Activity Editor, richten Sie die Fast Learning-Aktivität ein und trainieren Sie sie.
  6. Kehren Sie zur Registerkarte Activities zurück, erstellen Sie eine Named Entities (NER)-Aktivität und geben Sie ein Quellfeld sowie Felder an, in denen die extrahierten benannten Entitäten gespeichert werden. Ordnen Sie die benannten Entitäten den ausgewählten Feldern zu.
  7. Wenn Sie ein Feld mit einer Adresse haben und diese in Bestandteile aufteilen möchten, erstellen Sie eine Address Parsing-Aktivität und geben Sie ein Quellfeld sowie Felder an, in denen die extrahierten Adressbestandteile gespeichert werden. Ordnen Sie die Adressbestandteile den ausgewählten Feldern zu.
  8. Testen Sie Ihren Skill, indem Sie auf Test Skill Using Selected Documents klicken, und analysieren Sie die Ergebnisse.
  9. Wenn die Testergebnisse ausreichend sind, veröffentlichen Sie Ihren Skill.

Daten aus unstrukturierten Dokumenten mit Tabellen, Titeln, Kopf- und Fußzeilen extrahieren

Angenommen, Sie müssen Daten aus unstrukturierten Dokumenten (z. B. Verträgen) extrahieren, die Tabellen, Titel, Kopf- oder Fußzeilen enthalten. Beispiel für gemischtes Dokument Richten Sie in diesem Fall eine Segmentation-Aktivität ein, um zusammenhängende Textabsätze zu erkennen, und eine Extraction-Rules-Aktivität, um halbstrukturierte Einschübe zu erkennen. Sobald das benötigte Dokumentfragment erkannt wurde, verwenden Sie die entsprechenden Aktivitäten, um Felder aus diesen Fragmenten zu extrahieren.

Schritte zum Erstellen eines Document-Skills

  1. Öffnen Sie den Advanced Designer. Erstellen Sie einen neuen Skill, indem Sie auf der Startseite Create Document Skill klicken.
  2. Verwenden Sie die Registerkarte Documents, die sich öffnet, um Dokumente hochzuladen, die zum Einrichten Ihres Skills verwendet werden.
  3. Nachdem Sie Ihre Bilder hochgeladen haben, wechseln Sie zur Registerkarte Fields und richten Sie eine Feldstruktur für den Skill ein, indem Sie Felder erstellen und konfigurieren, die mit dem Skill extrahiert werden. Beschriften Sie Dokumente im Abschnitt Reference.
  4. Wechseln Sie zur Registerkarte Activities, erstellen Sie eine Segmentation-Aktivität und geben Sie die Felder an, die zum Speichern von Absätzen mit einfachem Text verwendet werden.
  5. Öffnen Sie den Activity Editor, richten Sie die Segmentation-Aktivität ein und trainieren Sie sie.
  6. Kehren Sie zur Registerkarte Activities zurück, erstellen Sie eine Extraction Rules-Aktivität und geben Sie die Felder an, die zum Speichern von Daten aus semistrukturierten Fragmenten des Dokuments verwendet werden.
  7. Öffnen Sie den Activity Editor, richten Sie die Extraction Rules-Aktivität ein und testen Sie sie.
  8. Testen Sie Ihren Skill, indem Sie auf Test Skill Using Selected Documents klicken, und analysieren Sie die Ergebnisse.
  9. Sobald die Testergebnisse ausreichend sind, veröffentlichen Sie Ihren Skill.