Zum Hauptinhalt springen
Skills zur Verarbeitung unstrukturierter Dokumente können nur im Advanced Designer erstellt werden. Der Verarbeitungsablauf solcher Skills umfasst Aktivitäten, die auf die Extraktion von Daten mithilfe von NLP ausgerichtet sind. Die folgenden Aktivitäten unterstützen nur eine begrenzte Anzahl von Sprachen. Eine Liste der von jeder Aktivität unterstützten Sprachen finden Sie auf den jeweiligen Seiten:
  • Segmentation-Aktivität
  • Deep-Learning-für-NLP-Aktivität
  • Named-Entities-(NER)-Aktivität
  • Address-Parsing-Aktivität

Extrahieren vortrainierter benannter Entitäten aus dem gesamten Dokument

Angenommen, Sie möchten einen Document-Skill erstellen, um Unternehmensnamen und Adressen aus unstrukturierten Dokumenten wie Briefen zu extrahieren. Zum Extrahieren dieser Entitäten können Sie eine Aktivität für Named Entities (NER) einrichten, die für die Extraktion benannter Entitäten konzipiert ist. Wenn die Adresse in Bestandteile wie Straße, Stadt, Bundesstaat, Land und Postleitzahl aufgeteilt und in separate Felder übernommen werden soll, richten Sie eine Aktivität für Address Parsing ein. NER Activity Flow

Schritte zum Erstellen eines Document-Skills

  1. Öffnen Sie den Advanced Designer. Erstellen Sie einen neuen Skill, indem Sie auf der Startseite Create Document Skill auswählen.
  2. Verwenden Sie die Registerkarte Documents, die geöffnet wird, um die Dokumente hochzuladen, mit denen Sie Ihren Skill einrichten.
  3. Nachdem Sie Ihre Bilder hochgeladen haben, wechseln Sie zur Registerkarte Fields und legen Sie die Feldstruktur für den Skill fest, indem Sie die Felder erstellen und konfigurieren, die mit dem Skill extrahiert werden sollen. Kennzeichnen Sie Dokumente im Abschnitt Reference.
  4. Wechseln Sie zur Registerkarte Activities. Erstellen Sie eine Aktivität für Named Entities (NER) und geben Sie Felder an, in denen die extrahierten benannten Entitäten gespeichert werden. Ordnen Sie die benannten Entitäten den ausgewählten Feldern zu.
  5. Wenn Sie ein Feld mit einer Adresse haben und diese in Bestandteile aufteilen möchten, erstellen Sie eine Address Parsing-Aktivität und geben Sie Felder an, in denen die extrahierten Adressbestandteile gespeichert werden. Ordnen Sie die Adressbestandteile den ausgewählten Feldern zu.
  6. Testen Sie Ihren Skill, indem Sie Test Skill Using Selected Documents auswählen, und analysieren Sie die Ergebnisse.
  7. Wenn die Testergebnisse ausreichend gut sind, veröffentlichen Sie Ihren Skill.

Extrahieren vortrainierter benannter Entitäten aus bestimmten Absätzen

Angenommen, die benannte Entität, die Sie extrahieren möchten, befindet sich immer im selben Absatz. Wenn Sie beispielsweise einen Geldbetrag aus einem Kaufpreis-Absatz extrahieren müssen, der Teil eines Kaufvertrags ist, verwenden Sie zunächst die Aktivität Segmentation, um den Zielabsatz zu extrahieren, und anschließend die Aktivität Named Entities (NER), um das Zielfeld zu extrahieren. Die Ziel­daten sollten eine benannte Entität darstellen, die von einer Aktivität Named Entities (NER) oder Address Parsing unterstützt wird, zum Beispiel Namen, Adressen und Datumsangaben. Sie können den Zielabsatz auch mithilfe der Aktivitäten Fast Learning und Extraction Rules extrahieren. Gehen Sie dazu zunächst sicher, dass der Textabschnitt korrekt durch eine Aktivität Fast Learning oder Extraction Rules extrahiert wird, und erstellen und konfigurieren Sie anschließend eine Aktivität Named Entities (NER) oder Address Parsing. Wenn der Zielabsatz auch andere benannte Entitäten desselben Typs enthält, die nicht extrahiert werden sollen, beachten Sie den folgenden Use Case. Vortrainierte Aktivitäten sind ein guter Ausgangspunkt, da sie sich leicht konfigurieren lassen und kein Training erfordern. Ein auf Ihren Dokumenten trainiertes neuronales Netz kann jedoch eine höhere Extraktionsgenauigkeit liefern. Wenn Sie einen umfangreichen Dokumentbestand haben, möchten Sie möglicherweise auch das nächste Szenario ausprobieren und dasjenige wählen, das für Ihre Dokumente besser funktioniert. Segmentation with NER and Address Parsing

Schritte zum Erstellen eines Document-Skills

  1. Öffnen Sie den Advanced Designer. Erstellen Sie einen neuen Skill, indem Sie auf der Startseite Create Document Skill auswählen.
  2. Verwenden Sie die Registerkarte Documents, die geöffnet wird, um Dokumente hochzuladen, die zur Einrichtung Ihres Skills verwendet werden.
  3. Nachdem Sie Ihre Bilder hochgeladen haben, wechseln Sie zur Registerkarte Fields und richten Sie die Feldstruktur für den Skill ein, indem Sie die Felder erstellen und konfigurieren, die mit dem Skill extrahiert werden. Labeln Sie Dokumente im Abschnitt Reference.
  4. Wechseln Sie zur Registerkarte Activities, erstellen Sie eine Segmentation-Aktivität und geben Sie die Felder an, die zum Speichern der Zielabsätze verwendet werden.
  5. Öffnen Sie den Activity Editor, richten Sie die Segmentation-Aktivität ein und trainieren Sie sie.
  6. Kehren Sie zur Registerkarte Activities zurück, erstellen Sie eine Named Entities (NER)-Aktivität und geben Sie ein Quellfeld sowie Felder an, die zum Speichern der extrahierten benannten Entitäten verwendet werden. Ordnen Sie die benannten Entitäten den ausgewählten Feldern zu.
  7. Wenn Sie ein Feld haben, das eine Adresse enthält und die Adresse in Bestandteile aufteilen möchten, erstellen Sie eine Address Parsing-Aktivität und geben Sie ein Quellfeld sowie Felder an, die zum Speichern der extrahierten Adressbestandteile verwendet werden. Ordnen Sie die Adressbestandteile den ausgewählten Feldern zu.
  8. Testen Sie Ihren Skill, indem Sie Test Skill Using Selected Documents auswählen, und analysieren Sie die Ergebnisse.
  9. Sobald die Testergebnisse ausreichend gut sind, veröffentlichen Sie Ihren Skill.

Extrahieren benutzerdefinierter benannter Entitäten

Angenommen, Sie müssen den Namen einer Organisation aus einem Absatz extrahieren, der Informationen zu beiden Vertragsparteien enthält. Zusätzlich soll eine E‑Mail‑Adresse extrahiert werden. In diesem Fall sollten Sie zunächst die Aktivität Segmentation verwenden, um den Zielabsatz zu extrahieren. Eine Aktivität Named Entities (NER) können Sie jedoch nicht verwenden, da sie die Namen beider Organisationen aus dem Zielabsatz extrahiert; außerdem ist sie nicht darauf trainiert, E‑Mails zu extrahieren. Verwenden Sie in diesem Fall stattdessen die Aktivität Deep Learning für NLP. Dieses Szenario können Sie auch nutzen, um die Extraktionsgenauigkeit für vortrainierte benannte Entitäten zu verbessern. Testen Sie sowohl eine vortrainierte Aktivität als auch die Deep‑Learning‑Aktivität und wählen Sie anschließend diejenige aus, die bei Ihren Documents besser abschneidet. Beachten Sie, dass Sie viele Documents benötigen, um diese Aktivität zu verwenden (die Mindestanzahl beträgt 50 Documents, empfohlen sind jedoch mindestens 150 Documents). Sie können auch beide Aktivitäten testen (Named Entities (NER) und Deep Learning for NLP) und anschließend die Aktivität auswählen, die bei Ihren Documents besser abschneidet. Segmentation with Deep Learning

Schritte zum Erstellen eines Document-Skills

  1. Öffnen Sie den Advanced Designer. Erstellen Sie einen neuen Skill, indem Sie auf der Startseite Create Document Skill wählen.
  2. Verwenden Sie die Registerkarte Documents, die sich öffnet, um die Dokumente hochzuladen, die zum Einrichten Ihres Skills verwendet werden.
  3. Nachdem Sie Ihre Bilder hochgeladen haben, wechseln Sie zur Registerkarte Fields und legen Sie eine Feldstruktur für den Skill fest, indem Sie die Felder erstellen und konfigurieren, die mit dem Skill extrahiert werden. Kennzeichnen Sie die Dokumente im Bereich Reference.
  4. Navigieren Sie zur Registerkarte Activities, erstellen Sie eine Segmentation-Aktivität und geben Sie die Felder an, in denen die Zielabsätze gespeichert werden sollen.
  5. Öffnen Sie den Activity Editor, richten Sie die Segmentation-Aktivität ein und trainieren Sie sie.
  6. Kehren Sie zur Registerkarte Activities zurück, erstellen Sie eine Deep Learning for NLP-Aktivität und geben Sie die Felder an, die von dieser Aktivität extrahiert werden sollen.
  7. Öffnen Sie den Activity Editor, um die Deep Learning-Aktivität einzurichten und zu trainieren.
  8. Testen Sie Ihren Skill, indem Sie Test Skill Using Selected Documents wählen, und analysieren Sie die Ergebnisse.
  9. Wenn die Testergebnisse zufriedenstellend sind, veröffentlichen Sie Ihren Skill.