- Sie Entitäten aus einer Tabelle extrahieren müssen.
- Sie nicht genügend Beispieldokumente haben, um Ihr NLP-Modell zu trainieren.
- Sie mit der Extraktionsqualität einiger Felder nicht zufrieden sind.
-
Textbereiche identifizieren, die mit Folgendem übereinstimmen:
- bestimmten regulären Ausdrücken
- bestimmten Wörtern oder Ausdrücken aus Benutzerwörterbüchern, die im Text in beliebiger flektierter Form vorkommen
- einem der integrierten NER-Objekte:
-
Personen (NerPerson)
- Organisationen (NerOrg)
- Orte (NerGeo)
- Adressen (NerAddress)
- Geldbeträge (NerMoney)
- Datumsangaben (NerDate)
-
Dauer (NerDuration, nur für russische und englische Texte verfügbar)
- Kontonummern (NERAccountNumber, nur für russische Texte verfügbar) Hinweis: Die Objekte NerMoney, NerDate, NerDuration und NERAccountNumber werden nur in Extraktionsskripten verwendet.
- Abfragen für Text und Textbereiche ausführen, in denen Suchwörter und -ausdrücke in beliebiger flektierter Form vorkommen können.
- Alle identifizierten Textbereiche in Dokumentfelder speichern.
-
Adressen und die folgenden Adresskomponenten aus Dokumenten extrahieren:
- Postleitzahl (NerZipCode)
- Land (NerCountry)
- Bundesstaat (NerState)
- Stadt (NerCity)
- Straße (NerStreet)
- Öffnen Sie den Document Definition editor.
- Wählen Sie einen Dokumentabschnitt aus, klicken Sie mit der rechten Maustaste darauf und klicken Sie im Kontextmenü auf Properties….
- Klicken Sie auf die Registerkarte NLP.
- Klicken Sie unter Extraction Scripts auf Create…
- Im Dialogfeld Extraction Script
- Klicken Sie auf die Schaltfläche Load…, um ein Benutzerwörterbuch zu laden, oder
- Klicken Sie auf die Schaltfläche Edit…, um den Skripteditor zu öffnen.
Die Benutzerwörterbücher sollten in UTF-8 mit BOM oder ANSI codiert sein.
Extrahieren von Adresskomponenten aus einem Dokument
- Geben Sie den Bereich des Dokuments an, in dem sich die Adresse befindet.
- Den Namen der Sammlung im Format [resultCollectionNamePrefix]_[NerTypeOfComponent].
- Das Präfix resultCollectionNamePrefix.
- Den Typ des NER-Objekts.
Derzeit können Sie nur Komponenten deutscher und US-Adressen extrahieren.
