Wann Extraktionsskripte verwendet werden sollten

Die Extraktionsergebnisse lassen sich manchmal verbessern, wenn Extraktionsskripte zusammen mit einem NLP-Modell verwendet werden. Sie sollten Extraktionsskripte verwenden, wenn:

Sie Entitäten aus einer Tabelle extrahieren müssen.
Sie nicht genügend Beispieldokumente haben, um Ihr NLP-Modell zu trainieren.
Sie mit der Extraktionsqualität einiger Felder nicht zufrieden sind.

Mit Extraktionsskripten können Sie

Textbereiche identifizieren, die mit Folgendem übereinstimmen:
- bestimmten regulären Ausdrücken
- bestimmten Wörtern oder Ausdrücken aus Benutzerwörterbüchern, die im Text in beliebiger flektierter Form vorkommen
- einem der integrierten NER-Objekte:
Personen (NerPerson)
- Organisationen (NerOrg)
- Orte (NerGeo)
- Adressen (NerAddress)
- Geldbeträge (NerMoney)
- Datumsangaben (NerDate)
Dauer (NerDuration, nur für russische und englische Texte verfügbar)
- Kontonummern (NERAccountNumber, nur für russische Texte verfügbar) Hinweis: Die Objekte NerMoney, NerDate, NerDuration und NERAccountNumber werden nur in Extraktionsskripten verwendet.
Abfragen für Text und Textbereiche ausführen, in denen Suchwörter und -ausdrücke in beliebiger flektierter Form vorkommen können.
Alle identifizierten Textbereiche in Dokumentfelder speichern.
Adressen und die folgenden Adresskomponenten aus Dokumenten extrahieren:
- Postleitzahl (NerZipCode)
- Land (NerCountry)
- Bundesstaat (NerState)
- Stadt (NerCity)
- Straße (NerStreet)

Gehen Sie wie folgt vor, um ein Extraktionsskript zu erstellen oder die zu verwendenden Benutzerwörterbücher auszuwählen:

Öffnen Sie den Document Definition editor.
Wählen Sie einen Dokumentabschnitt aus, klicken Sie mit der rechten Maustaste darauf und klicken Sie im Kontextmenü auf Properties….
Klicken Sie auf die Registerkarte NLP.
Klicken Sie unter Extraction Scripts auf Create…
Im Dialogfeld Extraction Script.
- Klicken Sie auf die Schaltfläche Load…, um ein Benutzerwörterbuch zu laden, oder
- Klicken Sie auf die Schaltfläche Edit…, um den Skripteditor zu öffnen.

Die Benutzerwörterbücher sollten in UTF-8 mit BOM oder ANSI codiert sein.

Extrahieren von Adresskomponenten aus einem Dokument

Gehen Sie wie folgt vor, um Adresskomponenten zu extrahieren:

Geben Sie den Bereich des Dokuments an, in dem sich die Adresse befindet.

Wir empfehlen, den Suchbereich mit einem FlexiLayout-Feld einzugrenzen und diesen Bereich dann als Quelle für ein Extraktionsskript zu verwenden. Weitere Informationen finden Sie unter Search constraints. Eine Adresse darf nur jeweils eine Instanz der folgenden Komponenten enthalten: Postleitzahl, Land, Bundesstaat, Stadt und Straße. Ein Extraktionsskript kann jedoch mehrere Instanzen einer Komponente zurückgeben. Je genauer Sie den Suchbereich für eine Adresse definieren, desto weniger Instanzen werden zurückgegeben. 2. Wenden Sie das entsprechende Extraktionsskript an. Sie können nach Adresskomponenten im gesamten Feld oder in einem Teil des Felds suchen. Wenn Sie die Methoden ParseAddressInPosition( resultCollectionNamePrefix : string, startPos : int, endPos : int ) und ParseAddressInSpan( resultCollectionNamePrefix : string, span : IInterval ) zum Parsen einer Adresse verwenden, erhält jedes Wort in den erkannten Komponenten während der Indizierung die folgenden Attribute, die dann in XML-Abfragen verwendet werden können:

Den Namen der Sammlung im Format [resultCollectionNamePrefix]_[NerTypeOfComponent].
Das Präfix resultCollectionNamePrefix.
Den Typ des NER-Objekts.

Ein Beispiel für eine XML-Abfrage zum Extrahieren von Adresskomponenten finden Sie unten.

Derzeit können Sie nur Komponenten deutscher und US-Adressen extrahieren.

​Extrahieren von Adresskomponenten aus einem Dokument

Extrahieren von Adresskomponenten aus einem Dokument