Erstellen von NLP-Modellen - ABBYY Documentation

Erstellen von Dokumentfeldern Für jede Entität, die Sie extrahieren möchten, sollte in der Dokumentdefinition ein entsprechendes Feld erstellt werden. So erstellen Sie ein Feld:

Klicken Sie im Dokumentdefinitions-Editor mit der rechten Maustaste auf den Namen des Dokumentabschnitts und wählen Sie Feld erstellen.
Erstellen Sie ein Textfeld.
Wählen Sie auf der Registerkarte Allgemein die Option Kann Region haben aus.
Geben Sie im Feld Name einen Namen für das Feld an (zum Beispiel PreambleSegment). Wichtig! Feldnamen dürfen weder Leerzeichen noch nicht englische Zeichen enthalten und nicht mit einer Zahl beginnen.

Screenshot der Registerkarte „Allgemein“ im Dialogfeld „Feldeigenschaften“ im ABBYY FlexiCapture Dokumentdefinitions-Editor. Das Feld hat den Namen PreambleSegment, und die Optionen Kann Region haben und Textsegment sind ausgewählt.

Wiederholen Sie die obigen Schritte für jede Entität.

Wenn eine Segmentierung verwendet wird, sollte für jedes Segment ein separates Textfeld erstellt werden.

Für jedes Segment, aus dem Entitäten extrahiert werden:

Erstellen Sie ein nicht wiederholbares Feld in einer wiederholbaren Gruppe.
Wählen Sie in den Feldeigenschaften die Option Textsegment aus.
Wählen Sie die Option Mehrere Regionen zulassen aus, wenn einige Segmente auf unterschiedlichen Seiten beginnen und enden.

Erstellen eines Segmentierungs-NLP-Modells Die Segmentierung verbessert die Genauigkeit und Geschwindigkeit der Entitätsextraktion. Die Segmentierung ist optional. Zum Segmentieren von Dokumenten ist ein spezielles NLP-Modell erforderlich. Wichtig! Sie können für jeden Dokumentabschnitt nur ein Segmentierungsmodell haben. So erstellen Sie ein Segmentierungsmodell:

Klicken Sie im Dokumentdefinitions-Editor mit der rechten Maustaste auf den Namen des Dokumentabschnitts.
Wählen Sie Eigenschaften…
Klicken Sie im daraufhin geöffneten Dialogfeld auf die Registerkarte NLP und dann auf Erstellen…
Geben Sie im Feld Name einen Namen für Ihr Segmentierungsmodell an (zum Beispiel SegmentationModel).
Wählen Sie im Feld Modelltyp die Option Segmentierung aus.
Wählen Sie in der Liste Sprache die erforderliche Sprache aus.
Klicken Sie auf Weiter…
Geben Sie im daraufhin geöffneten Dialogfeld alle Felder an, in die die Segmente extrahiert werden sollen.
Klicken Sie auf OK.

Nachdem Sie ein Segmentierungsmodell erstellt haben, müssen Sie es mit einigen Beispieldokumenten trainieren.

Mit der Option Training zulassen können Sie Ihr NLP-Modell während der Dokumentverarbeitung trainieren. Ihr NLP-Modell wird trainiert, wenn Sie die Feldextraktion mit einem Trainings-Batch für die Feldextraktion trainieren. Trainingsergebnisse können entweder deaktiviert oder gelöscht werden. Um Trainingsergebnisse zu deaktivieren, klicken Sie mit der rechten Maustaste auf den Trainings-Batch und wählen Sie im Kontextmenü den Eintrag Disabled aus. Um Trainingsergebnisse zu löschen, klicken Sie mit der rechten Maustaste auf den Trainings-Batch und wählen Sie im Kontextmenü den Eintrag Delete aus.

Erstellen eines NLP-Modells zur Entitätsextraktion Um Entitäten zu extrahieren, benötigen Sie ein NLP-Modell zur Entitätsextraktion, das mit manuell markierten Dokumenten trainiert wurde. So erstellen Sie ein NLP-Modell:

Öffnen Sie im Dokumentdefinitions-Editor die Eigenschaften des Dokumentabschnitts und klicken Sie auf die Registerkarte NLP.
Klicken Sie auf Erstellen…
Geben Sie im Feld Name einen Namen für Ihr NLP-Modell an (zum Beispiel EntitiesExtraction).
Wählen Sie für die Datenquelle entweder einen Abschnitt (wenn keine Segmentierung verwendet wird) oder ein Segment (wenn Sie die Segmentierung verwenden).
Wählen Sie im Feld Modelltyp die Option Extraktion aus.
Wählen Sie in der Liste Sprache die erforderliche Sprache aus.
Klicken Sie auf Weiter…
Wählen Sie die Ergebnisfelder aus, die aus dem ausgewählten Dokumentabschnitt oder Segment extrahiert werden.

Wiederholen Sie die Schritte 1 bis 9 für jedes Dokumentsegment oder jeden Dokumentabschnitt, aus dem Entitäten extrahiert werden sollen.

Klicken Sie auf Dokumentdefinition > Speichern, um Ihre Dokumentdefinition zu speichern.
Klicken Sie auf Dokumentdefinition > Schließen, um den Dokumentdefinitions-Editor zu schließen.
Klicken Sie auf Dokumentdefinition > Publish, um Ihre Dokumentdefinition zu veröffentlichen.

Nachdem Sie ein NLP-Modell zur Entitätsextraktion erstellt haben, müssen Sie es mit einigen Beispieldokumenten trainieren.

Mit der Option Training zulassen können Sie Ihr NLP-Modell während der Dokumentverarbeitung trainieren. Ihr NLP-Modell wird trainiert, wenn Sie die Feldextraktion mit einem Trainings-Batch für die Feldextraktion trainieren. Trainingsergebnisse können entweder deaktiviert oder gelöscht werden. Um Trainingsergebnisse zu deaktivieren, klicken Sie mit der rechten Maustaste auf den Batch und wählen Sie im Kontextmenü den Eintrag Disabled aus. Um Trainingsergebnisse zu löschen, klicken Sie mit der rechten Maustaste auf den Batch und wählen Sie im Kontextmenü den Eintrag Delete aus.