Training Ihrer NLP-Modelle - ABBYY Documentation

Nachdem Sie Ihre Document Definition veröffentlicht haben, schließen Sie das Dialogfeld Document Definition und wechseln Sie dann zum Abschnitt Field Extraction Training Batches, um einen neuen Dokument-Batch zu erstellen.

Klicken Sie auf File und wählen Sie New Batch aus.
Wählen Sie im sich öffnenden Dialogfeld die Document Definition aus, die Sie zuvor erstellt haben. Wählen Sie dann den Abschnitt aus, für den Sie Felder konfiguriert haben, und klicken Sie auf OK.
Wählen Sie im Fenster Look up Variant for Training Batch die Variante aus, die für das Training verwendet werden soll.
Wählen Sie den neu erstellten Batch aus und wählen Sie entweder die Option NLP batch oder klicken Sie auf Field extraction training > NLP batch.

Screenshot der Ansicht „Field Extraction Training Batches“ in ABBYY FlexiCapture, mit einem ausgewählten Batch und seinem geöffneten Kontextmenü sowie aktivierter Option „NLP batch“.

Nun müssen Sie die Dokumente laden, die zum Trainieren des NLP-Modells verwendet werden.

Öffnen Sie den von Ihnen erstellten Batch durch Doppelklick.
Klicken Sie auf File > Load Images….
Klicken Sie im sich öffnenden Dialogfeld auf Image Processing Settings…, wählen Sie die Option One document per file aus, und klicken Sie auf OK.
Wählen Sie die Dokumente aus, die für das Training des NLP-Modells verwendet werden sollen.
Nachdem alle Dokumente geladen wurden, wählen Sie sie aus und klicken Sie auf Recognition > Match Document Definition. Alternativ können Sie mit der rechten Maustaste auf die Auswahl klicken und Match Document Definition auswählen. Wählen Sie dann die passende Document Definition aus.

Die Qualität eines trainierten NLP-Modells hängt von der Anzahl der Dokumente im Trainings-Batch und von der Qualität ihres Markups ab. Bitte beachten Sie Folgendes:

Alle in der Document Definition beschriebenen Felder sollten in den Trainingsdokumenten markiert werden.
Es wird empfohlen, in jedem Trainings-Batch zwischen 100 und 500 Dokumente zu verwenden. Mit dieser Anzahl kann das Programm die besten Parameter für Ihr NLP-Modell auswählen, ohne den Trainingsprozess zu verlangsamen.

Nachdem Sie die Dokumente erfolgreich geladen haben, müssen Sie die Felder in jedem Dokument manuell markieren, damit die NLP-Modelle wissen, wo sie nach Entitäten suchen sollen. Führen Sie dazu für jedes Dokument die folgenden Schritte aus:

Doppelklicken Sie auf ein Dokument, um es zu öffnen.
Wählen Sie ein Feld aus, für das Informationen aus dem Dokument extrahiert werden sollen. Wählen Sie dann entweder den Wert des Feldes im Dokument aus oder ziehen Sie ein Rechteck darum. Wiederholen Sie diesen Schritt für jedes Feld.
Wechseln Sie zum nächsten Dokument, indem Sie auf die Schaltfläche klicken. Wiederholen Sie die obigen Schritte für alle verbleibenden Dokumente.
Speichern Sie die Änderungen.

Nachdem Sie alle Dokumente markiert haben, kehren Sie zur Ansicht Field Extraction Training Batches zurück. Klicken Sie mit der rechten Maustaste auf den Batch und wählen Sie im Kontextmenü Train aus. Nach dem Training ist das Modell einsatzbereit. Trainingsergebnisse können entweder deaktiviert oder gelöscht werden. Um Trainingsergebnisse zu deaktivieren, klicken Sie mit der rechten Maustaste auf den Trainings-Batch und wählen Sie im Kontextmenü den Eintrag Disabled aus. Um Trainingsergebnisse zu löschen, klicken Sie mit der rechten Maustaste auf den Trainings-Batch und wählen Sie im Kontextmenü den Eintrag Delete aus. Wenn Sie Ihr trainiertes NLP-Modell in einem anderen Projekt verwenden möchten, importieren Sie einfach den Trainings-Batch und die zugehörige Document Definition in dieses Projekt.