Training von NLP-Modellen auf Basis des Feedbacks von Verifizierungsoperatoren

Die Qualität der Datenextraktion kann durch zusätzliches Training von NLP-Modellen durch Operatoren verbessert werden. Wenn das Programm bestimmte Felder nicht erkennt oder ein Feld mit einem anderen verwechselt, kann der Verifizierungsoperator das richtige Feld angeben und das NLP-Modell erneut trainieren. Das Programm verwendet dann das neu trainierte Modell für eine präzisere Datenextraktion.

Zusätzliches Training ist für in Dokumentdefinitionen geladene NLP-Modelle nicht verfügbar.

Es gibt zwei Möglichkeiten, das Training eines NLP-Modells während der Verifizierung zu starten. Sie können:

eine Trainingsstufe nach der Verifizierungsstufe hinzufügen. Das Training startet, wenn die für den Trainings-Batch festgelegten Bedingungen erfüllt sind. Weitere Informationen zum Einrichten von Workflow-Stufen finden Sie unter Workflow-Einrichtung.
Dokumente manuell an die Trainingsstufe senden. Klicken Sie dazu im Arbeits-Batch mit der rechten Maustaste auf das Dokument und wählen Sie im Kontextmenü Train aus.

Im Allgemeinen läuft der Trainingsvorgang wie folgt ab:

Wenn das Training gestartet wird, erstellt ABBYY FlexiCapture automatisch einen allgemeinen Trainings-Batch in der Liste der Trainings-Batches (falls dort noch keiner vorhanden ist). Alle Dokumente, die zu einer bestimmten Dokumentdefinition gehören, werden unabhängig von ihrer Variante in diesen Batch kopiert.
Jedem Dokument wird entweder der Status For training oder For testing zugewiesen.
Dokumente mit dem Status For training werden für das Training verwendet. Dadurch wird ein neues NLP-Modell erstellt.
Das beim Training erstellte neue Modell wird anschließend anhand von Dokumenten mit dem Status For testing getestet.
Wenn die Gesamtleistung des neuen Modells nicht schlechter ist als die des vorhandenen Modells, wird das vorhandene Modell durch das neue ersetzt. Andernfalls wird das neue Modell verworfen.

Bei der Dokumentverarbeitung kann sich herausstellen, dass sich bei einigen Dokumenten die Positionen der Felder erheblich unterscheiden, obwohl sie identische Feldsätze enthalten. Um die Erkennungsqualität solcher Dokumente zu verbessern, erstellen Sie für jede Dokumentvariante separate Trainings-Batches. Erstellen eines Feldextraktions-Trainings-Batches für einen bestimmten Vendor oder eine bestimmte Variante Um Dokumente zu trainieren, die von einem bestimmten Vendor stammen oder zu einer bestimmten Variante gehören, muss ein neuer Batch erstellt werden. Gehen Sie dazu wie folgt vor:

Öffnen Sie in der Project Setup Station das Projekt mit dem NLP-Modell. Weitere Informationen zum Einrichten eines NLP-Modells finden Sie unter NLP-Modelle erstellen.
Wechseln Sie zu Field Extraction Training Batches, indem Sie Fields Training > Open Field Extraction Training Batches auswählen. Alternativ können Sie die Tastenkombination Ctrl + Alt + B verwenden oder im Kontextmenü Field Extraction Training Batches auswählen.
Erstellen Sie einen neuen Batch, indem Sie File > New Batch auswählen. Alternativ können Sie die Tastenkombination Ctrl + N verwenden. Wählen Sie die passende Dokumentdefinition und Variante aus und wählen Sie dann im Kontextmenü die Option NLP Batch aus.
Fügen Sie Ihre Dokumente hinzu, erkennen Sie sie, bearbeiten Sie die Reihenfolge der Abschnitte und starten Sie das Training, indem Sie im Kontextmenü Train auswählen. Alternativ können Sie die Tastenkombination Ctrl + F7 verwenden oder in der Symbolleiste auf die Schaltfläche Train Batch klicken.

Die Qualität eines trainierten NLP-Modells hängt von der Anzahl der Dokumente im Trainings-Batch und von der Qualität ihres Markups ab. Beachten Sie bitte Folgendes:

Alle in der Dokumentdefinition beschriebenen Felder sollten in den Trainingsdokumenten markiert sein.
Es wird empfohlen, in jedem Trainings-Batch zwischen 100 und 500 Dokumente zu haben. Diese Anzahl an Dokumenten ermöglicht es dem Programm, die besten Parameter für Ihr NLP-Modell auszuwählen, ohne den Trainingsprozess zu verlangsamen.

Wenn Operator-Feedback für das Training verwendet wird, werden neue Dokumente sowohl dem Trainings-Batch als auch dem Varianten-Batch hinzugefügt.

Für eine Variante mit einem vorhandenen Trainings-Batch wird das NLP-Modell verwendet, das für diesen Batch erstellt wurde.
Für alle anderen Varianten wird das NLP-Modell verwendet, das für den allgemeinen Trainings-Batch erstellt wurde.

Wenn ein Dokument, das mit einem bereits in einem Trainings-Batch vorhandenen Dokument identisch ist, aus derselben Quelle hinzugefügt wird, ersetzt das neue Dokument das ältere. Dies wird auch im Hintergrundaufgabenprotokoll für die Trainingsaufgabe vermerkt. Das Programm verwendet die Registrierungsparameter des Dokuments, um zu bestimmen, ob ein Dokument eine Kopie eines bereits vorhandenen Dokuments ist oder nicht. Nach dem Erstellen des Batch können Sie zusätzliche Optionen festlegen. Wählen Sie dazu Show NLP Batch Settings… Die folgenden zusätzlichen Optionen können im Dialogfeld Einstellung für Trainings-Batch angegeben werden:

Maximale Anzahl von Dokumenten in jedem Trainings-Batch Wenn die maximale Anzahl von Dokumenten erreicht ist, ersetzen neue Dokumente, die zu einem Trainings-Batch hinzugefügt werden, die alten Dokumente.
Maximaler Prozentsatz ersetzter Dokumente Gibt den Prozentsatz alter Dokumente an, die während einer Trainingssitzung durch neue ersetzt werden können. Dokumente, die an die Trainingsstufe gesendet, aber nicht in den Batch aufgenommen wurden, werden nicht zum Trainieren des neuen NLP-Modells verwendet.
Training starten, wenn der Batch mehr als __ neue Dokumente oder mehr als __ % neue Dokumente enthält Das Training wird gestartet, wenn mindestens eine der folgenden Bedingungen erfüllt ist: Die Anzahl neuer Dokumente, die zu einem Trainings-Batch hinzugefügt wurden, ist größer als der angegebene Wert, oder der Prozentsatz neuer Dokumente im Verhältnis zur Gesamtzahl der Dokumente in einem Batch ist gleich dem angegebenen Wert oder größer. Andernfalls wird das Training nicht gestartet, und im Hintergrundaufgabenprotokoll wird ein Eintrag hinzugefügt, der besagt, dass nicht genügend neue Dokumente vorhanden sind, um das Training zu starten.
Prozentsatz der Dokumente, die für das Training verwendet werden sollen Gibt den Prozentsatz der als For testing und For training markierten Dokumente an. Wenn Sie zum Beispiel den Prozentsatz der Dokumente „For training“ auf 70 % begrenzen, werden die restlichen 30 % als „For testing“ markiert.

Trainingsstatistiken Sobald das Training abgeschlossen ist, können Statistiken für ein NLP-Modell exportiert werden. Dazu gehört Folgendes:

Informationen zu den Einstellungen für Trainings-Batch.
Informationen sowohl über das neue als auch über das alte NLP-Modell.
Trainingszeit.
Die Version der NLP-Komponente, die zum Trainieren des NLP-Modells verwendet wurde.
Dokument- und Feld-Trainingsstatistiken.
Informationen darüber, wie aktuell die exportierten Daten sind. Wenn der Parameter isActual den Wert false hat, wurde der Batch nach dem Training und der Erstellung eines neuen NLP-Modells geändert: Dokumente wurden möglicherweise hinzugefügt oder entfernt, das Dokument-Markup wurde eventuell geändert usw. Für aktuelle Statistiken sollte das Training erneut gestartet werden.

Um das Protokoll für einen Trainings-Batch zu exportieren, klicken Sie mit der rechten Maustaste auf den Batch, klicken Sie im Kontextmenü auf Export Field Extraction Statistics…, und geben Sie an, wo Sie die CSV-Datei speichern möchten.