automatisches Lernen für die Feldextraktion konfigurieren

automatisches Lernen ermöglicht es dem System, aus den Entscheidungen der Operatoren während der Dokumentverarbeitung zu lernen, um die Erkennung von Dokumentfeldern zu verbessern. Wenn das System ein Feld auf einem Dokument nicht findet, kann ein Operator eingreifen und die korrekte Position des Felds angeben. Sobald die erkannten und korrigierten Dokumente erfolgreich exportiert wurden, verwendet das System die vom Operator vorgenommenen Korrekturen als Lerngrundlage.

Konfigurieren von automatischem Lernen

Führen Sie die folgenden Schritte aus, um automatisches Lernen zu konfigurieren:

Erstellen Sie eine Document Definition.
Aktivieren Sie in den Abschnittseigenschaften der Document Definition die Option Training von Feldpositionen zulassen.
Erstellen Sie die erforderlichen Felder im Abschnitt. Aktivieren Sie in den Eigenschaften jedes Feldes die Option Can have region.
Speichern und veröffentlichen Sie die Document Definition.
Klicken Sie im Dialogfeld Batch-Typ-Eigenschaften auf Workflow und aktivieren Sie die Stufe Training.

Um automatisches Lernen für Dokumente desselben Typs zu konfigurieren, deren Erscheinungsbild sich stark voneinander unterscheidet, erstellen Sie Varianten für jedes jeweilige Feldlayout und trainieren Sie dann einen Klassifikator, damit er die Varianten unterscheiden kann. Weitere Informationen zu Varianten finden Sie unter Variable Feldpositionen in Dokumenten desselben Typs.

Zusätzliche Schritte zum Konfigurieren von Varianten

Führen Sie die folgenden Schritte aus, damit das System Varianten in automatischem Lernen verwenden kann:

Fügen Sie Abschnittsvarianten mit einer der folgenden drei Methoden hinzu:

Erstellen Sie Varianten manuell. Klicken Sie dazu in den Abschnittseigenschaften auf die Registerkarte Data Sets und dann auf die Schaltfläche View… Klicken Sie anschließend auf die Schaltfläche Add…, um Varianten hinzuzufügen.
- Laden Sie Varianten aus einer Datenbank. Klicken Sie dazu in den Abschnittseigenschaften auf die Registerkarte Data Sets und dann auf die Schaltfläche Set Up… Wählen Sie in der Dropdown-Liste Database als Datenquelle aus.
- Erstellen Sie Varianten mithilfe eines Skripts. Klicken Sie dazu in den Abschnittseigenschaften auf die Registerkarte Data Sets und dann auf die Schaltfläche Set Up… Wählen Sie in der Dropdown-Liste Script als Datenquelle aus.

Speichern und veröffentlichen Sie die Document Definition.
Trainieren Sie einen Klassifikator mit den neu erstellten Varianten:

Wechseln Sie in den Modus Open Classifier Training Batches und laden Sie Dokumentbilder in einen neuen Batch.
- Weisen Sie jedem Dokument eine Referenzklasse zu, wobei Varianten als separate Klassen verwendet werden:
  - Klicken Sie auf Set Class… → Add… → Add…
  - Wählen Sie Specify variant aus.
  - Wählen Sie eine Variante aus der Liste aus.
- Trainieren Sie einen Klassifikator, indem Sie auf (Project → Classification Training → Train) klicken.

Bei der Arbeit mit den Trainingsergebnissen müssen Sie möglicherweise prüfen, welche Variante einem Dokument zugewiesen wurde, und diese bei Bedarf bearbeiten. Um die IDs der Varianten im Formular anzuzeigen, erstellen Sie ein Service-Feld. Einzelheiten finden Sie unter Operatoren das Ändern von Varianten ermöglichen.

Die Feldextraktion kann auch vom Administrator trainiert werden, wenn ein Projekt trainiert werden muss, bevor die Operatoren mit der Arbeit daran beginnen.

Sobald die Document Definition vom Administrator eingerichtet wurde, lernt das System automatisch aus den Korrekturen der Operatoren in den Verifizierungsstationen.

Das Verfahren des automatischen Lernens

Dokumente, deren Feldpositionen von den Operatoren verifiziert und korrigiert wurden, werden in einen Trainings-Batch eingefügt.Die Dokumente werden mit der aktuellen Version des trainierten FlexiLayout abgeglichen. Wenn alle Felder korrekt gefunden werden, muss das FlexiLayout nicht erneut trainiert werden.

Es kann vorkommen, dass das FlexiLayout die Felder korrekt findet, der Operator sie jedoch ändern musste. Die Dokumente wurden mit einer alten oder nicht trainierten Version des FlexiLayout verarbeitet. Während die Dokumente auf die Verifizierung warteten, trainierte das System das FlexiLayout mit einigen anderen Dokumenten. Dadurch werden die betreffenden Dokumente nun korrekt verarbeitet.In diesem Fall verbleiben die Dokumente im Trainings-Batch mit dem Status For testing. Sie werden für Regressionstests verwendet, damit sich zukünftige Versionen des FlexiLayout nicht verschlechtern.

Wenn ein trainiertes FlexiLayout angewendet wird und einige der Feldregionen nicht übereinstimmen, werden die Dokumente zum Training einer neuen Version des FlexiLayout verwendet. Ihnen wird der Status For training zugewiesen.Das Ergebnis des Trainings ist eine neue Version des FlexiLayout. Um die neue Version mit der vorherigen Version zu vergleichen, werden beide auf die Dokumente im Trainings-Batch angewendet, die den Status For training und For testing haben. Das System prüft, wie gut die erkannten Feldregionen mit dem vom Benutzer bestätigten Layout übereinstimmen. Das FlexiLayout, das die beste Übereinstimmung liefert, wird für die weitere Dokumentverarbeitung verwendet, und die schlechtere Version wird gelöscht.

​Konfigurieren von automatischem Lernen

Konfigurieren von automatischem Lernen