Zum Hauptinhalt springen

Tipps zur Verbesserung von Klassifikatoren

Wenn Sie mit den Ergebnissen Ihres Klassifikators nicht zufrieden sind, versuchen Sie Folgendes:
  • Prüfen Sie, ob das ausgewählte Klassifizierungsprofil geeignet ist.
  • Passen Sie das Verhältnis von Recall und Precision an.
  • Prüfen Sie, ob die Referenzklassen korrekt zugewiesen wurden.
  • Verwenden Sie mehr Beispieldokumente. Stellen Sie sicher, dass Ihr Trainings-Batch möglichst viele Dokumentvarianten enthält. Je größer und vielfältiger der Trainings-Batch ist, desto mehr Dokumentvarianten derselben Klasse erkennt der Klassifikator.

Konfidenzwert der Dokumentdefinition

Abschnitte der Dokumentdefinition, die Dokumentklassen zugeordnet sind, werden mit ihren Dokumentabschnitten mit einem bestimmten Konfidenzwert abgeglichen. Die Namen von Abschnitten mit niedrigem Konfidenzwert werden rot markiert. Wenn Automatically confirm section type when matched aktiviert ist und der der ausgewählten Dokumentklasse zugeordnete Abschnitt der Dokumentdefinition erfolgreich abgeglichen wurde, wird der Name des Abschnitts nicht rot hervorgehoben. In diesem Fall wird die Klasse beim Matching der Dokumentdefinition bestätigt, auch wenn sie anfangs mit niedrigem Konfidenzwert bestimmt wurde.
Die Option Automatically confirm section type when matched befindet sich auf der Registerkarte General in den Eigenschaften des Abschnitts der Dokumentdefinition. Das Aktivieren dieser Option beschleunigt die manuelle Verifizierung, sie sollte jedoch nur für Abschnitte verwendet werden, die nur mit Dokumenten abgeglichen werden können, für die eine bestimmte Dokumentdefinition erstellt wurde. Dies kann eine feste Dokumentdefinition für einen festen Abschnitt mit Bezeichnern oder ein FlexiLayout-Abschnitt mit erforderlichen Elementen sein. Operators müssen solche Übereinstimmungen dann nicht mehr manuell bestätigen. Wir empfehlen nicht, diese Option für Dokumentdefinitionen zu aktivieren, die mit beliebigen Dokumenten abgeglichen werden können.
Wenn eine Dokumentdefinition mit niedrigem Konfidenzwert einer Seite oder einem Dokument zugeordnet wurde, haben Sie folgende Möglichkeiten:
  • Klicken Sie im Kontextmenü der Seite oder des Dokuments auf den Befehl Confirm Document Definition.
  • Ändern Sie die Seite mit niedrigem Konfidenzwert (zum Beispiel, indem Sie den Abschnittstyp ändern oder die Seite in ein anderes Dokument verschieben).
  • Ändern Sie die für die Seite oder das Dokument ausgewählte Dokumentdefinition.
Sobald ein Operator alle Fehler korrigiert hat, sodass es keine Abschnitte mit unsicher abgeglichenen Dokumentdefinitionen mehr gibt, wird der Fehler „low-confidence“ automatisch entfernt.
Im Fehlerbereich wird für Dokumente mit Dokumentdefinitionen mit niedrigem Konfidenzwert ein Zusammenstellungsfehler gemeldet. Alle Dokumente, die neben Dokumentdefinitionen mit niedrigem Konfidenzwert noch weitere Fehler aufweisen, werden an die Stufe der Zusammenstellungs-Verifizierung gesendet. Alle Dokumente, die außer einer Klassifizierung mit niedrigem Konfidenzwert keine weiteren Fehler aufweisen, werden an die Verifizierungsstufe gesendet.

Erkennen von Fehlern im Trainings-Batch des Klassifikators

Klassifizierungsfehler werden meist durch falsch zugewiesene Referenzklassen oder durch zu wenige Beispielseiten im Trainings-Batch verursacht. Um solche Fehler zu erkennen, können Sie das Programm nach Seiten suchen lassen, die einer falsch klassifizierten Seite ähneln. Klicken Sie dazu mit der rechten Maustaste auf eine falsch klassifizierte Seite und dann im Kontextmenü auf einen der folgenden drei Befehle (diese Befehle sind auch über das Menü Klassifikationstraining oben verfügbar):
  • Ähnliche Seiten anzeigen sucht im gesamten Batch nach ähnlichen Seiten, unabhängig von der Referenz- oder Ergebnisklasse der ausgewählten Seite.
  • Ähnliche Seiten aus Referenzklasse anzeigen sucht nach ähnlichen Seiten mit derselben Referenzklasse wie die ausgewählte Seite.
  • Ähnliche Seiten aus Ergebnisklasse anzeigen sucht nach ähnlichen Seiten mit derselben Referenzklasse wie die Ergebnisklasse der ausgewählten Seite.
Das Programm sucht in allen Dokumenten nach ähnlichen Seiten, unabhängig von ihrem Status, also davon, ob sie als For Training, For Testing oder Unused markiert sind.
Die ähnlichen Seiten werden in absteigender Reihenfolge angezeigt – von der ähnlichsten bis zur am wenigsten ähnlichen:

Praktisches Beispiel

Angenommen, Sie entdecken in der Konfusionsmatrix eine fehlklassifizierte Seite, und diese Seite hat ID als Referenzklasse und Invoice als Ergebnisklasse. Öffnen Sie die fehlklassifizierte Seite, indem Sie in der Konfusionsmatrix auf die entsprechende Zelle klicken. Klicken Sie mit der rechten Maustaste auf die Seite und dann im Kontextmenü auf Ähnliche Seiten aus Ergebnisklasse anzeigen (dieser Befehl ist oben auch über das Menü Klassifikationstraining verfügbar). Dadurch werden alle Seiten im Klassifikator-Batch angezeigt, die der ID-Seite ähnlich sind, aber Invoice als Referenzklasse haben. Die Seiten werden in absteigender Reihenfolge angezeigt, von der höchsten bis zur geringsten Ähnlichkeit. Nun können Sie die Seiten mit falsch zugewiesenen Referenzklassen identifizieren, die dazu geführt haben, dass die ID-Seite als Rechnung klassifiziert wurde. Ändern Sie gegebenenfalls die Referenzklasse und trainieren Sie den Klassifikator erneut. Wenn Sie auf den Befehl Ähnliche Seiten aus Referenzklasse anzeigen klicken, wird überprüft, ob eine Seite eindeutig ist. So können Sie beispielsweise prüfen, ob es im Trainings-Batch ähnliche ID-Seiten gibt, für die ID als Referenzklasse angegeben ist. Wenn keine ähnlichen ID-Seiten gefunden werden, fügen Sie die abweichende Seite dem Trainings-Batch hinzu und trainieren Sie den Klassifikator erneut. Wenn Sie auf den Befehl Ähnliche Seiten anzeigen klicken, werden alle ähnlichen Seiten angezeigt, unabhängig von ihrer Referenz- oder Ergebnisklasse. Dadurch werden alle Seiten im Klassifikator-Batch angezeigt, die der Passseite ähnlich sind, für die jedoch andere Referenzklassen als ID angegeben wurden. Ändern Sie gegebenenfalls die Referenzklasse und trainieren Sie den Klassifikator erneut.