Zum Hauptinhalt springen
Während ein Klassifikator trainiert wird, werden Statistiken zu den Klassifizierungsergebnissen erfasst. Die Analyse dieser Statistiken hilft dabei zu verstehen, wie sich die Qualität eines Klassifikators verbessern lässt. Die Klassifizierungsstatistiken finden Sie auf der Registerkarte Ergebnis im Classification Skill Designer. Sie werden jedes Mal automatisch aktualisiert, wenn der Klassifikator trainiert wurde. Classification Skill Analysis Tabs Diese Registerkarte enthält folgende Informationen:
  • Allgemeine Klassifizierungsgenauigkeit: der prozentuale Anteil korrekt klassifizierter Dokumente im Verhältnis zur Gesamtzahl der Dokumente im Satz.
  • Klassifizierungsgenauigkeit je Klasse: der prozentuale Anteil der Dokumente, die für eine bestimmte Klasse korrekt klassifiziert wurden.
  • Die Anzahl der korrekt und der falsch klassifizierten Dokumente je Klasse.
  • Datum und Uhrzeit, zu der der Klassifikator zuletzt trainiert wurde.
Die Ergebnistabelle enthält alle nicht leeren Benutzerklassen (ohne „Keine Klasse“). Die Klassen in der Tabelle werden zunächst nach der Genauigkeit des Klassifikators sortiert (von der schlechtesten zur besten), dann nach der Anzahl der Dokumente in der Klasse und schließlich alphabetisch nach Name. Wenn nicht alle Zeilen der Tabelle gleichzeitig auf dem Bildschirm angezeigt werden können, wird eine Bildlaufleiste eingeblendet. Ein Klick auf eine Zeile in der Ergebnistabelle öffnet die entsprechende Klasse auf der Registerkarte Documents. Wenn Sie den Namen einer Klasse auf der Registerkarte Documents ändern, wird er auch auf der Registerkarte Ergebnis aktualisiert. Wenn Sie eine Klasse nach dem Training des entsprechenden Klassifikators löschen, wird der Name dieser Klasse auf der Registerkarte Ergebnis ausgegraut. Die Zeile mit dieser Klasse wird erst entfernt, wenn der Klassifikator erneut trainiert wird.

Klassifizierungsfehler

Die meisten Fälle fehlerhafter Klassifizierung entstehen durch Fehler, die beim Erstellen des Trainingssatzes gemacht wurden (zum Beispiel falsch zugewiesene Referenzklassen oder eine unzureichende Anzahl spezifischer Seiten in einem Dokumentensatz).

Falsch zugewiesene Referenzklassen

Um diesen Fehlertyp zu beheben, weisen Sie dem entsprechenden Trainingssatz-Dokument die korrekte Klasse zu und trainieren Sie den Klassifikator anschließend wie folgt neu:
  1. Navigieren Sie zur Registerkarte Documents, indem Sie im Bereich Actions auf Review Prediction in Document Set klicken. Alternativ klicken Sie in der Ergebnistabelle auf die Zeile mit der entsprechenden Klasse.
  2. Wählen Sie ein Dokument aus, dem eine Referenzklasse fälschlicherweise zugewiesen wurde.
  3. Klicken Sie im Bereich Actions auf den Namen der korrekten Klasse.
  4. Wiederholen Sie die Schritte 2 und 3 für jedes Dokument, dem eine Referenzklasse fälschlicherweise zugewiesen wurde.
  5. Klicken Sie im Bereich Actions auf die Schaltfläche Train.

Unzureichende Anzahl von Seiten im Dokumentensatz

Eine unzureichende Klassifizierungsqualität kann durch Folgendes verursacht werden:
  • Eine unzureichende Anzahl hochgeladener Dokumente
  • Eine deutlich unausgewogene Verteilung der Dokumente auf die Klassen
  • Eine unzureichende Anzahl von Beispielen der häufigsten Dokumentvarianten für die jeweilige Klasse
In diesem Fall lässt sich die Klassifizierungsqualität verbessern, indem die fehlenden Dokumente zum Trainingssatz hinzugefügt werden. Wir empfehlen, für jede Klasse zwischen 100 und 1000 Dokumente hochzuladen. Außerdem sollte Ihr Dokumentensatz Beispieldokumente für die häufigsten Dokumentvarianten jeder Klasse in etwa im Verhältnis 1:1 enthalten. Nachdem Sie die neuen Dokumente zum Trainingssatz hinzugefügt haben, ordnen Sie jedem eine Klasse zu und trainieren den Klassifikator neu.

Verwechselte Klassen

Klassifizierungsfehler können auch durch Klassen verursacht werden, die sich in ihren Parametern nicht deutlich unterscheiden. In diesem Fall sollten Sie die Anzahl der Klassen überprüfen und bei Bedarf die verwechselten Klassen zu einer einzigen zusammenführen. Beispielsweise können eine Klasse für Rechnungen unter 10.000 USD und eine Klasse für Rechnungen über 10.000 USD verwechselt werden, wenn sich diese nur wesentlich im fälligen Gesamtbetrag unterscheiden. In diesem Fall sollten diese Klassen für den Klassifizierungs‑Skill zu einer einzigen Klasse zusammengeführt werden, und die Rechnungen sollten erst in einem späteren Schritt bei Bedarf voneinander getrennt werden (zum Beispiel wenn der fällige Gesamtbetrag bereits aus der Rechnung extrahiert wurde).

Siehe auch