Zum Hauptinhalt springen
Wenn das Training abgeschlossen ist, werden Klassifizierungsstatistiken angezeigt. Sie können diese Statistiken verwenden, um den Klassifizierer zu verbessern. Um das Fenster mit den Klassifizierungsstatistiken zu öffnen, gehen Sie wie folgt vor:
  • Wählen Sie im Hauptmenü Classification Training → View Statistics aus, oder
  • Klicken Sie in der Symbolleiste auf die Schaltfläche Statistics.
Die folgenden Informationen sind verfügbar:
  • F-measure, Recall,undPrecision – Je höher diese Werte sind, desto genauer sind die Klassifizierungsergebnisse. (Weitere Informationen zur Berechnung von F-measure finden Sie unter Glossary, Classifier F-measure).
    • Die Anzahl der Seiten mit Referenzklassen
    • Ergebnisse der Seitenklassifizierung:
      • True Positive – Die Anzahl der Seiten, denen die Referenzklasse zugewiesen wurde.
      • False Positive – Die Anzahl der Seiten, denen eine andere Klasse als die Referenzklasse zugewiesen wurde.
      • False Negative – Die Anzahl der Seiten mit einer Referenzklasse, denen keine Klasse zugewiesen wurde.
      • True Negative – Die Anzahl der Seiten ohne Referenzklasse, denen keine Klasse zugewiesen wurde.
Verwenden Sie die Dropdown-Liste in der oberen linken Ecke des Fensters „Classification Statistics“, um auszuwählen, ob Sie die Statistiken für Seiten vom Typ For Testing, für Seiten vom Typ For Training oder für beide anzeigen möchten. Detaillierte Informationen über das Verhältnis von Referenzklassen zu Ergebnisklassen sowie Informationen über die Ergebnisse des Klassifizierer-Trainings werden auf drei verschiedene Arten dargestellt:
  1. Konfusionsmatrix. Die Konfusionsmatrix ist eine visuelle Darstellung der Dokumente, die von einem Klassifizierer am häufigsten verwechselt werden. Die Werte in den Matrixzellen stellen die Verhältnisse von Referenzklassen zu Ergebnisklassen dar. Grüne Zellen zeigen die Anzahl der Seiten, denen eine Klasse korrekt zugewiesen wurde. Rote Zellen zeigen die Anzahl der Seiten mit verwechselten Klassen – also Klassen, die Seiten mit einer Referenzklasse vom Klassifizierer fälschlicherweise zugewiesen wurden.
  • Die Option Confused only blendet Klassen aus, bei denen die Ergebnisklassen für alle Seiten ihrer Referenzklasse entsprachen.
  • Mit den Schaltflächen Pages und Percent kann der Benutzer zwischen absoluten Zahlen und Prozentangaben zur Anzahl der Seiten mit korrekt identifizierten und verwechselten Klassen wechseln (der Prozentsatz wird anhand des Verhältnisses der Seiten mit einer korrekt zugewiesenen Klasse zu allen Seiten mit derselben Referenzklasse berechnet).
  • Der Maßstab der Matrix kann wie folgt angepasst werden:
    • - zeigt die Matrix mit einem festen Maßstab an;
    • - zeigt die gesamte Matrix an;
    • - vergrößern;
    • - verkleinern.
  1. Statistiken nach Klasse. Eine Tabelle mit Statistiken für Seiten, bei denen die Ergebnisklasse nicht mit der Referenzklasse übereinstimmt. So kann der Benutzer die Klassen identifizieren, die bei einem bestimmten Klassifizierer die meisten Fehler verursachen. Sie können nach der Anzahl verwechselter Seiten sowie nach dem Verhältnis verwechselter Seiten zur Gesamtzahl der Seiten dieser Referenzklasse sortieren.
  2. Verwechselte Klassen. Diese Registerkarte enthält eine Liste aller Klassen, die von einem Klassifizierer falsch zugewiesen wurden. Anhand dieser Daten können Sie feststellen, welche Klassen am häufigsten miteinander verwechselt werden.
Durch Doppelklicken auf eine Matrixzelle oder eine Datenzeile in der Tabelle werden die Seiten für die ausgewählten Klassen geöffnet. Die Suchzeile für Referenz- und Ergebnisklassen ist auf allen Registerkarten verfügbar. Sie können auch jede Datentabelle sortieren, um herauszufinden, welche Klassen am problematischsten sind. Sie können die Statistiken bequem in eine Textdatei exportieren, indem Sie im Dialogfeld Classification Statistics auf Export Statistics… klicken. Geben Sie im daraufhin geöffneten Dialogfeld einen Namen und Speicherort für die exportierte Datei an und wählen Sie aus, ob Sie sie als CSV- oder TXT-Datei speichern möchten. Sie können außerdem auswählen, welche Statistiken exportiert werden sollen (wählen Sie eine oder mehrere Optionen):
  • Zusammenfassende Statistiken zu den wichtigsten Klassifizierungsparametern: F-measure, Recall, Precision sowie nach Seiten aufgeschlüsselte Klassifizierungsergebnisse.
  • Nach Klassen aufgeschlüsselte wichtigste Klassifizierungsparameter.
  • Verwechselte Klassen – Anzahl und Prozentsatz der Seiten für jede verwechselte Klasse.
  • Alle Klassen – Anzahl und Prozentsatz der Seiten für jede Klasse.
Statistiken werden nur für die Seiten exportiert, deren Dokumentstatus im Dialogfeld Classification Statistics ausgewählt ist.
Sie müssen das Training des Klassifizierers erneut initialisieren, wenn eine der folgenden Aktionen durchgeführt wurde:
  • Dokumente mit dem Status For Training wurden hinzugefügt/entfernt;
  • Der Status For Training wurde einem Dokument zugewiesen oder einem Dokument entzogen;
  • Klassen wurden hinzugefügt, gelöscht oder zusammengeführt;
  • Einem Dokument wurde eine andere Referenzklasse zugewiesen;
  • Ein Klassifizierungsprofil und/oder die Precision-Recall-Priorität wurden geändert.