Extrahierte Daten analysieren - ABBYY Documentation

Die Registerkarte Results im Document Skill Designer enthält Statistiken zur Feldextraktion für Document-Skills. Anhand dieser Statistiken können Sie erkennen, wie sich die Extraktionsqualität verbessern lässt. Alle vom Skill extrahierten Felder werden in der Spalte Fields angezeigt. Felder, die zu einer Gruppe gehören, werden in einer eingeklappten Dropdown-Liste zusammengefasst, die nach der jeweiligen Gruppe benannt ist.

Registerkarte Results mit Statistiken zur Feldextraktion pro Feld

Die folgenden Statistiken zur Feldextraktion sind verfügbar:

Accuracy — Prozentsatz der Felder mit korrekt extrahierten Werten, sowohl pro Feld als auch über alle Felder hinweg (die Zeile ALL FIELDS). Die Genauigkeit pro Feld wird wie folgt berechnet:
Accuracy = Correct / (Correct + Recognition Issue + Located Incorrectly + Not Detected)
Die Zeile ALL FIELDS verwendet dieselbe Formel, wobei jeder Term über alle Felder aggregiert wird.
Correct — Anzahl der Feldinstanzen, deren extrahierter Wert mit dem Referenzwert übereinstimmt.
Recognition Issue — Anzahl der Feldinstanzen, die im Dokument erkannt, aber nicht korrekt erkannt wurden.
Located Incorrectly — Anzahl der Feldinstanzen, deren Werte von den vorhergesagten Werten abweichen, weil ihre Regionen an anderen Positionen erkannt wurden als in der Kennzeichnung.
Not Detected — Anzahl der nicht erkannten Feldinstanzen.
Frequency in Documents — Prozentsatz der Dokumente, die das angegebene Feld enthalten.

Standardmäßig werden Statistiken für alle Felder angezeigt. Um zu filtern, klicken Sie oben in der Spalte Fields auf das Filtersymbol und wählen die Felder aus, die angezeigt werden sollen.

Für eine eingehendere Qualitätsanalyse — Precision, Recall und F-measure sowohl für Feldwerte als auch für die Regionserkennung — bearbeiten Sie Ihren Skill in Advanced Designer. Details finden Sie unter Advanced Accuracy Reports.

Damit diese Statistiken die Produktionsqualität widerspiegeln, sollte die Verteilung der Dokumente in Ihrem Testsatz der Verteilung in der Produktion entsprechen — wenn beispielsweise 30 % Ihrer Produktionsrechnungen von einem bestimmten Vendor stammen, sollten dies auch etwa 30 % des Testsatzes sein. Die Verwendung eines blind set (Dokumente, die nicht für das Training oder frühere Tests verwendet wurden) bestätigt die Ergebnisse zusätzlich.

Überprüfen von fehlerhaft extrahierten Feldern

Um Dokumente anzuzeigen, die Felder mit Fehlern enthalten, klicken Sie für das Feld, das Sie untersuchen, auf den Wert in der Spalte Recognition Issue, Located Incorrectly oder Not Detected.

Wenn Sie auf den Wert in der Spalte Recognition Issue für das Feld Order Date klicken, wird eine Registerkarte geöffnet, auf der nur die Dokumente angezeigt werden, bei denen für Order Date ein Erkennungsproblem aufgetreten ist.

Extraktionsmodi

Auf der Registerkarte Result Review können Sie die Extraktionsergebnisse, Kennzeichnungsfehler und Erkennungsprobleme überprüfen — und die bei der Einrichtung erstellte Kennzeichnung mit den vom Training erzeugten Ergebnissen vergleichen. Dokumente können in drei Modi angezeigt werden:

Reference — Zeigt die Referenzkennzeichnung, die beim Einrichten des Skills erstellt wurde (vor dem Training), sowie die damit extrahierten Feldwerte. Feldwerte und Regionen können in diesem Modus bearbeitet werden.
Predicted — Zeigt die Feldwerte und Regionen, die bei der Verarbeitung von Dokumenten ermittelt wurden. Nicht bearbeitbar.
Difference — Zeigt die Unterschiede zwischen der Referenzkennzeichnung und der vorhergesagten Kennzeichnung. Identische Werte und Regionen werden grün angezeigt, abweichende rot. Nicht bearbeitbar.

Document-Skill im Difference-Modus mit identischen Werten in Grün und abweichenden Werten in Rot

Wechseln Sie zwischen den Modi, indem Sie auf die entsprechende Registerkarte in der Symbolleiste klicken.

Korrekte Referenzkennzeichnung

Wenn ein Feld bei der Einrichtung falsch gekennzeichnet wurde, beim Training jedoch korrekt verarbeitet wurde, können Sie die Referenzkennzeichnung aktualisieren. Wechseln Sie in den Modus Difference und klicken Sie auf das Symbol über dem Wert des falsch gekennzeichneten Felds:

Symbol für Erkennungsprobleme über dem Wert eines gekennzeichneten Felds

Das Feld Field in Reference zeigt den Wert an, der anhand der Referenzkennzeichnung extrahiert wurde. Klicken Sie auf Copy from Predicted, um den falschen Wert durch den bei der Verarbeitung extrahierten Wert zu ersetzen.

Ein Erkennungsproblem bedeutet, dass ein oder mehrere Zeichen nicht korrekt erkannt wurden. Um das zu beheben, passen Sie die Eigenschaften des Felds so an, dass solche Zeichen richtig interpretiert werden. Wenn ein Feld beispielsweise nur Zahlen enthält, setzen Sie den Datentyp auf Number. Dadurch wird zum Beispiel verhindert, dass die Zahl “1” als “l” (kleines L) oder “I” (großes i) erkannt wird.

Wenn das Feld Field in Reference den korrekten Wert enthält, das Verarbeitungsergebnis jedoch falsch ist, erhöhen Sie die Anzahl der Dokumente im Dokumentsatz und trainieren Sie den Skill erneut. Um zum nächsten Dokument mit demselben Fehler im selben Feld zu wechseln, klicken Sie im Bereich Actions auf Go to Next Document.

​Überprüfen von fehlerhaft extrahierten Feldern

​Extraktionsmodi

​Korrekte Referenzkennzeichnung

​Verwandte Themen

Überprüfen von fehlerhaft extrahierten Feldern

Extraktionsmodi

Korrekte Referenzkennzeichnung

Verwandte Themen