Zum Hauptinhalt springen
Es kann schwierig sein, Eigenschaften für die Felderextraktion festzulegen, wenn ein einzelner Document-Skill Dokumente verarbeiten muss, die sich trotz gleichen Typs stark in der Platzierung ihrer Felder unterscheiden. Beispielsweise kann derselbe Skill verwendet werden, um Rechnungen verschiedener Vendor zu verarbeiten, bei denen dieselben Felder an Positionen liegen können, die sich von Vendor zu Vendor unterscheiden. Um die Extraktionsqualität für solche Skills zu verbessern, können Sie die Dokumente dieses Skills in Klassen einteilen – das sind Untergruppen von Dokumenten (mit gemeinsamen Eigenschaften) für einen einzelnen Dokumenttyp – und für jede Klasse separate Extraktionsaktivitäten einrichten. Die Klassifizierung von Dokumenten in Klassen kann auch erforderlich sein, wenn Sie die Extraktionsqualität für eine der Klassen gezielt verbessern möchten. So kann etwa ein einzelner Skill verwendet werden, um Kontoauszüge verschiedener Banken zu verarbeiten. Ein Auszugstyp kann im Vergleich zu den anderen eine geringere Extraktionsqualität aufweisen. Um die Extraktionsqualität für diesen Skill zu verbessern, können Sie die Auszüge in Klassen sortieren und für die Klasse mit unzureichender Extraktionsqualität eine „Extraction Rules“-Aktivität einrichten. Die Aktivität „Nach Text und Bild klassifizieren“ dient dazu, die Dokumente eines Skills in Klassen zu sortieren, für die jeweils eigene Extraktionsaktivitäten erstellt und konfiguriert werden müssen.

Überblick zur Einrichtung

Um eine Aktivität „Classify By Text and Image“ zu erstellen und einzurichten, gehen Sie wie folgt vor:
  1. Erstellen Sie eine Aktivität „Classify By Text and Image“ im Dokumentverarbeitungsablauf.
  2. Laden Sie Bilder hoch, erstellen Sie Klassen und weisen Sie den Dokumenten erwartete Klassen zu.
  3. Trainieren Sie die Aktivität und analysieren Sie die Trainingsergebnisse.
  4. Passen Sie die Eigenschaften an, wenn die Klassifizierungsergebnisse verbessert werden sollen.

Erstellen und Einrichten über die Registerkarte Activities

Erstellen Sie im Workflow eine Aktivität Classify By Text and Image. Bei der Erstellung wird in der Skill‑Struktur ein Feld zur Erfassung der Klassifizierungsergebnisse angelegt. Der Wert dieses Felds wird zur Klassifizierung von Dokumenten verwendet. Dieses Feld wird in der Feldstruktur der Skill angezeigt, ist jedoch als verborgen gekennzeichnet und nicht bearbeitbar.
Hinweis: Eine Aktivität Classify By Text and Image gibt keinen Vertrauenswert für eine Klasse zurück, sondern nur deren Namen.
Um zum Activity Editor zu wechseln, klicken Sie auf Activity Editor oder doppelklicken Sie auf den Aktivitätsblock.

Einrichtung mit dem Activity Editor

Schritt 1: Dokumente hochladen

Laden Sie die Dokumente hoch, die für das Einrichten der Aktivität verwendet werden, indem Sie in der Symbolleiste auf Upload klicken und eine Upload-Methode auswählen: a. Dokumente hochladen … Verwenden Sie das daraufhin geöffnete Dialogfeld, um die entsprechenden Dokumente auszuwählen. Die ausgewählten Dokumente werden in der Liste No Class angezeigt. b. Ordner als Klassen hochladen … Verwenden Sie das daraufhin geöffnete Dialogfeld, um einen Ordner auszuwählen, der Unterordner mit Bildern enthält. Jeder Unterordner sollte Bilder einer einzelnen Klasse enthalten. Beim Hochladen von Dokumenten auf diese Weise werden automatisch Klassen erstellt, die den Unterordnern entsprechen; die Dokumente in den jeweiligen Unterordnern werden als zu dieser Klasse gehörig klassifiziert. Dadurch müssen Sie im Activity Editor keine Klassen manuell erstellen.

Schritt 2: Klassen erstellen

Erstellen Sie Klassen, die den verschiedenen Dokumenttypen entsprechen, die verarbeitet werden, indem Sie entweder in der Symbolleiste auf Create Class klicken oder im Bereich Assign class auf Create. Wenn Ihre Dokumente mithilfe von Upload folder like classes hochgeladen wurden, stellen Sie sicher, dass alle erforderlichen Klassen erstellt wurden.

Schritt 3: Dokumente klassifizieren

Klassifizieren Sie Ihre Dokumente auf eine der folgenden Arten:
  • Wählen Sie in der Liste alle Dokumente einer einzelnen Klasse aus und klicken Sie im Bereich Klasse zuweisen auf den entsprechenden Klassennamen.
  • Wenn noch keine passende Klasse vorhanden ist, wählen Sie in der Liste alle entsprechenden Dokumente aus und erstellen Sie eine Klasse, indem Sie entweder in der Symbolleiste auf Klasse erstellen oder im Bereich Klasse zuweisen auf Erstellen klicken.
  • Wählen Sie alle Dokumente einer einzelnen Klasse aus und ziehen Sie sie in die Liste, die dieser Klasse entspricht.

Zusätzliche Optionen

Bei Bedarf können Sie die Ausrichtung von Dokumentseiten über das Dropdown-Menü Drehen in der Symbolleiste ändern. Wählen Sie eine der folgenden Optionen: Alle Seiten nach links drehen, Alle Seiten nach rechts drehen oder Alle Seiten um 180° drehen. Um den Ansichtsmodus zu wechseln, verwenden Sie die folgenden Schaltflächen in der Symbolleiste:
  • Listenansicht. Zeigt Dokumente als Liste an
  • Miniaturansicht. Zeigt Dokumente als Miniaturen an
Um das vollständige Bild eines in der Miniaturansicht angezeigten Dokuments anzuzeigen, verwenden Sie die Schaltfläche „Vorschau“.

Einen Klassifikator trainieren und Klassifizierungsergebnisse anzeigen

Sobald Dokumente klassifiziert wurden, trainieren Sie Ihre Aktivität über die Schaltfläche Train Activity. Nachdem das Training abgeschlossen ist, werden auf der Registerkarte Results Statistiken zu den Klassifizierungsergebnissen angezeigt. Die Analyse dieser Statistiken hilft, Problemklassen zu erkennen und die allgemeine Qualität des Klassifikators zu bewerten.

Allgemeine Statistiken

Der obere Bereich zeigt allgemeine Statistiken für alle Dokumente und Klassen der Aktivität. Diese Statistiken helfen dabei, die Gesamtqualität Ihres Klassifizierers zu bewerten:
  • Accuracy. Der Prozentsatz der Dokumente, deren erwartete Klasse mit der vom Programm zugewiesenen Klasse übereinstimmt.
  • F-Measure. Dient zur Bewertung von Präzision und Vollständigkeit der Klassifizierung.
  • Recall. Das Verhältnis der Dokumente, die korrekt einer bestimmten Klasse zugeordnet wurden, zu allen Dokumenten dieser Klasse.
  • Precision. Das Verhältnis der Dokumente, die korrekt einer bestimmten Klasse zugeordnet wurden, zu allen Dokumenten, die dieser Klasse zugeordnet wurden (sowohl korrekt als auch inkorrekt).

Klassenspezifische Statistiken

Im Bereich Classes können Sie Statistiken für jede Klasse anzeigen. Für jede Klasse werden der Prozentsatz der Documents, bei denen die erwartete Klasse mit der vom Programm zugewiesenen Klasse übereinstimmt, sowie die Anzahl der Documents mit korrekt bzw. falsch zugewiesenen Klassen angezeigt. Um Documents mit falsch zugewiesenen Klassen anzuzeigen, wählen Sie die entsprechende Klasse im Bereich Classes aus und erweitern Sie die Liste der falsch zugewiesenen Documents (rot dargestellt). Die Analyse dieser Documents soll Ihnen helfen zu verstehen, warum das Programm einem bestimmten Document eine andere als die erwartete Klasse zugewiesen hat. Das kann häufig vorkommen, wenn die erwartete Klasse von vornherein falsch gesetzt wurde, z. B. wenn Documents unterschiedlicher Klassen einander zu ähnlich sind.

Klassifizierungsfehler beheben

Falsch erwartete Klassen

Eine mögliche Ursache für eine fehlerhafte Klassifizierung sind falsch zugewiesene erwartete Klassen. Um diesen Fehler zu beheben, weisen Sie dem Document einfach die korrekte erwartete Klasse zu. Wählen Sie auf der Registerkarte Results eine Klasse aus, die einem Document fälschlicherweise zugewiesen wurde. Erweitern Sie die Liste der Documents mit falsch zugewiesenen Klassen, wählen Sie alle Documents dieser Klasse aus und weisen Sie ihnen die korrekte erwartete Klasse aus der Liste im Bereich Assign class zu.

Ähnliche Dokumente in unterschiedlichen Klassen

Ein weiterer möglicher Grund für Klassifizierungsfehler ist, dass sehr ähnliche Dokumente unterschiedlichen Klassen zugeordnet sind. Wenn der Klassifizierer zwei ähnliche Dokumentvarianten verwechselt, sollten diese Varianten in der Regel in einer einzigen Klasse mit einer einzigen Extraktionsaktivität zusammengeführt werden. Überprüfen Sie in diesem Fall die Anzahl der Klassen und führen Sie die verwechslungsanfälligen Klassen zu einer zusammen. Die Unterschiede sollten dann mithilfe von Regeln in einer Aktivität „Extraction Rules“ beschrieben werden.

Unzureichende Trainingsdaten

Ein weiterer möglicher Grund für Klassifizierungsfehler ist eine zu geringe Anzahl von Dokumenten in einem Klassensatz. In diesem Fall können Sie die Qualität des Klassifikators verbessern, indem Sie dem Satz weitere Dokumente hinzufügen. Nachdem Sie neue Dokumente hinzugefügt oder Klassen geändert haben, müssen Sie den Klassifikator neu trainieren.