Zum Hauptinhalt springen
Die Aktivität Extraktionsregeln ermöglicht das Festlegen von Regeln zur Erkennung von Feldern in teilstrukturierten Dokumenten und die Überprüfung, wie solche Regeln bei realen Dokumenten funktionieren. Sie wird in der Regel eingesetzt, wenn sich die Position eines Felds von Dokument zu Dokument unterscheiden kann, was die Datenerfassung erschwert, und wenn Sie zusätzliche Informationen zur Erkennung solcher Felder bereitstellen können, z. B. die Position von Feldern relativ zu anderen Objekten im Dokument oder reguläre Ausdrücke, die Suchbedingungen für ein Objekt definieren. Sie können beispielsweise festlegen, dass sich das Feld Rechnungsnummer entweder rechts vom Bild oder direkt unter den Wörtern „Order number“, „Order #“ oder anderen ähnlichen Schlüsselwörtern befindet. Wir empfehlen außerdem, dem Verarbeitungsablauf eine Fast Learning-Aktivität hinzuzufügen und Online Learning zu aktivieren, um Laufzeitdokumente zu sammeln. Dadurch wird das Skill später automatisch per Machine Learning neu erstellt.

Anwendungsfälle

Fügen Sie die Aktivität Extraction Rules in folgenden Fällen zu Ihrem Dokumentverarbeitungsfluss hinzu:
  • Wenn Ihr Dokumentensatz nicht homogen genug ist, um eine Fast-Learning-Aktivität zur Datenerfassung zu verwenden, Sie nicht genügend Dokumente haben, um eine Deep-Learning-Aktivität zu trainieren, und die Dokumente eine bekannte Struktur aufweisen, die sich formalisieren lässt.
  • Wenn Sie mehr Kontrolle über die KI wünschen und die Vorhersageergebnisse der Deep-Learning- und Fast-Learning-Aktivitäten analysieren möchten, bevor Sie diese Werte in Dokumentfelder übertragen. Wenn Sie beispielsweise erwarten, eine Zahl zu extrahieren, die sich in der Nähe eines bestimmten Schlüsselworts befindet, können Sie Hypothesen herausfiltern, die nicht wie eine Zahl aussehen, sowie solche, die nicht in der Nähe des Schlüsselworts liegen. Allgemein gilt: Wenn eine Nachbearbeitung mit Regeln erforderlich ist, deutet dies in der Regel darauf hin, dass der Trainingssatz für die Deep-Learning- und Fast-Learning-Aktivitäten erweitert werden sollte, da Machine-Learning-Technologien den Datentyp eines Felds, die typische Position und die Umgebung „erfühlen“ und erlernen können.
  • Wenn Sie eine FlexiLayout-Datei aus ABBYY FlexiLayout Studio wiederverwenden möchten. Weitere Informationen finden Sie unter Importing FlexiLayouts from ABBYY FlexiLayout Studio.
  • Wenn Ihre Dokumente komplexe Strukturen enthalten (z. B. verschachtelte Tabellen, also wiederkehrende Strukturen innerhalb anderer Tabellen), die von anderen, auf halbstrukturierte Dokumente ausgerichteten Aktivitäten nicht extrahiert werden können.

Funktionsweise

Eine Extraction Rules-Aktivität ist eine formalisierte Beschreibung eines Dokumentsatzes, die es Mitarbeitenden in der Datenerfassung ermöglicht, mithilfe benutzerdefinierter Regeln Datenfelder auf Dokumenten zu finden und Informationen daraus zu extrahieren. Anders ausgedrückt können Sie mit einer Extraction Rules-Aktivität Feldsuchalgorithmen für Dokumentbilder festlegen. Sie können entweder die Position von Feldern relativ zu anderen Objekten angeben oder absolute Koordinaten verwenden. Verschiedene Objekte auf dem Dokumentbild werden mithilfe von Suchelementen erkannt. Für jedes Objekt, das auf dem Bild erkannt werden soll, erstellen Sie ein entsprechendes Element, das den erforderlichen Objekttyp (z. B. Text, Bild, Barcode), seine Eigenschaften und den vorgesehenen Suchbereich für das Objekt vollständig beschreibt. Die Elemente bilden einen Baum der Search Elements, eine logisch verknüpfte Struktur (beliebiger Verschachtelungstiefe), in der Elemente relativ zueinander gesucht werden. Die Reihenfolge der Elemente im Baum entspricht direkt der Reihenfolge, in der die Aktivität nach ihnen sucht, d. h. beim Abgleichen der Beschreibung mit dem Bild sucht die Aktivität nach Elementen in absteigender Reihenfolge. Das Gruppieren von Elementen trägt zur Optimierung der Suche bei und ermöglicht die Erstellung unabhängiger Unterhierarchien. Um Daten in ein Feld zu extrahieren, ordnen Sie es einem Suchelement zu. Wenn das Element auf dem Bild gefunden wird, wird dessen Bereich zum Bereich des zugeordneten Feldes. Weitere Informationen finden Sie unter Setting up an Extraction Rules activity.

Kombinieren mehrerer Aktivitäten für Extraktionsregeln

Sie können ein Workflow-Element erstellen, das mehrere Aktivitäten für Extraktionsregeln enthält. Welche Aktivität auf das Dokument angewendet wird, hängt vom Wert eines bestimmten Felds ab. Dieses Feld kann Klassifikationsergebnisse oder andere Daten enthalten, die helfen, zwischen Dokumentvarianten zu unterscheiden. Die angegebenen Werte dienen als Bedingungen für die Auswahl der entsprechenden Aktivität. Weitere Informationen finden Sie unter Mehrere Sätze von Extraktionsregeln innerhalb einer einzigen Aktivität.