Zum Hauptinhalt springen
Legen Sie benutzerdefinierte Regeln für das Erkennen und Extrahieren von Feldern aus halbstrukturierten Dokumenten mit variierenden Layouts fest Die Aktivität „Extraktionsregeln“ ermöglicht das Festlegen von Regeln zum Erkennen von Feldern in halbstrukturierten Dokumenten und das Überprüfen, wie diese Regeln an realen Dokumenten funktionieren. Sie wird in der Regel eingesetzt, wenn sich die Position eines Felds von Dokument zu Dokument unterscheiden kann und die Datenextraktion dadurch erschwert wird, und wenn Sie zusätzliche Informationen zur Erkennung solcher Felder bereitstellen können – z. B. die Position von Feldern relativ zu anderen Objekten im Dokument oder reguläre Ausdrücke, die Suchbedingungen für ein Objekt definieren. So können Sie beispielsweise angeben, dass sich das Feld „Rechnungsnummer“ entweder rechts vom Bild oder direkt unter den Wörtern „Order number“, „Order #“ oder anderen ähnlichen Schlüsselwörtern befinden kann. Wir empfehlen außerdem, dem Verarbeitungsablauf eine „Fast Learning“-Aktivität hinzuzufügen und „Online Learning“ zu aktivieren, um Laufzeitdokumente zu sammeln, wodurch das Skill später automatisch per Machine Learning neu erstellt wird.

Anwendungsfälle

Fügen Sie die Aktivität Extraction Rules in folgenden Fällen zu Ihrem Dokumentverarbeitungsfluss hinzu:
  • Wenn Ihr Dokumentensatz nicht homogen genug ist, um eine Fast-Learning-Aktivität zur Datenerfassung zu verwenden, Sie nicht genügend Dokumente haben, um eine Deep-Learning-Aktivität zu trainieren, und die Dokumente eine bekannte Struktur aufweisen, die sich formalisieren lässt.
  • Wenn Sie mehr Kontrolle über die KI wünschen und die Vorhersageergebnisse der Deep-Learning- und Fast-Learning-Aktivitäten analysieren möchten, bevor Sie diese Werte in Dokumentfelder übertragen. Wenn Sie beispielsweise erwarten, eine Zahl zu extrahieren, die sich in der Nähe eines bestimmten Schlüsselworts befindet, können Sie Hypothesen herausfiltern, die nicht wie eine Zahl aussehen, sowie solche, die nicht in der Nähe des Schlüsselworts liegen. Allgemein gilt: Wenn eine Nachbearbeitung mit Regeln erforderlich ist, deutet dies in der Regel darauf hin, dass der Trainingssatz für die Deep-Learning- und Fast-Learning-Aktivitäten erweitert werden sollte, da Machine-Learning-Technologien den Datentyp eines Felds, die typische Position und die Umgebung „erfühlen“ und erlernen können.
  • Wenn Sie eine FlexiLayout-Datei aus ABBYY FlexiLayout Studio wiederverwenden möchten. Weitere Informationen finden Sie unter Importing FlexiLayouts from ABBYY FlexiLayout Studio.
  • Wenn Ihre Dokumente komplexe Strukturen enthalten (z. B. verschachtelte Tabellen, also wiederkehrende Strukturen innerhalb anderer Tabellen), die von anderen, auf halbstrukturierte Dokumente ausgerichteten Aktivitäten nicht extrahiert werden können.

Funktionsweise

Eine Extraction Rules-Aktivität ist eine formalisierte Beschreibung eines Dokumentsatzes, die es Mitarbeitenden in der Datenerfassung ermöglicht, mithilfe benutzerdefinierter Regeln Datenfelder auf Dokumenten zu finden und Informationen daraus zu extrahieren. Anders ausgedrückt können Sie mit einer Extraction Rules-Aktivität Feldsuchalgorithmen für Dokumentbilder festlegen. Sie können entweder die Position von Feldern relativ zu anderen Objekten angeben oder absolute Koordinaten verwenden. Verschiedene Objekte auf dem Dokumentbild werden mithilfe von Suchelementen erkannt. Für jedes Objekt, das auf dem Bild erkannt werden soll, erstellen Sie ein entsprechendes Element, das den erforderlichen Objekttyp (z. B. Text, Bild, Barcode), seine Eigenschaften und den vorgesehenen Suchbereich für das Objekt vollständig beschreibt. Die Elemente bilden einen Baum der Search Elements, eine logisch verknüpfte Struktur (beliebiger Verschachtelungstiefe), in der Elemente relativ zueinander gesucht werden. Die Reihenfolge der Elemente im Baum entspricht direkt der Reihenfolge, in der die Aktivität nach ihnen sucht, d. h. beim Abgleichen der Beschreibung mit dem Bild sucht die Aktivität nach Elementen in absteigender Reihenfolge. Das Gruppieren von Elementen trägt zur Optimierung der Suche bei und ermöglicht die Erstellung unabhängiger Unterhierarchien. Um Daten in ein Feld zu extrahieren, ordnen Sie es einem Suchelement zu. Wenn das Element auf dem Bild gefunden wird, wird dessen Bereich zum Bereich des zugeordneten Feldes. Weitere Informationen finden Sie unter Setting up an Extraction Rules activity.

Kombinieren mehrerer Aktivitäten für Extraktionsregeln

Sie können ein Workflow-Element erstellen, das mehrere Aktivitäten für Extraktionsregeln enthält. Welche Aktivität auf das Dokument angewendet wird, hängt vom Wert eines Felds ab. Dieses Feld kann Klassifikationsergebnisse oder andere Daten enthalten, die helfen, zwischen Dokumentvarianten zu unterscheiden. Die angegebenen Werte dienen als Bedingungen für die Auswahl der jeweiligen Aktivität. Weitere Informationen finden Sie unter Mehrere Sätze von Extraktionsregeln innerhalb einer einzigen Aktivität.