Zum Hauptinhalt springen
Um einen Seitenfluss aus Dateien mit mehreren Dokumenten in einzelne Dokumente aufzuteilen, die für die weitere Verarbeitung bereit sind, erstellen Sie einen Document Splitter‑Skill.

Dokumente desselben Typs trennen

Angenommen, Sie haben eine Datei, die mehrere Dokumente desselben Typs enthält (zum Beispiel eine Sammlung von Rechnungen eines Vendor für einen bestimmten Zeitraum). Jede Rechnung hat ihre eigene Rechnungsnummer und kann Seitenzahlen aufgedruckt haben. Diese und andere Daten können verwendet werden, um Dokumente voneinander zu trennen. Sie können die Aktion Extraction Rules verwenden, um die Extraktion von Rechnungsnummern und Seitenzahlen einzurichten. Sie können auch die Aktion Classify verwenden, wenn sich die erste Seite eines Dokuments deutlich von den übrigen Seiten unterscheidet. Anschließend können Sie die Aktion Splitter Script verwenden, um die extrahierten Werte zu analysieren und festzustellen, ob die aktuelle Seite die erste Seite eines neuen Dokuments ist.

Trennen von Dokumenten und Entfernen von Anhängen

Angenommen, die zu verarbeitenden Dokumente werden von erläuternden Unterlagen begleitet, die zwar gespeichert, aber nicht für die Datenauswertung herangezogen werden sollen. In diesem Fall können Sie eine Classify-Aktivität verwenden, um die Seiten in Dokumente des gewünschten Typs und deren Anhänge zu klassifizieren. Sie können auch eine Extraction Rules-Aktivität verwenden, um zu prüfen, ob auf einer Seite verwertbare Daten vorhanden sind. Eine Seite ohne verwertbare Daten ist vermutlich eine Anlageseite. Anschließend können Sie die Splitter Script-Aktivität verwenden, um die Anlagenseiten an das jeweilige Dokument anzuhängen oder sie in separate Dokumente zu verschieben.

Trennen von Dokumenten und Bestimmen ihres Typs

Angenommen, Sie haben eine Datei, die mehrere Dokumente unterschiedlicher Typen enthält (zum Beispiel einen Kreditantrag zusammen mit Ausweisdokumenten, Einkommensnachweisen, Kontoauszügen, Versorgungsrechnungen und weiteren Dokumenten). In diesem Fall können Sie eine Classify-Aktivität verwenden, um jede Seite zu klassifizieren, und eine Extraction Rules-Aktivität, um die Daten zu extrahieren, die nötig sind, um festzustellen, ob die aktuelle Seite die erste Seite eines neuen Dokuments ist. Anschließend können Sie die Splitter Script-Aktivität verwenden, um Regeln für das Trennen von Dokumenten und das Bestimmen ihres Typs festzulegen.

Seiten neu anordnen und leere Seiten entfernen

Angenommen, Sie müssen Seiten neu anordnen oder leere bzw. Ausschussseiten entfernen, die durch unsauberes Scannen entstanden sind. Eine Neuordnung ist nur möglich, wenn die Seiten Informationen enthalten, die die korrekte Reihenfolge angeben (z. B. Seitenzahlen). In diesem Fall können Sie ein Feld erstellen, das die Seitenzahlen extrahiert. Sie können außerdem ein Feld erstellen, das auf einer Seite nach beliebigem Text sucht, um leere Seiten zusätzlich als Ausschuss zu verwerfen. Mithilfe der Aktivität „Splitter Script“ können Sie Seiten anhand ihrer Nummern neu anordnen und ein separates Dokument erstellen, das alle leeren oder Ausschussseiten enthält. Document Splitter Workflow

Schritte zum Erstellen eines Document Splitter Skills

  1. Öffnen Sie ABBYY Vantage Advanced Designer und erstellen Sie einen neuen Document Splitter Skill, indem Sie auf der Startseite auf Create Splitter Skill klicken.
  2. Laden Sie auf der Registerkarte Documents Ihre Dateien hoch. Jedes Dokumentset sollte Dateien eines einzelnen geschäftlichen Vorgangs enthalten. Der Satz der Quelldateien wird in einzelne Seiten aufgeteilt. Beachten Sie, dass alle Activities außer der Splitter Script Activity jede Seite separat verarbeiten.
  3. Konfigurieren Sie den Dokumentverarbeitungsfluss, um Daten zu extrahieren, die dabei helfen, den Dokumenttyp jeder Seite im Vorgang zu bestimmen und festzustellen, wo ein Dokument endet und das nächste beginnt. a. Richten Sie eine Classify Activity ein, um Seiten zu klassifizieren, wenn der Fluss der Quellseiten mehrere Dokumenttypen enthält oder wenn sich die erste Seite jedes Dokuments deutlich von den übrigen Seiten unterscheidet. b. Falls erforderlich, versehen Sie Felder mit Labels oder fügen Sie andere Activities hinzu, um Daten zu extrahieren, die verwendet werden können, um Dokumente desselben Typs zu trennen oder die Klasse eines Dokuments zu bestimmen.
  4. Richten Sie die Splitter Script Activity ein, indem Sie Dokumenttypen im Bereich Splitter Script Properties hinzufügen und das Skript konfigurieren, das den Seitenfluss in einen Satz von Dokumenten umwandelt. Das Skript hat Zugriff auf alle Seiten eines Vorgangs und kann Daten aus den anderen Activities analysieren, um zu bestimmen, welche Seiten die ersten Seiten neuer Dokumente sind.
  5. Testen Sie Ihren Skill, indem Sie auf Test Skill Using Selected Documents klicken, und analysieren Sie die Ergebnisse.
  6. Wenn Sie mit den Ergebnissen zufrieden sind, veröffentlichen Sie Ihren Skill.