Zum Hauptinhalt springen
Wenn ABBYY Vantage ein PDF-Dokument verarbeitet, muss festgelegt werden, wie der Text extrahiert wird. PDFs können eine eingebettete Textebene enthalten (durchsuchbarer Text, der direkt in die Datei eingebettet ist), oder es kann sich um reine Bilddateien handeln, bei denen zur Textextraktion Optical Character Recognition (OCR) erforderlich ist. Mit der Einstellung PDF Processing Mode steuern Sie explizit, welche Methode Vantage verwendet. Das ist besonders nützlich, wenn:
  • Sie in regulierten Branchen arbeiten, in denen reproduzierbare und auditierbare Extraktionsergebnisse erforderlich sind.
  • Ihr Dokumentensatz PDFs mit eingebetteten Textebenen von geringer Qualität oder unzuverlässigen Textebenen enthält, bei denen OCR bessere Ergebnisse liefert.
  • Sie von ABBYY FlexiCapture migrieren und das Verarbeitungsverhalten Ihrer bestehenden Workflows nachbilden müssen.
  • Sie für alle Dokumente ein konsistentes, vorhersehbares Verarbeitungsverhalten benötigen, unabhängig von ihrem Inhalt.

Verfügbare Modi

ModusBeschreibungWann verwenden
Standard (Empfohlen)Verwendet die eingebettete PDF-Textebene, sofern vorhanden, und ergänzt sie bei Bedarf durch Optical Character Recognition (OCR). Dies ist das Standardverhalten von Vantage.Für den allgemeinen Einsatz. Empfohlen für die meisten Dokumentensätze mit einer Mischung aus PDFs mit Textebene und reinen Bild-PDFs.
Nur Textebene verwendenExtrahiert Text ausschließlich aus der eingebetteten PDF-Textebene. Wenn keine Textebene vorhanden ist, greift Vantage automatisch auf Optical Character Recognition (OCR) zurück.Verwenden Sie diese Option, wenn Sie über hochwertige, vertrauenswürdige Textebenen verfügen und eine schnellere Extraktion ohne vollständige OCR wünschen. Nützlich in regulierten Umgebungen, in denen die vorhandene Textebene die maßgebliche Quelle ist.
Nur OCR verwendenIgnoriert jede eingebettete PDF-Textebene und führt auf jeder Seite des Dokuments eine vollständige Optical Character Recognition (OCR) durch.Verwenden Sie diese Option, wenn PDF-Textebenen bekanntermaßen unzuverlässig oder beschädigt sind oder wenn Sie unabhängig von der Struktur aller Dokumente eine konsistente OCR-basierte Extraktion benötigen.

Beispielszenarien

Die folgenden Beispiele zeigen typische Situationen, in denen der jeweilige Modus die beste Wahl ist.
Ihre Organisation verarbeitet digital erzeugte PDF-Rechnungen, die aus dem ERP-System eines Lieferanten exportiert wurden. Die eingebettete Textebene ist präzise und maschinell erzeugt. Nur Textebene verwenden ermöglicht eine schnelle, zuverlässige Extraktion, ohne unnötige OCR durchzuführen.
Sie verarbeiten im selben Workflow große Mengen gescannter Papierdokumente und digital erzeugter PDFs. Einige Dateien haben saubere Textebenen, andere nicht. Standard (empfohlen) verarbeitet beides automatisch, ohne Konfiguration pro Dokument.
Ihr Dokumentensatz besteht aus PDFs, die von einem Legacy-Scansystem erzeugt wurden, das beim Scannen eine Textebene von geringer Qualität einbettet. Diese eingebettete Ebene enthält Erkennungsfehler, die die Feldextraktion beeinträchtigen. Nur OCR verwenden umgeht sie vollständig und extrahiert fehlerfreien Text direkt aus dem Seitenbild.
Sie arbeiten in einer regulierten Branche (z. B. Finanzdienstleistungen oder Gesundheitswesen), in der Extraktionsergebnisse vollständig reproduzierbar und auditierbar sein müssen. Wenn Sie den Modus auf Nur Textebene verwenden oder Nur OCR verwenden festlegen, wird immer derselbe Verarbeitungspfad verwendet – unabhängig davon, wie die Dokumente eingehen.

Wo Sie die Einstellung konfigurieren

Die Einstellung „PDF Processing Mode“ ist an den folgenden Stellen verfügbar:
  • OCR-Skill-Einstellungen — Registerkarte „Allgemein“, unter „Bildverarbeitung“
  • OCR-Aktivitätseinstellungen innerhalb eines Process-Skills — Registerkarte „Allgemein“, unter „Bildverarbeitung“

Unterstützte Technology Core-Versionen

PDF Processing Mode steht für Skills zur Verfügung, die Technology Core 3 verwenden. Für frühere Technology Core-Versionen ist diese Funktion nicht verfügbar.