Einrichten eines OCR-Skills - ABBYY Documentation

Gehen Sie wie folgt vor, um einen OCR-Skill zu erstellen:

Einen neuen OCR-Skill erstellen

Klicken Sie im Skill Catalog in der Symbolleiste auf die Schaltfläche Create.

Den OCR-Skill-Typ auswählen

Wählen Sie den Skill-Typ OCR-Skill aus. Das Dialogfeld Create OCR-Skill wird geöffnet.

Allgemeine Einstellungen konfigurieren

Auf der Registerkarte General:

Geben Sie einen Namen und eine Beschreibung für den neuen Skill ein.
Wählen Sie die Technology Core-Version aus. Wir empfehlen die neueste Version.

BildverarbeitungÖffnen Sie unter Image Processing die Dropdown-Liste PDF Processing Mode und wählen Sie den Verarbeitungsmodus für PDF-Dokumente aus:

Default (empfohlen) — Verwendet die eingebettete PDF-Textebene, sofern verfügbar, und ergänzt sie bei Bedarf durch OCR. Dies ist die Standardeinstellung.
Use Text Layer Only — Extrahiert Text aus der eingebetteten PDF-Textebene. Wenn keine Textebene vorhanden ist, greift Vantage automatisch auf OCR zurück.
Use OCR Only — Ignoriert vorhandene eingebettete PDF-Textebenen und führt eine vollständige OCR des Dokuments durch.

Weitere Informationen zu den einzelnen Modi und Entscheidungshilfen finden Sie unter PDF Processing Mode.

Erkennungssprachen auswählen

Auf der Registerkarte Languages:

Wählen Sie im Abschnitt Allowed Languages eine oder mehrere Sprachen für die Dokumenterkennung aus. Während der Verarbeitung wird die Dokumentsprache automatisch aus den bei der Einrichtung angegebenen Sprachen ausgewählt. Beachten Sie, dass sich die Anzahl der ausgewählten Sprachen auf Geschwindigkeit und Qualität der Erkennung auswirken kann.
Wenn das Dokument handschriftlichen Text enthält, aktivieren Sie im Abschnitt Text Appearance die Option Handwritten.

Bildverbesserungen konfigurieren

Auf der Registerkarte Image Enhancements sind Crop Image und Correct Page Orientation standardmäßig aktiviert. Falls Ihre Dokumente diese Funktionen nicht benötigen, können Sie sie deaktivieren.

Crop Image schneidet das Bild auf die Ränder des Originaldokuments zu.
Correct Page Orientation dreht das Bild automatisch, um die ursprüngliche Orientierung wiederherzustellen.

Barcode-Erkennung aktivieren

Aktivieren Sie auf der Registerkarte Barcodes die Barcode-Typen, die in Ihren Dokumenten vorkommen können. Die Anzahl der ausgewählten Barcode-Typen kann sich auf die Erkennungsgeschwindigkeit auswirken. Wenn Sie keine Barcodes erkennen müssen, klicken Sie in der Kopfzeile der Tabelle Barcode Types auf die Schaltfläche mit der Anzahl der ausgewählten Optionen und anschließend auf Deselect all.

Wenn Sie mehrere Dokumentdateien mit einem OCR-Skill als Teil eines einzelnen Vorgangs verarbeiten, werden alle Dateien zu einer Datei zusammengeführt. Daher entspricht die Anzahl der Ausgabedateien der angegebenen Anzahl von Exportformaten.

Exportformate auswählen

Wählen Sie auf der Registerkarte Export ein oder mehrere Dokumentexportformate aus.

Verfügbare Exportformate

JSON (Standardformat):
- Nur Text (Standardoption). Die exportierte JSON-Datei enthält nur erkannten Text, das Dokumentlayout wird nicht beibehalten. Wenn Sie Nur Text auswählen, können Sie nicht in DOCX, XLSX und PPTX exportieren.
- Dokumentstruktur beibehalten. Die exportierte JSON-Datei enthält erkannten Text, und das Dokumentlayout wird beibehalten.
XML:
- Nur Text. Die exportierte XML-Datei enthält nur erkannten Text. Das Dokumentlayout wird nicht beibehalten. Wenn Sie Nur Text auswählen, können Sie nicht in DOCX, XLSX und PPTX exportieren.
- Dokumentstruktur beibehalten. Die exportierte XML-Datei enthält erkannten Text, und das Dokumentlayout wird beibehalten.
ALTOXML:
- Nur Text. Die exportierte ALTO-XML-Datei enthält nur erkannten Text; das Dokumentlayout wird nicht beibehalten. Wenn Sie Nur Text auswählen, können Sie nicht in DOCX, XLSX und PPTX exportieren.
- Dokumentstruktur beibehalten. Die exportierte ALTO-XML-Datei enthält erkannten Text, und das Dokumentlayout wird beibehalten.

Die Exportoptionen (Nur Text und Dokumentstruktur beibehalten) für JSON, XML und ALTOXML können nicht voneinander abweichen. Wenn Sie für eines dieser Formate eine andere Exportoption festlegen, wird diese Option auf die anderen Formate übertragen.

PDF:
- PDF/A-3a (Standardformat für den PDF-Export)
- PDF/A-3b
- Nur Bild. Nicht bearbeitbares PDF im Standard PDF/A-3b

Für jede PDF-Exportoption wählen Sie zwischen „kleinerer Dateigröße“ (Standardoption) und „maximaler Qualität“. Eine kleinere Dateigröße wird durch Mixed Raster Content (MRC)-Kompression erreicht, die optimale Kompressionsraten separat für Text, Bilder und Hintergrund festlegt.

TXT
DOCX (Microsoft Word):
- Bearbeitbar. Die exportierte DOCX-Datei bewahrt das ursprüngliche Format und den Textfluss und erlaubt gleichzeitig eine einfache Bearbeitung. Das Ausgabedokument kann vom ursprünglichen Bild abweichen.
- Exakt. Die exportierte DOCX-Datei erhält die Formatierung des ursprünglichen Dokuments. Dies kann die Änderungsmöglichkeiten am Text und an der Formatierung des Ausgabedokuments einschränken.
XLSX (Microsoft Excel)
TIFF
JPEG:
- Maximale Qualität. Die exportierte Datei enthält ein JPEG mit einer Kompressionsstufe von 95 %.
- Reduzierte Größe. Die exportierte Datei enthält ein JPEG mit einer Kompressionsstufe von 75 %.
PPTX (Microsoft PowerPoint)
HTML

​Verfügbare Exportformate

​Verwandte Themen

Verfügbare Exportformate

Verwandte Themen