Gehen Sie wie folgt vor, um einen OCR-Skill zu erstellen:Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
Einen neuen OCR-Skill erstellen
Klicken Sie im Skill Catalog in der Symbolleiste auf die Schaltfläche Create.
Den OCR-Skill-Typ auswählen
Wählen Sie den Skill-Typ OCR Skill aus. Das Dialogfeld Create OCR Skill wird geöffnet.
Allgemeine Einstellungen konfigurieren
Auf der Registerkarte General:
- Geben Sie einen Namen und eine Beschreibung für den neuen Skill ein.
- Wählen Sie die Version von Technology Core aus. Wir empfehlen die neueste Version.
- Default (empfohlen) — Verwendet die eingebettete PDF-Textebene, sofern verfügbar, und ergänzt sie bei Bedarf durch OCR. Dies ist die Standardeinstellung.
- Use Text Layer Only — Extrahiert Text aus der eingebetteten PDF-Textebene. Wenn keine Textebene vorhanden ist, greift Vantage automatisch auf OCR zurück.
- Use OCR Only — Ignoriert vorhandene eingebettete PDF-Textebenen und führt eine vollständige OCR des Dokuments durch.
Weitere Informationen zu den einzelnen Modi und Entscheidungshilfen finden Sie unter PDF Processing Mode.
Erkennungssprachen auswählen
Auf der Registerkarte Languages:
- Wählen Sie im Abschnitt Allowed Languages eine oder mehrere Sprachen für die Dokumenterkennung aus. Während der Verarbeitung wird die Dokumentsprache automatisch aus den bei der Einrichtung angegebenen Sprachen ausgewählt. Beachten Sie, dass sich die Anzahl der ausgewählten Sprachen auf Geschwindigkeit und Qualität der Erkennung auswirken kann.
- Wenn das Dokument handschriftlichen Text enthält, aktivieren Sie im Abschnitt Text Appearance die Option Handwritten.
Bildverbesserungen konfigurieren
Auf der Registerkarte Image Enhancements sind Crop Image und Correct Page Orientation standardmäßig aktiviert. Falls Ihre Dokumente diese Funktionen nicht benötigen, können Sie sie deaktivieren.
- Crop Image schneidet das Bild auf die Ränder des Originaldokuments zu.
- Correct Page Orientation dreht das Bild automatisch, um die ursprüngliche Orientierung wiederherzustellen.
Barcode-Erkennung aktivieren
Aktivieren Sie auf der Registerkarte Barcodes die Barcode-Typen, die in Ihren Dokumenten vorkommen können. Die Anzahl der ausgewählten Barcode-Typen kann sich auf die Erkennungsgeschwindigkeit auswirken. Wenn Sie keine Barcodes erkennen müssen, klicken Sie in der Kopfzeile der Tabelle Barcode Types auf die Schaltfläche mit der Anzahl der ausgewählten Optionen und anschließend auf Deselect all.
Verfügbare Exportformate
- JSON (Standardformat):
- Nur Text (Standardoption). Die exportierte JSON-Datei enthält nur erkannten Text, das Dokumentlayout wird nicht beibehalten. Wenn Sie Nur Text auswählen, können Sie nicht in DOCX, XLSX und PPTX exportieren.
- Dokumentstruktur beibehalten. Die exportierte JSON-Datei enthält erkannten Text, und das Dokumentlayout wird beibehalten.
- XML:
- Nur Text. Die exportierte XML-Datei enthält nur erkannten Text. Das Dokumentlayout wird nicht beibehalten. Wenn Sie Nur Text auswählen, können Sie nicht in DOCX, XLSX und PPTX exportieren.
- Dokumentstruktur beibehalten. Die exportierte XML-Datei enthält erkannten Text, und das Dokumentlayout wird beibehalten.
- ALTOXML:
- Nur Text. Die exportierte ALTO-XML-Datei enthält nur erkannten Text; das Dokumentlayout wird nicht beibehalten. Wenn Sie Nur Text auswählen, können Sie nicht in DOCX, XLSX und PPTX exportieren.
- Dokumentstruktur beibehalten. Die exportierte ALTO-XML-Datei enthält erkannten Text, und das Dokumentlayout wird beibehalten.
- PDF:
- PDF/A-3a (Standardformat für den PDF-Export)
- PDF/A-3b
- Nur Bild. Nicht bearbeitbares PDF im Standard PDF/A-3b
- TXT
- DOCX (Microsoft Word):
- Bearbeitbar. Die exportierte DOCX-Datei bewahrt das ursprüngliche Format und den Textfluss und erlaubt gleichzeitig eine einfache Bearbeitung. Das Ausgabedokument kann vom ursprünglichen Bild abweichen.
- Exakt. Die exportierte DOCX-Datei erhält die Formatierung des ursprünglichen Dokuments. Dies kann die Änderungsmöglichkeiten am Text und an der Formatierung des Ausgabedokuments einschränken.
- XLSX (Microsoft Excel)
- TIFF
- JPEG:
- Maximale Qualität. Die exportierte Datei enthält ein JPEG mit einer Kompressionsstufe von 95 %.
- Reduzierte Größe. Die exportierte Datei enthält ein JPEG mit einer Kompressionsstufe von 75 %.
- PPTX (Microsoft PowerPoint)
- HTML
OCR-Skill
Überblick über den OCR-Skill und die Daten, die er extrahieren kann.
PDF Processing Mode
Legen Sie fest, ob Vantage die eingebettete PDF-Textebene, OCR oder eine Kombination aus beidem verwendet.
OCR-Aktivität
Führen Sie einen OCR-Skill als Teil eines Process-Skill-Workflows aus.
Datenexportformate
Referenz zu jedem Exportformat und jeder Option.
Technology Core-Versionen
Wählen Sie die Engine-Version aus, auf der ein Skill basiert.
