Zum Hauptinhalt springen
Um einen OCR Skill zu erstellen, gehen Sie wie folgt vor:
  1. Öffnen Sie den Skill Catalog und klicken Sie in der Symbolleiste auf Create.
  2. Wählen Sie den Skill-Typ OCR Skill. Das Dialogfeld Create OCR Skill wird geöffnet.
  3. Geben Sie auf der Registerkarte General einen Namen und eine Beschreibung für den neuen Skill ein.
  4. Auf der Registerkarte Languages:
    a. Wählen Sie im Bereich Allowed Languages eine oder mehrere Sprachen für die Dokumenterkennung aus. Während der Verarbeitung wird die Dokumentensprache automatisch aus den während der Einrichtung angegebenen Sprachen gewählt. Beachten Sie, dass die Anzahl der ausgewählten Sprachen die Erkennungsgeschwindigkeit und -qualität beeinflussen kann.
    b. Wenn das Dokument handschriftlichen Text enthält, aktivieren Sie die Option Handwritten im Bereich Text Appearance.
  5. Auf der Registerkarte Image Enhancements sind Crop Image und Correct Page Orientation standardmäßig aktiviert. Optional können Sie diese Funktionen deaktivieren, wenn Ihre Dokumente sie nicht benötigen.
    Crop Image schneidet das Bild an den Rändern des Originaldokuments zu. Correct Page Orientation dreht das Bild automatisch, um die ursprüngliche Ausrichtung wiederherzustellen.
  6. Aktivieren Sie auf der Registerkarte Barcodes die Barcode-Typen, die in Ihren Dokumenten vorkommen können. Die Anzahl der ausgewählten Barcode-Typen kann die Erkennungsgeschwindigkeit beeinflussen.
    Wichtig! Wenn Sie mehrere Dokumentdateien mithilfe eines OCR Skills innerhalb eines einzelnen Vorgangs verarbeiten, werden alle Dateien zu einer zusammengeführt. Dadurch ist die Anzahl der Ausgabedateien identisch mit der angegebenen Anzahl der Exportformate.
  7. Wählen Sie auf der Registerkarte Export ein oder mehrere Dokumentexportformate aus. Weitere Informationen finden Sie unter Verfügbare Exportformate.

Verfügbare Exportformate

  • JSON (Standardformat):
    • Nur Text (Standardoption). Die exportierte JSON-Datei enthält nur erkannten Text, das Dokumentlayout wird nicht beibehalten. Wenn Sie Nur Text auswählen, können Sie nicht in DOCX, XLSX und PPTX exportieren.
    • Dokumentstruktur beibehalten. Die exportierte JSON-Datei enthält erkannten Text, und das Dokumentlayout wird beibehalten.
  • XML:
    • Nur Text. Die exportierte XML-Datei enthält nur erkannten Text. Das Dokumentlayout wird nicht beibehalten. Wenn Sie Nur Text auswählen, können Sie nicht in DOCX, XLSX und PPTX exportieren.
    • Dokumentstruktur beibehalten. Die exportierte XML-Datei enthält erkannten Text, und das Dokumentlayout wird beibehalten.
  • ALTOXML:
    • Nur Text. Die exportierte ALTO-XML-Datei enthält nur erkannten Text; das Dokumentlayout wird nicht beibehalten. Wenn Sie Nur Text auswählen, können Sie nicht in DOCX, XLSX und PPTX exportieren.
    • Dokumentstruktur beibehalten. Die exportierte ALTO-XML-Datei enthält erkannten Text, und das Dokumentlayout wird beibehalten.
Wichtig! Die Exportoptionen (Nur Text und Dokumentstruktur beibehalten) für JSON, XML und ALTOXML können nicht voneinander abweichen. Wenn Sie für eines dieser Formate eine andere Exportoption festlegen, wird diese Option auf die anderen Formate übertragen.
  • PDF:
    • PDF/A-3a (Standardformat für den PDF-Export)
    • PDF/A-3b
    • Nur Bild. Nicht bearbeitbares PDF im Standard PDF/A-3b
Hinweis: Wählen Sie für jede PDF-Exportoption zwischen „kleinerer Dateigröße“ (Standardoption) und „maximaler Qualität“. Eine kleinere Dateigröße wird durch Mixed Raster Content (MRC)-Kompression erreicht, die optimale Kompressionsraten separat für Text, Bilder und Hintergrund festlegt.
  • TXT
  • DOCX (Microsoft Word):
    • Bearbeitbar. Die exportierte DOCX-Datei bewahrt das ursprüngliche Format und den Textfluss und erlaubt gleichzeitig eine einfache Bearbeitung. Das Ausgabedokument kann vom ursprünglichen Bild abweichen.
    • Exakt. Die exportierte DOCX-Datei erhält die Formatierung des ursprünglichen Dokuments. Dies kann die Änderungsmöglichkeiten am Text und an der Formatierung des Ausgabedokuments einschränken.
  • XLSX (Microsoft Excel)
  • TIFF
  • JPEG:
    • Maximale Qualität. Die exportierte Datei enthält ein JPEG mit einer Kompressionsstufe von 95 %.
    • Reduzierte Größe. Die exportierte Datei enthält ein JPEG mit einer Kompressionsstufe von 75 %.
  • PPTX (Microsoft PowerPoint)
  • HTML