Vai al contenuto principale
Per creare una skill OCR, seguire questi passaggi:
  1. Nello Skill Catalog, fare clic sul pulsante Create nella barra degli strumenti.
  2. Selezionare il tipo di skill OCR Skill. Si apre la finestra di dialogo Create OCR Skill.
  3. Nella scheda General, inserire un nome e una descrizione per la nuova skill.
  4. Nella scheda Languages:
    a. Nella sezione Allowed Languages, selezionare una o più lingue di riconoscimento del documento. Durante l’elaborazione, la lingua del documento verrà scelta automaticamente tra quelle specificate in fase di configurazione. Si noti che il numero di lingue selezionate può influire sulla velocità e sulla qualità del riconoscimento.
    b. Se il documento contiene testo scritto a mano, abilitare l’opzione Handwritten nella sezione Text Appearance.
  5. Nella scheda Image Enhancements, Crop Image e Correct Page Orientation sono abilitate per impostazione predefinita. Facoltativamente, disattivare queste funzionalità se i documenti non ne richiedono l’uso.
    Crop Image ritaglia l’immagine fino ai bordi del documento originale. Correct page orientation ruota automaticamente l’immagine per ripristinarne l’orientamento originale.
  6. Nella scheda Barcodes, abilitare i tipi di codici a barre che possono comparire nei documenti. Il numero di tipi di codici a barre selezionati può influire sulla velocità del riconoscimento.
    Importante! Se si elaborano più file di documenti utilizzando una skill OCR come parte di un’unica transaction, tutti i file verranno uniti in uno. Di conseguenza, il numero di file di output sarà identico al numero specificato di formati di esportazione.
  7. Nella scheda Export, selezionare uno o più formati di esportazione dei documenti. Per ulteriori informazioni, vedere Available Export Formats.

Formati di esportazione disponibili

  • JSON (formato predefinito):
    • Solo testo (opzione predefinita). Il file JSON esportato conterrà solo il testo riconosciuto senza preservare il layout del documento. Se si seleziona Solo testo, non è possibile esportare in DOCX, XLSX e PPTX.
    • Preserva la struttura del documento. Il file JSON esportato conterrà il testo riconosciuto e verrà preservato anche il layout del documento.
  • XML:
    • Solo testo. Il file XML esportato conterrà solo il testo riconosciuto. Il layout del documento non verrà preservato. Se si seleziona Solo testo, non è possibile esportare in DOCX, XLSX e PPTX.
    • Preserva la struttura del documento. Il file XML esportato conterrà il testo riconosciuto e verrà preservato il layout del documento.
  • ALTOXML:
    • Solo testo. Il file ALTO XML esportato conterrà solo il testo riconosciuto; il layout del documento non verrà preservato. Se si seleziona Solo testo, non è possibile esportare in DOCX, XLSX e PPTX.
    • Preserva la struttura del documento. Il file ALTO XML esportato conterrà il testo riconosciuto e verrà preservato il layout del documento.
Importante! Le opzioni di esportazione (Solo testo e Preserva la struttura del documento) per JSON, XML e ALTOXML devono essere le stesse. Se si specifica un’altra opzione di esportazione per uno di questi formati, la stessa verrà applicata anche agli altri.
  • PDF:
    • PDF/A-3a (formato di esportazione PDF predefinito)
    • PDF/A-3b
    • Solo immagine. PDF non modificabile conforme allo standard PDF/A-3b
Suggerimento: Per ciascuna opzione di esportazione PDF, scegliere tra “dimensioni del file ridotte” (opzione predefinita) e “massima qualità”. La riduzione delle dimensioni del file è ottenuta tramite la compressione Mixed Raster Content (MRC), che determina tassi di compressione ottimali separatamente per il testo, le immagini e lo sfondo.
  • TXT
  • DOCX (Microsoft Word):
    • Modificabile. Il file DOCX esportato preserva il formato originale e il flusso del testo, consentendo al contempo modifiche agevoli. Il documento di output potrebbe differire dall’immagine originale.
    • Esatto. Il file DOCX esportato mantiene la formattazione del documento originale. Ciò può limitare le modifiche apportabili al testo e alla formattazione del documento di output.
  • XLSX (Microsoft Excel)
  • TIFF
  • JPEG:
    • Qualità massima. Il file esportato contiene un JPEG con un livello di compressione del 95%.
    • Dimensioni ridotte. Il file esportato contiene un JPEG con un livello di compressione del 75%.
  • PPTX (Microsoft PowerPoint)
  • HTML