Vai al contenuto principale
Quando ABBYY Vantage elabora un documento PDF, deve decidere come estrarre il testo. I PDF possono contenere un livello di testo incorporato (testo ricercabile incorporato direttamente nel file) oppure essere file composti solo da immagini, che richiedono il riconoscimento ottico dei caratteri (OCR) per estrarre il testo. L’impostazione Modalità di elaborazione PDF ti offre un controllo diretto sul metodo utilizzato da Vantage. È particolarmente utile quando:
  • Operi in settori regolamentati in cui sono richieste la riproducibilità e la verificabilità dei risultati di estrazione.
  • Il tuo insieme di documenti contiene PDF con livelli di testo incorporati di bassa qualità o inaffidabili, per i quali l’OCR produrrebbe risultati migliori.
  • Stai migrando da ABBYY FlexiCapture e devi replicare il comportamento di elaborazione dei workflow esistenti.
  • Hai bisogno di un comportamento di elaborazione coerente e prevedibile per tutti i documenti, indipendentemente dal loro contenuto.

Modalità disponibili

ModalitàDescrizioneQuando usarla
Predefinita (consigliata)Usa il livello di testo PDF incorporato quando disponibile e lo integra con OCR, se necessario. Questo è il comportamento di elaborazione standard di Vantage.Uso generale. Consigliata per la maggior parte dei set di documenti con un mix di PDF con livello di testo e PDF composti solo da immagini.
Usa solo il livello di testoEstrae il testo esclusivamente dal livello di testo PDF incorporato. Se non esiste alcun livello di testo, Vantage ricorre automaticamente all’OCR.Da utilizzare quando si dispone di livelli di testo affidabili e di alta qualità e si desidera un’estrazione più rapida senza OCR completo. Utile in ambienti regolamentati in cui il livello di testo esistente è la fonte autorevole.
Usa solo OCRIgnora qualsiasi livello di testo PDF incorporato ed esegue un OCR completo su ogni pagina del documento.Da utilizzare quando i livelli di testo PDF sono noti per essere inaffidabili o corrotti, oppure quando è necessaria un’estrazione coerente basata su OCR per tutti i documenti, indipendentemente dalla loro struttura.

Scenari di esempio

Gli esempi seguenti mostrano situazioni tipiche in cui ciascuna modalità rappresenta la scelta migliore.
La tua organizzazione elabora fatture PDF create digitalmente ed esportate dal sistema ERP di un fornitore. Il livello di testo incorporato è accurato e generato automaticamente. L’opzione Usa solo il livello di testo consente un’estrazione rapida e affidabile senza eseguire OCR non necessario.
Elabori, nello stesso workflow, un volume elevato e diversificato di documenti cartacei acquisiti tramite scansione e PDF creati digitalmente. Alcuni file hanno livelli di testo puliti, altri no. Predefinita (consigliata) gestisce automaticamente entrambi i casi senza richiedere alcuna configurazione per singolo documento.
Il tuo document set è costituito da PDF prodotti da un sistema di scansione legacy che incorpora un livello di testo di bassa qualità durante la scansione. Questo livello incorporato contiene errori di riconoscimento che compromettono l’estrazione dei field. Usa solo OCR lo ignora completamente ed estrae testo pulito direttamente dall’immagine della pagina.
Lavori in un settore regolamentato, come i servizi finanziari o la sanità, in cui i risultati dell’estrazione devono essere completamente riproducibili e verificabili. Impostare la modalità su Usa solo il livello di testo oppure Usa solo OCR garantisce che venga sempre utilizzato lo stesso percorso di elaborazione, indipendentemente dal modo in cui arrivano i documenti.

Dove configurare

L’impostazione Modalità di elaborazione PDF è disponibile nelle seguenti posizioni:
  • impostazioni della skill OCR — scheda General, sezione Image Processing
  • impostazioni dell’attività OCR all’interno di una Process skill — scheda General, sezione Image Processing

Versioni supportate di Technology Core

Modalità di elaborazione PDF è supportato per le skills che utilizzano Technology Core 3. Non è disponibile per le versioni precedenti di Technology Core.