Vai al contenuto principale

Funzionalità di base dell’analisi dei documenti

L’analisi dei documenti è un insieme di funzioni per il rilevamento automatico dei seguenti oggetti in una pagina:
  • Blocchi di testo
  • Immagini
  • Tabelle e celle di tabella
  • Barcode
  • Separatori
Inoltre, l’analisi dei documenti offre alcune funzionalità speciali per preparare l’immagine per l’Optical Character Recognition (OCR):
  • rilevamento dell’orientamento della pagina: 90, 180 e 270 gradi
  • suddivisione delle doppie pagine
  • rilevamento del testo verticale nelle celle di tabella
  • rilevamento e marcatura dei blocchi di disturbo nella pagina
Questa preparazione è fondamentale per specificare quali field nella pagina devono essere riconosciuti e quali elementi devono essere mantenuti nella forma originale. Inoltre, è possibile selezionare manualmente il field da riconoscere. In questo caso, è necessario impostare le coordinate del field e il tipo di dati che contiene. Questa modalità viene utilizzata principalmente nello scenario riconoscimento a livello di field per l’acquisizione dei dati. ABBYY FineReader Engine 12 offre 3 tipi automatici e 1 tipo manuale di analisi dei documenti:

Analisi generale dei documenti

È il tipo di analisi dei documenti predefinito, che rileva tutti gli oggetti: blocchi di testo, immagini, tabelle, barcode e separatori. I risultati di questa analisi vengono utilizzati per ottenere la struttura e il layout del documento nello scenario di riutilizzo del contenuto. Tutte le immagini e i diagrammi vengono mantenuti nella forma originale, senza riconoscerne il testo.

Analisi dei documenti per le fatture

Si tratta di un motore di pre-elaborazione per la conversione di documenti semi-strutturati, come fatture, disposizioni di pagamento, bollette, lettere di vettura, biglietti da visita, contratti, moduli di richiesta di rimborso sanitario, curriculum vitae, ecc. È stato progettato per individuare con precisione tutto il testo presente in questi documenti, inclusi caratteri e numeri, anche quando tali informazioni si trovano all’interno di timbri, immagini, loghi o aree con testo di piccole dimensioni. A differenza dell’analisi standard dell’intera pagina del documento, questa modalità presuppone che tutte le informazioni stampate nei documenti siano testo. Garantisce inoltre che le informazioni testuali importanti non vengano identificate come elementi grafici e che parole o valori numerici non vengano suddivisi in più caratteri. Di conseguenza, nelle fasi successive di elaborazione da parte di altri sistemi è disponibile la massima quantità possibile di informazioni sul testo, comprese le relative coordinate, per l’analisi, l’elaborazione field-by-field e il parsing.

Analisi dei documenti per l’indicizzazione full-text

Rileva e riconosce automaticamente tutto il testo presente nei documenti, compreso quello incorporato in immagini, grafici e diagrammi. Gli sviluppatori possono utilizzare questa modalità di analisi dei documenti per estrarre tutte le informazioni di testo completo necessarie alla creazione di un indice documentale (come nei sistemi DMS, CMS e di archiviazione). intro_KeyFeatures_DocumentAnalysis

Specifica manuale dei blocchi per il riconoscimento a livello di field

Questo caso non richiede alcuna analisi perché il field di riconoscimento è definito direttamente dall’utente o dall’applicazione. Recognizer riceve le coordinate del field e il tipo di testo, ed esegue l’OCR nell’area specificata.

Vedi anche

Funzionalità principali