Employer Identification Number (EIN) e altre tecnologie di riconoscimento

Employer Identification Number (EIN)

Tecnologia OCR: il riconoscimento del testo stampato è disponibile per 211 lingue, tra cui:
- Lingue europee (alfabeti latino, cirillico, armeno e greco)
- Cinese (semplificato e tradizionale), giapponese e coreano (CJK)
- Arabo, thai, vietnamita, ebraico e farsi
- Birmano — anteprima tecnica
- FineReader XIX — un modulo OCR progettato specificamente per la digitalizzazione e l’archiviazione di vecchi documenti, libri e giornali pubblicati tra il XVII e il XX secolo, molti dei quali rari e unici. Conservati negli archivi storici di biblioteche e organizzazioni governative, costituiscono un patrimonio nazionale che deve essere preservato. FineReader XIX offre una capacità unica di riconoscere testi pubblicati nel periodo dal 1600 al 1937 in inglese, francese, tedesco, italiano e spagnolo. Supporta il riconoscimento di caratteri antichi come Fraktur, Schwabacher e della maggior parte dei caratteri gotici.

56 lingue dispongono del supporto di dizionario e analisi morfologica, che migliora significativamente l’accuratezza dell’OCR.
La funzionalità di riconoscimento di documenti multilingue consente di riconoscere più lingue, ad esempio tedesco e cinese oppure inglese, russo e coreano, nello stesso documento.
Riconoscimento di documenti stampati con stampanti ad aghi — ABBYY FineReader Engine riconosce testi stampati con stampanti ad aghi di molti tipi. È stato addestrato utilizzando diverse migliaia di campioni prodotti da una varietà di stampanti, tra cui stampanti ad aghi, a margherita, a catena e a nastro, nonché con le modalità di stampa draft e Near Letter Quality (NLQ).
Riconoscimento di documenti dattiloscritti.
Riconoscimento dei caratteri OCR-A, OCR-B, MICR (E13B) e CMC7.

Consulta l’elenco completo delle lingue supportate e i tipi di testo.

Riconoscimento intelligente dei caratteri (ICR)

Tecnologia ICR: riconoscimento di caratteri manoscritti in stampatello per oltre 126 lingue.
39 lingue (con alfabeti latino, greco e cirillico) con supporto morfologico e del dizionario.
ICR per le cifre indiane utilizzate negli Stati arabi.
30 stili regionali di scrittura in stampatello a mano utilizzati in diversi Paesi e regioni del mondo (per le lingue ICR supportate).
Riconoscimento di caratteri manoscritti in stampatello in field e riquadri: field sottolineati, caselle, field in stile comb, ecc.
ICR multilingue. Uno dei principali vantaggi della tecnologia ICR di ABBYY è che offre praticamente lo stesso elevato livello di accuratezza sul riconoscimento di cifre e di cifre combinate con lettere di una o più lingue, anche se i field contengono sia lettere maiuscole sia minuscole.

Optical Mark Recognition (OMR)

La tecnologia OMR di ABBYY riconosce semplici segni di spunta, segni di spunta raggruppati, segni di spunta campione e segni di spunta con “correzioni” apportate a mano, in diverse varianti:

segni di spunta in una cornice quadrata
segni di spunta su sfondo vuoto
tipi di segni di spunta non standard (i segni di spunta speciali richiedono un addestramento prima di poter essere riconosciuti)

L’OMR offre un livello di accuratezza del 99,995 %

Riconoscimento ottico dei barcode (OBR)

Tipi di barcode 1D e 2D. ABBYY OCR SDK supporta il riconoscimento dei tipi più comuni di barcode 1D e 2D. Vedi l’elenco dei tipi di barcode supportati.
Estrazione rapida dei barcode. Questa funzionalità consente il rilevamento e il riconoscimento automatici dei barcode con qualsiasi orientamento all’interno di un documento. Funziona sia con i barcode 1D che con quelli 2D

Modalità di riconoscimento

Con le modalità di elaborazione predefinite del motore, gli sviluppatori possono configurare rapidamente e regolare la velocità e l’accuratezza di elaborazione nel modo più adatto alle proprie esigenze. Oltre alla modalità di elaborazione predefinita, sia il riconoscimento OCR sia quello ICR possono essere eseguiti nelle modalità di riconoscimento Normal, Fast e Accurate:

Modalità di riconoscimento Accurate

È la modalità più accurata per ottenere la massima qualità di riconoscimento. Questa modalità è altamente consigliata se si prevede di riutilizzare il contenuto riconosciuto e in altri casi in cui l’accuratezza è un fattore di importanza critica.

Modalità di riconoscimento Fast

È progettata per l’elaborazione di grandi volumi di documenti e per i casi in cui la velocità è il fattore principale. Questa modalità aumenta la velocità di elaborazione del 200-250%, rendendo la tecnologia ideale per l’uso in sistemi di gestione dei contenuti (CMS), gestione documentale (DMS) e archiviazione.

Modalità di riconoscimento Normal

Imposta valori intermedi di accuratezza e velocità di riconoscimento tra le modalità Accurate e Fast. In generale, offre una velocità maggiore con un livello di accuratezza pressoché uguale a quello della modalità Accurate.

Riconoscimento full-text e a livello di field

Esistono due tipi di riconoscimento che possono essere distinti: il riconoscimento full-text e il riconoscimento a livello di field. La differenza principale è che il riconoscimento full-text di solito include la tecnologia OCR ed è utilizzato per la conversione dei documenti. Il riconoscimento a livello di field include OCR, ICR e altre tecnologie utilizzate in aree localizzate per riconoscere ed estrarre dati specifici. La tabella seguente mostra le specifiche di questi tipi di riconoscimento:

Specifica	Riconoscimento full-text	Riconoscimento a livello di field
Dove viene utilizzato	Conversione di documenti, archiviazione di libri	Acquisizione dati
---	---	---
Analisi del documento	Analisi generale del documento, analisi del documento per le fatture, analisi del documento per l’indicizzazione full-text	Specifica manuale dei blocchi per il riconoscimento a livello di field
Riconoscimento	OCR con accuratezza generale di circa il 96-99%	OCR, ICR, OMR e riconoscimento di Barcode con tipi di dati e intervalli di valori predefiniti. L’accuratezza è di circa il 100%
Verifica	Consigliata per il riutilizzo dei contenuti	Obbligatoria nella maggior parte dei casi
Sintesi	Utilizzata per il recupero dei documenti	Non utilizzata
Esportazione dei risultati del riconoscimento	File di documento (RTF, DOCX, PDF, ecc.)	Esportazione in file XML o database

Riconoscimento full-text Il riconoscimento full-text è un tipo di riconoscimento di base per diversi scenari, ad esempio:

Archiviazione di documenti
Conversione di documenti per il riutilizzo dei contenuti
Estrazione del testo di base per il rilevamento dei field e la classificazione dei documenti

Tutti questi scenari richiedono il riconoscimento (OCR) dell’intero testo del documento (pagina). Prima del riconoscimento, l’analisi del documento in genere esegue la suddivisione e il corretto orientamento delle pagine, nonché il rilevamento dei blocchi di testo, delle immagini e di altri oggetti. Successivamente, dopo l’OCR, la sintesi del documento ricostruisce la struttura e il layout del documento (per lo scenario di riutilizzo dei contenuti) oppure recupera semplicemente il corretto ordine del testo per documenti complessi con più colonne di testo e immagini (per lo scenario di archiviazione). Il testo risultante viene esportato, a seconda dello scenario, come testo semplice o come documento in un formato supportato. Il testo può essere verificato manualmente per aumentarne l’accuratezza, soprattutto in vista di un riutilizzo futuro. Riconoscimento a livello di field ABBYY FineReader Engine 12 offre funzionalità complete di riconoscimento a livello di field per supportare processi aziendali chiave, come l’elaborazione di moduli, la classificazione per parole chiave e l’indicizzazione per parole chiave. Le potenti funzioni di elaborazione delle immagini aumentano la capacità di rilevare in modo intelligente piccole aree di qualsiasi qualità, con qualsiasi tipo di caratteristica grafica che possa influire sull’accuratezza del riconoscimento (ad esempio testo sottolineato, disturbi introdotti dalla scansione, spazi nel testo, ecc.). Le funzionalità principali per il riconoscimento a livello di field o zonale includono OCR e ICR multilingue, OMR, riconoscimento di Barcode e una serie di funzioni specifiche, quali:

Estrazione di dati da field con vari bordi e cornici, inclusi combo box, field sottolineati, riquadri e persino field in cui i dati non rientrano nei bordi del field
Definizione del contenuto del field impostando alfabeti, dizionari, espressioni regolari, tipi di segmentazione, stili di scrittura a mano (solo Windows), ecc.
Rilevamento della spaziatura all’interno del field, con riconoscimento accurato dei field in cui gli spazi sono consentiti. ABBYY FineReader Engine 12 consente inoltre di utilizzare dizionari che contengono combinazioni di parole con spazi
Elaborazione intelligente di blocchi con parti e linee intersecanti, che consente il riconoscimento del testo (parole e simboli) situato interamente entro i bordi del blocco, risparmiando il tempo dedicato al riconoscimento di blocchi di testo non pertinenti
Rimozione dei puntini dai blocchi di testo, con la possibilità di specificare la dimensione del “disturbo” bianco o nero

Il riconoscimento a livello di field è supportato dagli strumenti speciali dell’Engine per gli sviluppatori, come Voting API e ottimizzazione del riconoscimento “On-the-Fly”. Per i dettagli, vedere Strumenti di sviluppo avanzati.

Lingue utente

ABBYY FineReader Engine fornisce un’API per creare e modificare le lingue di riconoscimento, creare copie di lingue di riconoscimento predefinite e personalizzarle, nonché aggiungere nuove parole alle lingue utente. Ad esempio, se un documento contiene “strutture” come codici prodotto, numeri di telefono, numeri di passaporto ecc., possono verificarsi errori di riconoscimento. Questo accade perché il programma legge queste strutture lettera per lettera. Per migliorare il riconoscimento dei codici prodotto e simili, puoi creare una nuova lingua di riconoscimento che aiuterà il programma a leggere correttamente specifici tipi di dati. Di seguito sono riportati due esempi che mostrano come le lingue utente possano contribuire a migliorare la qualità del riconoscimento:

Nei documenti compilati a mano, i valori nei field del modulo appartengono solitamente a un insieme specifico, come nomi di città, paesi, codici postali, codici prodotto, importi ecc. Per migliorare la qualità del riconoscimento ICR, puoi usare le lingue utente per descrivere le informazioni che possono essere inserite in ciascun field.
Se un documento contiene “strutture” come codici prodotto, numeri di telefono, numeri di passaporto ecc., possono verificarsi errori di riconoscimento. Questo accade perché il programma legge queste strutture lettera per lettera. Per migliorare il riconoscimento dei codici prodotto e simili, puoi creare una nuova lingua di riconoscimento che aiuterà il programma a leggere correttamente specifici tipi di dati.

Addestramento dei pattern

Nella stragrande maggioranza dei casi, ABBYY FineReader Engine è in grado di leggere correttamente i testi senza alcun addestramento preliminare. Tuttavia, in casi quali il riconoscimento di caratteri decorativi o contornati oppure l’elaborazione in massa di documenti con scarsa qualità di stampa, un preliminare addestramento dei pattern può rivelarsi utile. L’OCR SDK consente di creare e utilizzare pattern utente direttamente tramite API. È possibile addestrare i pattern caricando immagini e associando i caratteri corrispondenti.

Vedi anche

Funzionalità principali Tour guidato per l’addestramento dei pattern utente - Solo per Windows Strumenti di sviluppo avanzati

Panoramica

Principali nuove funzionalità

Employer Identification Number (EIN) e altre tecnologie di riconoscimento