Nuove funzionalità principali

Confronto tra documenti

Nuovo modulo “Confronta documenti”	Per verificare rapidamente l’integrità del documento, il nuovo modulo “Confronta documenti” di ABBYY FineReader Engine consente di rilevare le differenze di contenuto tra due versioni dello stesso documento.
Confronto di documenti bilingui	La nuova opzione del modulo “Confronta documenti” consente di rilevare automaticamente la natura bilingue di questo tipo di documento e il suo layout complesso, nonché di confrontare separatamente ogni colonna (e quindi ogni versione linguistica).

Importazione di formati Office in Linux e Windows

Elaborazione dei documenti Office

Oltre ad un’ampia gamma di formati immagine, FineReader Engine può ora elaborare anche documenti in ingresso creati in uno dei formati Office:

Documenti di testo: .doc, .docx, .rtf, .htm / .html, .txt, .odt
Tabelle: .xls, .xlsx, .ods
Presentazioni: .ppt, .pptx, .odp

Apertura di documenti Office dalla memoria

Il nuovo metodo per aprire file Microsoft Office e Apache OpenOffice direttamente dalla memoria consente di velocizzare la fase di importazione dei documenti, accelerando così l’intero processo di elaborazione.

Acquisizione MRZ

Acquisizione dei dati da una zona a lettura ottica (MRZ)	La nuova funzionalità consente l’estrazione automatica dei dati dalla zona a lettura ottica (MRZ) nei documenti di identità, velocizzando l’inserimento e la verifica dei dati personali durante l’onboarding dei clienti o i processi di verifica.

OCR giapponese migliorato

Precisione di riconoscimento ai massimi livelli	Con la nuova versione di ABBYY Fine Reader Engine, l’OCR giapponese ha compiuto notevoli progressi, portando la precisione di riconoscimento a un livello finora irraggiungibile per la maggior parte delle soluzioni.

OCR arabo migliorato

Riconoscimento end-to-end dell’arabo su immagini di scarsa qualità	OCR arabo su immagini di bassa qualità, dove le tecnologie generiche forniscono risultati poco affidabili e con molti errori.

OCR coreano migliorato

Modello linguistico di deep learning per il coreano	Un modello addestrato per la lingua coreana seleziona la migliore variante di riconoscimento delle parole tra le ipotesi disponibili o ne genera addirittura di nuove in base al contesto di riconoscimento (parole precedenti e successive).

Nuove tecnologie OCR basate su reti neurali

Miglioramenti nelle tecnologie OCR

Grazie agli approcci basati su reti neurali nelle tecnologie OCR, ABBYY FineReader Engine è stato migliorato con il supporto all’elaborazione di simboli latini manoscritti e in stampatello:

Modello linguistico per una selezione coerente e accurata delle varianti di parola
Riconoscimento end-to-end per gli alfabeti latini, per elaborare documenti multilingue

Tecnologia di riconoscimento dei Barcode basata sul machine learning

L’architettura della rete neurale introduce un nuovo modello di riconoscimento dei Barcode che rileva la regione approssimativa di un Barcode, ne esegue la classificazione e restituisce un output rappresentato come una regione con il tipo di Barcode più probabile.

Nuova modalità di riconoscimento

La nuova modalità Accurate consente di ottenere la massima qualità del documento di output, a fronte di un ragionevole rallentamento della velocità di riconoscimento. Questa modalità è particolarmente adatta per fatture, contratti, ricevute e carte d’identità di bassa qualità o generate a partire da foto.

Miglioramenti della qualità dell’OCR per il testo vicino a timbri e firme

Rilevamento del testo vicino a timbri e firme	Quando un accordo contiene timbri o firme, il testo adiacente viene riconosciuto separatamente, migliorando così la qualità dei documenti elaborati.

Nuove opzioni di gestione delle licenze

Uso della licenza online in modalità Network e Standalone	La Guida per gli sviluppatori di FineReader Engine 12 è stata arricchita con ulteriori informazioni sulle diverse possibilità di licenza dell’SDK, con una tabella comparativa di facile consultazione che descrive i singoli tipi di opzioni di gestione delle licenze.
Uso dei periodi di tolleranza	Con la nuova opzione, i clienti possono utilizzare la licenza ABBYY FineReader Engine per un certo periodo dopo la data di scadenza, estendendone così il periodo di validità.

Tecnologie ICR e OMR nelle versioni Linux e macOS

Riconoscimento del testo manoscritto e dei segni di spunta	Con ABBYY FineReader Engine 12, è possibile riconoscere caratteri manoscritti, in stampatello e segni di spunta di vario tipo. Le tecnologie ICR e OMR sono implementate per estrarre dati da documenti manoscritti e sviluppare nuove soluzioni di estrazione dei dati.

Possibilità di eseguire Engine in ambienti cloud

Nuove opzioni di distribuzione	Il nuovo tipo di licenza consente la distribuzione in ambienti virtuali e cloud, permettendo di offrire una gamma più ampia di soluzioni. Il meccanismo di licenza richiede una connessione a Internet e supporta i server proxy. <Note> Applicabile a FineReader Engine per Linux e Windows. </Note>

Wrapper .NET Core in FRE per Windows

Nuovo framework di sviluppo	Per aumentare l’efficienza dei team di sviluppo che utilizzano container e altri ambienti nativi nei moderni processi di sviluppo e distribuzione del software, ABBYY FineReader Engine offre ora un wrapper .NET Core 6 precompilato.

Nuove librerie in ABBYY FineReader Engine

Utilizzo della libreria NeoML	NeoML è un framework open source end-to-end di machine learning che consente di creare, addestrare e distribuire modelli di machine learning. Questo framework viene utilizzato dagli ingegneri per attività di computer vision ed elaborazione del linguaggio naturale, tra cui la preelaborazione delle immagini, la classificazione, l’analisi del layout dei documenti, Optical Character Recognition (OCR) e l’estrazione dei dati da documenti strutturati e non strutturati.
PDFium incorporato per l’elaborazione dei PDF	PDFium è una libreria nativa multipiattaforma conforme agli standard PDF e gestisce tutte le operazioni relative ai PDF, inclusi elaborazione, parsing, rendering e generazione dell’output.

Classificazione dei documenti migliorata

Classificazione dei documenti tramite NLP e Machine Learning	Con ABBYY FineReader Engine 12, i documenti in ingresso possono essere smistati automaticamente in diverse categorie. Le tecnologie di machine learning, OCR ed elaborazione del linguaggio naturale vengono impiegate per addestrare i classificatori basati su immagini e testo utilizzando documenti rappresentativi. Le informazioni ottenute vengono quindi utilizzate durante la fase di classificazione.
Classificatore basato sul testo: sicurezza avanzata dei dati di addestramento	Per addestrare e ottimizzare il classificatore basato sul testo, è necessario importare documenti che rappresentino ciascuna categoria di documenti. Per proteggere i dati contenuti in questi documenti, gli algoritmi di hashing implementati impediscono il recupero di informazioni dai documenti di esempio.
Demo Sample di classificazione migliorato	ABBYY FineReader Engine è in grado di elaborare PDF, immagini di documenti scansionati o fotografati, nonché documenti nei formati Office. Per riflettere questa capacità nel processo di classificazione, il Demo Sample precompilato fornito per la classificazione è stato migliorato e ora consente di importare documenti Office oltre a PDF e formati immagine.

Esempio di codice per l’interfaccia a riga di comando (CLI)

Esempio di codice pronto all’uso	Con questo esempio di codice, gli sviluppatori possono utilizzare in modo efficiente le librerie di ABBYY FineReader Engine e integrare funzionalità di elaborazione documentale in applicazioni da riga di comando.

Implementazione dell’estrattore di metadati PDF

Elaborazione di file PDF nativi digitali	AuxInfo è un oggetto aggiuntivo di PDFium che fornisce informazioni sui metadati di un file PDF. Il team ABBYY R&D PDFTools ha implementato un proprio oggetto AuxInfo compatibile con PDFium.

Elaborazione PDF migliorata

Miglioramenti per i PDF con contenuti
”misti”

ABBYY FineReader Engine offre nuove funzionalità per l’elaborazione di documenti PDF contenenti sia pagine solo immagine sia pagine native digitali:

Riconoscimento adattivo per migliorare e velocizzare l’elaborazione dei PDF
Classificatore della qualità del livello di testo per mantenere quello di buona qualità nel formato di output
Indicazione della presenza di una firma digitale nel PDF
Nuova modalità di riutilizzo dei contenuti per l’elaborazione di documenti con contenuti misti

Utilizzo di contenuti aggiuntivi nei PDF

Per garantire una composizione più flessibile del contenuto PDF, ABBYY FineReader Engine offre nuove opzioni:

Apertura di PDF Portfolio ed elaborazione del relativo contenuto
Aggiunta di immagini personalizzate al PDF di output e gestione della loro posizione

Supporto aggiuntivo per le lingue

OCR farsi	ABBYY FineReader Engine include opzioni di riconoscimento del farsi aggiornate e migliorate, aprendo la strada a un lavoro più efficace con documenti provenienti dall’Iran, dall’Afghanistan e da molti altri paesi del Medio Oriente.
OCR georgiano	La lingua georgiana è stata aggiunta come nuova lingua OCR.
OCR per formule matematiche semplici	L’estrazione dei caratteri di semplici formule matematiche consente un migliore riconoscimento dei documenti scientifici che contengono semplici formule matematiche su una sola riga all’interno del testo.
Anteprima tecnica per l’OCR birmano	L’OCR birmano è stato aggiunto come anteprima tecnica per mostrare funzionalità future.
Lingue speciali per l’estrazione di date arabe e giapponesi	FineReader Engine for Windows supporta lingue speciali per il riconoscimento dei field. La nuova versione aggiunge un riconoscimento delle date migliorato in arabo e giapponese.
Anteprima tecnica per l’OCR bangla	L’OCR bangla è stato aggiunto come anteprima tecnica per dimostrare le funzionalità potenziali.

Ricostruzione migliorata dell’impaginazione del documento

Ricostruzione migliorata delle tabelle	Con ABBYY FineReader Engine 12, le tabelle estratte dai documenti preservano la formattazione meglio che mai.
Rilevamento e ricostruzione di colonne bilanciate	Quando un documento contiene colonne di testo bilanciate (ad esempio contratti, pubblicazioni scientifiche, articoli, ecc.), la struttura originale viene ora mantenuta intatta, semplificando così l’elaborazione del documento.
Nuovo modello di documento “a colonna singola”	I principali miglioramenti del nuovo algoritmo riguardano il rilevamento e l’analisi di tabelle e grafici.
Analisi avanzata della struttura delle tabelle	Grazie al meccanismo migliorato di conversione dei documenti, ABBYY FineReader Engine è in grado di rilevare tabelle con colonne di numeri nel formato “Contabilità”.

Ottimizzazione dei processi interni per un’elaborazione più rapida

Nuovo schema di iterazione dell’oggetto ILayout	Un nuovo schema che accelera l’iterazione dell’oggetto ILayout ottenuto dopo aver elaborato il documento al di fuori del processo principale. <Note> Applicabile a FineReader Engine per Linux e Windows. </Note>

Nuove opzioni di scansione in FRE per Windows

Funzionalità di scansione avanzate

ABBYY FineReader Engine 12 offre numerose funzionalità di scansione a livello di dispositivo:

eliminazione automatica delle pagine vuote dal documento
ritaglio automatico della Pagina
correzione automatica dell’inclinazione
rilevamento automatico della modalità colore

Documentazione online

Documentazione disponibile online	Oltre alla documentazione integrata, ora è possibile utilizzare la versione online, che fornisce informazioni contestuali sulle funzionalità e le capacità di ABBYY FineReader Engine.

Versioni più recenti di .NET Framework in FRE per Windows

Supporto dei wrapper COM Interop .NET

Il pacchetto di distribuzione ora include i wrapper COM Interop .NET per le seguenti versioni di .NET Framework:

3.5 SP1
4.6
4.7
4.8

Nuovi formati di esportazione

JSON	JSON (JavaScript Object Notation) è un formato di file aperto e indipendente dal linguaggio, usato per trasmettere oggetti di dati costituiti da coppie attributo-valore e tipi di dati array. FineReader Engine ora supporta l’esportazione dei risultati OCR in formato JSON.
Nuove versioni di ALTO	ALTO (Analyzed Layout and Text Object) è uno schema XML che definisce metadati tecnici per descrivere il layout e il contenuto di risorse testuali fisiche, come le pagine di un libro o di un giornale. Le versioni più recenti di questo schema (4.0, 4.1, 4.2) sono supportate in FineReader Engine 12.
PDF/A-2b e PDF/A-3b	PDF/A è una versione standardizzata ISO del Portable Document Format (PDF), specifica per l’archiviazione e la conservazione a lungo termine dei documenti elettronici. FineReader Engine ora supporta tutti i livelli di conformità PDF/A.

Panoramica

Principali nuove funzionalità

Confronto tra documenti

Importazione di formati Office in Linux e Windows

Acquisizione MRZ

OCR giapponese migliorato

OCR arabo migliorato

OCR coreano migliorato

Miglioramenti della qualità dell’OCR per il testo vicino a timbri e firme

Nuove opzioni di gestione delle licenze

Tecnologie ICR e OMR nelle versioni Linux e macOS

Esempio di codice per l’interfaccia a riga di comando (CLI)

Elaborazione PDF migliorata

Ricostruzione migliorata dell’impaginazione del documento

Ottimizzazione dei processi interni per un’elaborazione più rapida

Nuove opzioni di scansione in FRE per Windows

Versioni più recenti di .NET Framework in FRE per Windows

Funzionalità complete

Panoramica

Principali nuove funzionalità

​Confronto tra documenti

​Importazione di formati Office in Linux e Windows

​Acquisizione MRZ

​OCR giapponese migliorato

​OCR arabo migliorato

​OCR coreano migliorato

​Miglioramenti della qualità dell’OCR per il testo vicino a timbri e firme

​Nuove opzioni di gestione delle licenze

​Tecnologie ICR e OMR nelle versioni Linux e macOS

​Esempio di codice per l’interfaccia a riga di comando (CLI)

​Elaborazione PDF migliorata

​Ricostruzione migliorata dell’impaginazione del documento

​Ottimizzazione dei processi interni per un’elaborazione più rapida

​Nuove opzioni di scansione in FRE per Windows

​Versioni più recenti di .NET Framework in FRE per Windows

​Funzionalità complete

Confronto tra documenti

Importazione di formati Office in Linux e Windows

Acquisizione MRZ

OCR giapponese migliorato

OCR arabo migliorato

OCR coreano migliorato

Miglioramenti della qualità dell’OCR per il testo vicino a timbri e firme

Nuove opzioni di gestione delle licenze

Tecnologie ICR e OMR nelle versioni Linux e macOS

Esempio di codice per l’interfaccia a riga di comando (CLI)

Elaborazione PDF migliorata

Ricostruzione migliorata dell’impaginazione del documento

Ottimizzazione dei processi interni per un’elaborazione più rapida

Nuove opzioni di scansione in FRE per Windows

Versioni più recenti di .NET Framework in FRE per Windows

Funzionalità complete