Vai al contenuto principale

Confronto tra documenti

Nuovo modulo “Confronta documenti”Per verificare rapidamente l’integrità del documento, il nuovo modulo “Confronta documenti” di ABBYY FineReader Engine consente di rilevare le differenze di contenuto tra due versioni dello stesso documento.
Confronto di documenti bilinguiLa nuova opzione del modulo “Confronta documenti” consente di rilevare automaticamente la natura bilingue di questo tipo di documento e il suo layout complesso, nonché di confrontare separatamente ogni colonna (e quindi ogni versione linguistica).

Importazione di formati Office in Linux e Windows

Elaborazione dei documenti Office

Oltre ad un’ampia gamma di formati immagine, FineReader Engine può ora elaborare anche documenti in ingresso creati in uno dei formati Office:

  • Documenti di testo: .doc, .docx, .rtf, .htm / .html, .txt, .odt
  • Tabelle: .xls, .xlsx, .ods
  • Presentazioni: .ppt, .pptx, .odp

Apertura di documenti Office dalla memoria

Il nuovo metodo per aprire file Microsoft Office e Apache OpenOffice direttamente dalla memoria consente di velocizzare la fase di importazione dei documenti, accelerando così l’intero processo di elaborazione.

Acquisizione MRZ

Acquisizione dei dati da una zona a lettura ottica (MRZ)La nuova funzionalità consente l’estrazione automatica dei dati dalla zona a lettura ottica (MRZ) nei documenti di identità, velocizzando l’inserimento e la verifica dei dati personali durante l’onboarding dei clienti o i processi di verifica.

OCR giapponese migliorato

Precisione di riconoscimento ai massimi livelliCon la nuova versione di ABBYY Fine Reader Engine, l’OCR giapponese ha compiuto notevoli progressi, portando la precisione di riconoscimento a un livello finora irraggiungibile per la maggior parte delle soluzioni.

OCR arabo migliorato

Riconoscimento end-to-end dell’arabo su immagini di scarsa qualitàOCR arabo su immagini di bassa qualità, dove le tecnologie generiche forniscono risultati poco affidabili e con molti errori.

OCR coreano migliorato

Modello linguistico di deep learning per il coreanoUn modello addestrato per la lingua coreana seleziona la migliore variante di riconoscimento delle parole tra le ipotesi disponibili o ne genera addirittura di nuove in base al contesto di riconoscimento (parole precedenti e successive).
Nuove tecnologie OCR basate su reti neurali

Miglioramenti nelle tecnologie OCR

Grazie agli approcci basati su reti neurali nelle tecnologie OCR, ABBYY FineReader Engine è stato migliorato con il supporto all’elaborazione di simboli latini manoscritti e in stampatello:

  • Modello linguistico per una selezione coerente e accurata delle varianti di parola
  • Riconoscimento end-to-end per gli alfabeti latini, per elaborare documenti multilingue

Tecnologia di riconoscimento dei Barcode basata sul machine learning

L’architettura della rete neurale introduce un nuovo modello di riconoscimento dei Barcode che rileva la regione approssimativa di un Barcode, ne esegue la classificazione e restituisce un output rappresentato come una regione con il tipo di Barcode più probabile.

Nuova modalità di riconoscimento

La nuova modalità Accurate consente di ottenere la massima qualità del documento di output, a fronte di un ragionevole rallentamento della velocità di riconoscimento. Questa modalità è particolarmente adatta per fatture, contratti, ricevute e carte d’identità di bassa qualità o generate a partire da foto.

Miglioramenti della qualità dell’OCR per il testo vicino a timbri e firme

Rilevamento del testo vicino a timbri e firmeQuando un accordo contiene timbri o firme, il testo adiacente viene riconosciuto separatamente, migliorando così la qualità dei documenti elaborati.

Nuove opzioni di gestione delle licenze

Uso della licenza online in modalità Network e StandaloneLa Guida per gli sviluppatori di FineReader Engine 12 è stata arricchita con ulteriori informazioni sulle diverse possibilità di licenza dell’SDK, con una tabella comparativa di facile consultazione che descrive i singoli tipi di opzioni di gestione delle licenze.
Uso dei periodi di tolleranzaCon la nuova opzione, i clienti possono utilizzare la licenza ABBYY FineReader Engine per un certo periodo dopo la data di scadenza, estendendone così il periodo di validità.

Tecnologie ICR e OMR nelle versioni Linux e macOS

Riconoscimento del testo manoscritto e dei segni di spuntaCon ABBYY FineReader Engine 12, è possibile riconoscere caratteri manoscritti, in stampatello e segni di spunta di vario tipo. Le tecnologie ICR e OMR sono implementate per estrarre dati da documenti manoscritti e sviluppare nuove soluzioni di estrazione dei dati.
Possibilità di eseguire Engine in ambienti cloud
Nuove opzioni di distribuzioneIl nuovo tipo di licenza consente la distribuzione in ambienti virtuali e cloud, permettendo di offrire una gamma più ampia di soluzioni. Il meccanismo di licenza richiede una connessione a Internet e supporta i server proxy. <Note> Applicabile a FineReader Engine per Linux e Windows. </Note>
Wrapper .NET Core in FRE per Windows
Nuovo framework di sviluppoPer aumentare l’efficienza dei team di sviluppo che utilizzano container e altri ambienti nativi nei moderni processi di sviluppo e distribuzione del software, ABBYY FineReader Engine offre ora un wrapper .NET Core 6 precompilato.
Nuove librerie in ABBYY FineReader Engine
Utilizzo della libreria NeoMLNeoML è un framework open source end-to-end di machine learning che consente di creare, addestrare e distribuire modelli di machine learning. Questo framework viene utilizzato dagli ingegneri per attività di computer vision ed elaborazione del linguaggio naturale, tra cui la preelaborazione delle immagini, la classificazione, l’analisi del layout dei documenti, Optical Character Recognition (OCR) e l’estrazione dei dati da documenti strutturati e non strutturati.
PDFium incorporato per l’elaborazione dei PDFPDFium è una libreria nativa multipiattaforma conforme agli standard PDF e gestisce tutte le operazioni relative ai PDF, inclusi elaborazione, parsing, rendering e generazione dell’output.
Classificazione dei documenti migliorata
Classificazione dei documenti tramite NLP e Machine LearningCon ABBYY FineReader Engine 12, i documenti in ingresso possono essere smistati automaticamente in diverse categorie. Le tecnologie di machine learning, OCR ed elaborazione del linguaggio naturale vengono impiegate per addestrare i classificatori basati su immagini e testo utilizzando documenti rappresentativi. Le informazioni ottenute vengono quindi utilizzate durante la fase di classificazione.
Classificatore basato sul testo: sicurezza avanzata dei dati di addestramentoPer addestrare e ottimizzare il classificatore basato sul testo, è necessario importare documenti che rappresentino ciascuna categoria di documenti. Per proteggere i dati contenuti in questi documenti, gli algoritmi di hashing implementati impediscono il recupero di informazioni dai documenti di esempio.
Demo Sample di classificazione miglioratoABBYY FineReader Engine è in grado di elaborare PDF, immagini di documenti scansionati o fotografati, nonché documenti nei formati Office. Per riflettere questa capacità nel processo di classificazione, il Demo Sample precompilato fornito per la classificazione è stato migliorato e ora consente di importare documenti Office oltre a PDF e formati immagine.

Esempio di codice per l’interfaccia a riga di comando (CLI)

Esempio di codice pronto all’usoCon questo esempio di codice, gli sviluppatori possono utilizzare in modo efficiente le librerie di ABBYY FineReader Engine e integrare funzionalità di elaborazione documentale in applicazioni da riga di comando.
Implementazione dell’estrattore di metadati PDF
Elaborazione di file PDF nativi digitaliAuxInfo è un oggetto aggiuntivo di PDFium che fornisce informazioni sui metadati di un file PDF. Il team ABBYY R&D PDFTools ha implementato un proprio oggetto AuxInfo compatibile con PDFium.

Elaborazione PDF migliorata

Miglioramenti per i PDF con contenuti
”misti”

ABBYY FineReader Engine offre nuove funzionalità per l’elaborazione di documenti PDF contenenti sia pagine solo immagine sia pagine native digitali:

  • Riconoscimento adattivo per migliorare e velocizzare l’elaborazione dei PDF
  • Classificatore della qualità del livello di testo per mantenere quello di buona qualità nel formato di output
  • Indicazione della presenza di una firma digitale nel PDF
  • Nuova modalità di riutilizzo dei contenuti per l’elaborazione di documenti con contenuti misti

Utilizzo di contenuti aggiuntivi nei PDF

Per garantire una composizione più flessibile del contenuto PDF, ABBYY FineReader Engine offre nuove opzioni:

  • Apertura di PDF Portfolio ed elaborazione del relativo contenuto
  • Aggiunta di immagini personalizzate al PDF di output e gestione della loro posizione
Supporto aggiuntivo per le lingue
OCR farsiABBYY FineReader Engine include opzioni di riconoscimento del farsi aggiornate e migliorate, aprendo la strada a un lavoro più efficace con documenti provenienti dall’Iran, dall’Afghanistan e da molti altri paesi del Medio Oriente.
OCR georgianoLa lingua georgiana è stata aggiunta come nuova lingua OCR.
OCR per formule matematiche sempliciL’estrazione dei caratteri di semplici formule matematiche consente un migliore riconoscimento dei documenti scientifici che contengono semplici formule matematiche su una sola riga all’interno del testo.
Anteprima tecnica per l’OCR birmanoL’OCR birmano è stato aggiunto come anteprima tecnica per mostrare funzionalità future.
Lingue speciali per l’estrazione di date arabe e giapponesiFineReader Engine for Windows supporta lingue speciali per il riconoscimento dei field. La nuova versione aggiunge un riconoscimento delle date migliorato in arabo e giapponese.
Anteprima tecnica per l’OCR banglaL’OCR bangla è stato aggiunto come anteprima tecnica per dimostrare le funzionalità potenziali.

Ricostruzione migliorata dell’impaginazione del documento

Ricostruzione migliorata delle tabelleCon ABBYY FineReader Engine 12, le tabelle estratte dai documenti preservano la formattazione meglio che mai.
Rilevamento e ricostruzione di colonne bilanciateQuando un documento contiene colonne di testo bilanciate (ad esempio contratti, pubblicazioni scientifiche, articoli, ecc.), la struttura originale viene ora mantenuta intatta, semplificando così l’elaborazione del documento.
Nuovo modello di documento “a colonna singola”I principali miglioramenti del nuovo algoritmo riguardano il rilevamento e l’analisi di tabelle e grafici.
Analisi avanzata della struttura delle tabelleGrazie al meccanismo migliorato di conversione dei documenti, ABBYY FineReader Engine è in grado di rilevare tabelle con colonne di numeri nel formato “Contabilità”.

Ottimizzazione dei processi interni per un’elaborazione più rapida

Nuovo schema di iterazione dell’oggetto ILayoutUn nuovo schema che accelera l’iterazione dell’oggetto ILayout ottenuto dopo aver elaborato il documento al di fuori del processo principale. <Note> Applicabile a FineReader Engine per Linux e Windows. </Note>

Nuove opzioni di scansione in FRE per Windows

Funzionalità di scansione avanzate

ABBYY FineReader Engine 12 offre numerose funzionalità di scansione a livello di dispositivo:

  • eliminazione automatica delle pagine vuote dal documento
  • ritaglio automatico della Pagina
  • correzione automatica dell’inclinazione
  • rilevamento automatico della modalità colore
Documentazione online
Documentazione disponibile onlineOltre alla documentazione integrata, ora è possibile utilizzare la versione online, che fornisce informazioni contestuali sulle funzionalità e le capacità di ABBYY FineReader Engine.

Versioni più recenti di .NET Framework in FRE per Windows

Supporto dei wrapper COM Interop .NET

Il pacchetto di distribuzione ora include i wrapper COM Interop .NET per le seguenti versioni di .NET Framework:

  • 3.5 SP1
  • 4.6
  • 4.7
  • 4.8
Nuovi formati di esportazione
JSONJSON (JavaScript Object Notation) è un formato di file aperto e indipendente dal linguaggio, usato per trasmettere oggetti di dati costituiti da coppie attributo-valore e tipi di dati array. FineReader Engine ora supporta l’esportazione dei risultati OCR in formato JSON.
Nuove versioni di ALTOALTO (Analyzed Layout and Text Object) è uno schema XML che definisce metadati tecnici per descrivere il layout e il contenuto di risorse testuali fisiche, come le pagine di un libro o di un giornale. Le versioni più recenti di questo schema (4.0, 4.1, 4.2) sono supportate in FineReader Engine 12.
PDF/A-2b e PDF/A-3bPDF/A è una versione standardizzata ISO del Portable Document Format (PDF), specifica per l’archiviazione e la conservazione a lungo termine dei documenti elettronici. FineReader Engine ora supporta tutti i livelli di conformità PDF/A.

Funzionalità complete