Comparaison de documents
| Nouveau module « Comparer les documents » | Pour vérifier rapidement l’intégrité d’un document, le nouveau module « Comparer les documents » d’ABBYY FineReader Engine permet de détecter les différences de contenu entre deux versions d’un même document. |
|---|---|
| Comparaison de documents bilingues | La nouvelle option du module « Comparer les documents » permet de détecter automatiquement le caractère bilingue d’un tel document ainsi que sa mise en page complexe, puis de comparer séparément chaque colonne (et donc chaque version linguistique). |
Import de formats Office sous Linux et Windows
Traitement des documents Office | Outre une large gamme de formats d’image, FineReader Engine peut désormais traiter des documents d’entrée créés dans l’un des formats de document Office suivants :
|
Ouverture de documents Office à partir de la mémoire | La nouvelle méthode permettant d’ouvrir directement depuis la mémoire des fichiers Microsoft Office et Apache OpenOffice accélère l’étape d’importation des documents et, par conséquent, le traitement global des documents. |
Capture de la MRZ
| Capture de données à partir d’une zone lisible par machine (MRZ) | Cette nouvelle fonctionnalité permet d’extraire automatiquement les données d’une zone lisible par machine (MRZ) dans les pièces d’identité et d’accélérer la saisie et la vérification des données personnelles lors de l’intégration des clients ou des processus de vérification. |
|---|
Reconnaissance optique de caractères (OCR) japonais amélioré
| Excellente précision de reconnaissance | Avec la nouvelle version d’ABBYY Fine Reader Engine, la Reconnaissance optique de caractères (OCR) japonais a connu d’importantes améliorations, portant la précision de reconnaissance à un niveau jusque-là inaccessible à la plupart des solutions. |
|---|
Reconnaissance optique de caractères (OCR) arabe amélioré
| Reconnaissance de l’arabe de bout en bout sur des images de mauvaise qualité | Reconnaissance optique de caractères (OCR) arabe sur des images de faible qualité, pour lesquelles la technologie générale produit des résultats peu fiables et de nombreuses erreurs. |
|---|
Reconnaissance optique de caractères (OCR) coréen amélioré
| Modèle linguistique d’apprentissage profond pour le coréen | Un modèle entraîné pour la langue coréenne sélectionne la meilleure variante de reconnaissance de mot parmi les hypothèses de reconnaissance, ou en génère même une nouvelle en fonction du contexte de reconnaissance (mots précédents et suivants). |
|---|
Améliorations des technologies de Reconnaissance optique de caractères (OCR) | Grâce aux approches par réseaux neuronaux appliquées aux technologies de Reconnaissance optique de caractères (OCR), ABBYY FineReader Engine a été enrichi de capacités de traitement des caractères latins manuscrits et en lettres détachées :
|
Technologie de reconnaissance de codes-barres par apprentissage automatique | L’architecture du réseau neuronal introduit un nouveau modèle de reconnaissance de codes-barres qui détecte la région approximative d’un code-barres, le classe et renvoie un résultat représenté sous la forme d’une région avec le type de code-barres le plus probable. |
Nouveau mode de reconnaissance | Le nouveau mode Accurate vous permet d’obtenir la qualité maximale du document en sortie, moyennant un ralentissement raisonnable de la vitesse de reconnaissance. Ce mode convient particulièrement aux factures, contrats, reçus et cartes d’identité de faible qualité ou générés à partir de photos. |
Améliorations de la qualité de la Reconnaissance optique de caractères (OCR) pour le texte à proximité des cachets et des signatures
| Détection du texte à proximité des cachets et des signatures | Lorsqu’un contrat contient des cachets ou des signatures, le texte situé à proximité est reconnu séparément, ce qui améliore la qualité des documents traités. |
|---|
Nouvelles options de licence
| Utilisation de la licence en ligne en réseau et en mode autonome | L’aide destinée aux développeurs de FineReader Engine 12 a été complétée par des informations supplémentaires sur les différentes possibilités de licence du SDK, avec un tableau comparatif clair présentant les différents types de licence. |
|---|---|
| Utilisation des périodes de grâce | Grâce à cette nouvelle option, les clients peuvent continuer à utiliser la licence ABBYY FineReader Engine pendant un certain temps après la date d’expiration, prolongeant ainsi sa période de validité. |
Technologies ICR et OMR dans les versions Linux et macOS
| Reconnaissance de texte manuscrit et de coches | Avec ABBYY FineReader Engine 12, vous pouvez reconnaître des caractères manuscrits, écrits en lettres détachées, ainsi que des coches de différents types. Les technologies ICR et OMR sont mises en œuvre pour extraire les données de documents manuscrits et développer de nouvelles solutions d’extraction de données. |
|---|
| Nouvelles options de déploiement | Un nouveau type de licence permet le déploiement dans des environnements virtuels et cloud, ce qui vous permet de proposer un plus large éventail de solutions. Le mécanisme de licence nécessite une connexion Internet et prend en charge les serveurs proxy. <Note> S’applique à FineReader Engine pour Linux et Windows. </Note> |
|---|
| Nouveau framework de développement | Pour accroître l’efficacité des équipes de développement qui utilisent des conteneurs et d’autres environnements natifs dans cette approche populaire du développement et du déploiement logiciels, ABBYY FineReader Engine propose désormais un wrapper .NET Core 6 précompilé. |
|---|
| Utilisation de la bibliothèque NeoML | NeoML est un framework open source de machine learning de bout en bout qui vous permet de créer, d’entraîner et de déployer des modèles de Machine Learning. Ce framework est utilisé par les ingénieurs pour des tâches de vision par ordinateur et de traitement du langage naturel, notamment le prétraitement d’images, la classification, l’analyse de la mise en page des documents, la Reconnaissance optique de caractères (OCR) et l’extraction de données à partir de documents structurés et non structurés. |
|---|---|
| PDFium intégré pour le traitement des PDF | PDFium est une bibliothèque native multiplateforme conforme aux normes PDF, qui gère toutes les opérations liées aux PDF, notamment le traitement, l’analyse, le rendu et la génération de la sortie. |
| Classification de documents à l’aide du NLP et du Machine Learning | Avec ABBYY FineReader Engine 12, les documents entrants peuvent être automatiquement triés dans différentes catégories. Les technologies de machine learning, de Reconnaissance optique de caractères (OCR) et de traitement du langage naturel sont utilisées pour entraîner des classificateurs basés sur l’image et sur le texte à partir de documents représentatifs. Les informations obtenues sont ensuite utilisées à l’étape de classification. |
|---|---|
| Classificateur basé sur le texte : sécurité renforcée des données d’entraînement | Pour entraîner et optimiser le classificateur basé sur le texte, des documents représentant chaque catégorie de document doivent être importés. Afin de protéger les données contenues dans ces documents, les algorithmes de hachage mis en œuvre empêchent toute récupération d’informations à partir des exemples de documents. |
| Exemple de démonstration amélioré pour la classification | ABBYY FineReader Engine peut traiter des PDF, des images de documents numérisés ou photographiés, ainsi que des documents aux formats Office. Pour refléter cette capacité dans le processus de classification, l’exemple de démonstration précompilé fourni pour la classification a été amélioré et permet désormais d’importer des documents Office en plus des PDF et des formats d’image. |
Exemple de code pour l’interface de ligne de commande (CLI)
| Exemple de code prêt à l’emploi | Grâce à cet exemple de code, les développeurs peuvent utiliser efficacement les bibliothèques ABBYY FineReader Engine et intégrer des fonctionnalités de traitement de documents dans des applications en ligne de commande. |
|---|
| Traitement des fichiers PDF d’origine numérique | AuxInfo est un objet supplémentaire de PDFium qui fournit des informations de métadonnées à partir d’un fichier PDF. L’équipe ABBYY R&D PDFTools a implémenté son propre objet AuxInfo fonctionnant avec PDFium. |
|---|
Traitement PDF amélioré
Améliorations pour les PDF à contenu | ABBYY FineReader Engine offre de nouvelles fonctionnalités pour traiter les documents PDF contenant à la fois des pages en image seule et des pages nativement numériques :
|
Utilisation de contenu supplémentaire dans les PDF | Pour assurer une composition plus souple du contenu PDF, ABBYY FineReader Engine propose de nouvelles options :
|
| Reconnaissance optique de caractères (OCR) du farsi | ABBYY FineReader Engine propose des options de reconnaissance du farsi mises à jour et améliorées, pour un traitement plus efficace des documents provenant d’Iran, d’Afghanistan et de nombreux autres pays du Moyen-Orient. |
|---|---|
| Reconnaissance optique de caractères (OCR) du géorgien | Le géorgien a été ajouté comme nouvelle langue de Reconnaissance optique de caractères (OCR). |
| Reconnaissance optique de caractères (OCR) pour les formules mathématiques simples | L’extraction des caractères de formules mathématiques simples permet de mieux reconnaître les documents scientifiques contenant dans le texte des formules mathématiques simples sur une seule ligne. |
| Préversion technique de la Reconnaissance optique de caractères (OCR) du birman | La Reconnaissance optique de caractères (OCR) du birman a été ajoutée en préversion technique afin de mettre en avant les futures capacités. |
| Langues spéciales pour la capture des dates arabes et japonaises | FineReader Engine for Windows prend en charge des langues spéciales pour la reconnaissance de champ. La nouvelle version améliore la reconnaissance des dates en arabe et en japonais. |
| Préversion technique de la Reconnaissance optique de caractères (OCR) du bangla | La Reconnaissance optique de caractères (OCR) du bangla a été ajoutée en préversion technique afin de démontrer les fonctionnalités potentielles. |
Reproduction améliorée de la mise en page des documents
| Reconstruction améliorée des tableaux | Avec ABBYY FineReader Engine 12, les tableaux extraits des documents conservent mieux que jamais leur mise en forme. |
|---|---|
| Détection et reproduction de colonnes équilibrées | Lorsqu’un document contient des colonnes de texte équilibrées (par exemple, des contrats, des publications scientifiques, des articles, etc.), sa structure initiale est désormais préservée, ce qui simplifie le traitement du document. |
| Nouveau modèle de document « à une seule colonne » | Les principales améliorations du nouvel algorithme concernent la détection et l’analyse des tableaux et des graphiques. |
| Analyse améliorée de la structure des tableaux | Grâce au mécanisme amélioré de conversion des documents, ABBYY FineReader Engine peut détecter des tableaux contenant des colonnes de nombres au format « Accounting ». |
Optimisation des processus internes pour un traitement plus rapide
| Nouveau mode d’itération de l’objet ILayout | Un nouveau mécanisme qui accélère l’itération de l’objet ILayout obtenu après le traitement du document hors du processus principal. <Note> Applicable à FineReader Engine pour Linux et Windows. </Note> |
|---|
Nouvelles options de numérisation dans FRE pour Windows
Fonctionnalités de numérisation étendues | ABBYY FineReader Engine 12 offre de nombreuses fonctionnalités de numérisation liées au périphérique :
|
| Documentation disponible en ligne | En plus de la documentation intégrée, vous pouvez désormais utiliser la version en ligne, qui fournit des informations « en temps voulu » sur les fonctionnalités et les capacités d’ABBYY FineReader Engine. |
|---|
Dernières versions de .NET Framework dans FRE pour Windows
Prise en charge des wrappers COM Interop .NET | Le package d’installation inclut désormais des wrappers COM Interop .NET pour les versions suivantes de .NET Framework :
|
| JSON | JSON (JavaScript Object Notation) est un format de fichier ouvert, indépendant du langage, utilisé pour transmettre des objets de données composés de paires attribut-valeur et de types de données sous forme de tableaux. FineReader Engine prend désormais en charge l’exportation des résultats de la Reconnaissance optique de caractères (OCR) au format JSON. |
|---|---|
| Nouvelles versions d’ALTO | ALTO (Analyzed Layout and Text Object) est un schéma XML qui décrit en détail les métadonnées techniques servant à représenter la mise en page et le contenu de ressources textuelles physiques, telles que les pages d’un livre ou d’un journal. Les dernières versions de ce schéma (4.0, 4.1, 4.2) sont prises en charge dans FineReader Engine 12. |
| PDF/A-2b et PDF/A-3b | PDF/A est une version normalisée par l’ISO du Portable Document Format (PDF), conçue pour l’archivage et la conservation à long terme des documents électroniques. FineReader Engine prend désormais en charge tous les niveaux de conformité PDF/A. |
Fonctionnalités complètes
- Numérisation de documents sous Windows
- Importation d’images
- Prétraitement des images
- Analyse de documents
- Reconnaissance optique de caractères (OCR) et autres technologies de reconnaissance
- Conversion de PDF
- Outils de développement avancés
- Récupération et exportation du texte reconnu
- Architecture de reconnaissance multi-CPU - Windows
