Reconnaissance optique de caractères (OCR)
- Technologie OCR : la reconnaissance de texte imprimé est disponible pour 211 langues, notamment :
- Langues européennes (alphabets latin, cyrillique, arménien et grec)
- Chinois (simplifié et traditionnel), japonais et coréen (CJK)
- Arabe, thaï, vietnamien, hébreu et farsi
- Birman — version en préversion technique
- FineReader XIX — un module OCR spécialement conçu pour la numérisation et l’archivage de documents anciens, de livres et de journaux publiés du XVIIe au XXe siècle, dont beaucoup sont rares et uniques. Conservés dans les archives historiques des bibliothèques et des organismes publics, ils constituent un patrimoine national qui doit être préservé. FineReader XIX offre une capacité unique de reconnaissance des textes publiés entre 1600 et 1937 en anglais, français, allemand, italien et espagnol. Il prend en charge la reconnaissance d’anciennes polices telles que Fraktur, Schwabacher et la plupart des polices gothiques.

- 56 langues bénéficient de la prise en charge des dictionnaires et de la morphologie, ce qui améliore considérablement la précision de l’OCR.
- La fonctionnalité de reconnaissance de documents multilingues permet de reconnaître plusieurs langues dans un même document, par exemple l’allemand et le chinois, ou l’anglais, le russe et le coréen.
- Reconnaissance de documents à impression matricielle — ABBYY FineReader Engine reconnaît des textes imprimés en mode matriciel de nombreux types. Il a été entraîné à l’aide de plusieurs milliers d’échantillons issus de différents types d’imprimantes, notamment matricielles, à marguerite, à chaîne et à bande, ainsi qu’avec les modes d’impression brouillon et Near Letter Quality (NLQ).
- Reconnaissance de documents dactylographiés.
- Reconnaissance des polices OCR-A, OCR-B, MICR (E13B) et CMC7.
Reconnaissance intelligente de caractères (ICR)
- Technologie ICR — reconnaissance de caractères manuscrits en lettres détachées pour plus de 126 langues.
- 39 langues (avec alphabet latin, grec et cyrillique) avec prise en charge de la morphologie et des dictionnaires.
- ICR pour les chiffres indiens utilisés dans les pays arabes.
- 30 styles régionaux d’écriture en lettres détachées utilisés dans différents pays et régions du monde (pour les langues ICR prises en charge).
- Reconnaissance de caractères manuscrits en lettres détachées dans les champs et les cadres — champs soulignés, cases, champs de type peigne, etc.
- ICR multilingue. L’un des principaux avantages de la technologie ICR d’ABBYY est qu’elle offre pratiquement le même niveau élevé de précision pour la reconnaissance des chiffres et des chiffres combinés à des lettres d’une ou de plusieurs langues, même lorsque les champs contiennent à la fois des lettres majuscules et minuscules.
Reconnaissance optique de marques (OMR)
- coches dans un cadre carré
- coches sur fond vierge
- types de coches non standard (les coches spéciales nécessitent un apprentissage avant de pouvoir être reconnues)
Reconnaissance optique de Barcode (OBR)
- Types de Barcode 1D et 2D. ABBYY OCR SDK prend en charge la reconnaissance des types courants de Barcode 1D et 2D. Voir la liste des types de Barcode pris en charge.
- Extraction rapide de Barcode. Cette fonctionnalité permet de détecter et de reconnaître automatiquement les Barcode, quelle que soit leur orientation dans un document. Elle fonctionne à la fois pour les Barcode 1D et 2D
Modes de reconnaissance
- Mode de reconnaissance précis
- Mode de reconnaissance rapide
- Mode de reconnaissance normal
Reconnaissance de texte intégral et reconnaissance par champ
| Spécification | Reconnaissance de texte intégral | Reconnaissance par champ |
|---|---|---|
| Domaine d’utilisation | Conversion de documents, archivage de livres | Capture de données |
| --- | --- | --- |
| Analyse du document | Analyse générale de documents, analyse de documents pour les factures, analyse de documents pour l’indexation plein texte | Spécification manuelle des blocs pour la reconnaissance par champ |
| Reconnaissance | OCR avec une précision générale d’environ 96 à 99 % | OCR, ICR, OMR, reconnaissance de Barcodes avec des types de données et des plages de valeurs prédéfinis. La précision est d’environ 100 % |
| Vérification | Recommandée pour la réutilisation du contenu | Obligatoire dans la plupart des cas |
| Synthèse | Utilisée pour la restitution de documents | Non utilisée |
| Export des résultats de reconnaissance | Fichiers de document (RTF, DOCX, PDF, etc.) | Export vers un fichier XML ou une base de données |
- Archivage de documents
- Conversion de documents pour la réutilisation du contenu
- Extraction du texte brut pour la détection des champs et la classification des documents
- Extraction de données à partir de champs avec diverses bordures et cadres, y compris les listes déroulantes, les champs soulignés, les cases, et même les champs où les données ne tiennent pas à l’intérieur de la bordure du champ
- Définition du contenu du champ en configurant des alphabets, des dictionnaires, des expressions régulières, des types de segmentation, des styles d’écriture manuscrite (Windows uniquement), etc.
- Détection des espaces à l’intérieur des champs, avec une reconnaissance précise des champs où les espaces sont autorisés. ABBYY FineReader Engine 12 permet également d’utiliser des dictionnaires contenant des combinaisons de mots avec espaces
- Traitement intelligent des blocs avec des parties et des lignes qui se croisent, permettant de reconnaître le texte (mots et symboles) situé entièrement à l’intérieur des bordures du bloc, ce qui fait gagner du temps en évitant la reconnaissance de blocs de texte non pertinents
- Déparasitage des blocs de texte, avec la possibilité de spécifier la taille des « parasites » blancs ou noirs
Langues utilisateur
- Dans les documents remplis à la main, les valeurs des champs de formulaire appartiennent généralement à un ensemble spécifique, comme des noms de villes, des pays, des codes postaux, des codes de produit, des montants, etc. Pour améliorer la qualité de la reconnaissance ICR, vous pouvez utiliser des langues utilisateur pour décrire les informations susceptibles d’être saisies dans chaque champ.
- Si un document contient des « structures » telles que des codes de produit, des numéros de téléphone, des numéros de passeport, etc., des erreurs de reconnaissance peuvent se produire. Cela s’explique par le fait que le programme lit ces structures lettre par lettre. Pour améliorer la reconnaissance des codes de produit et d’autres éléments similaires, vous pouvez créer une nouvelle langue de reconnaissance qui aidera le programme à lire correctement des types de données spécifiques.
