A
ABBYY FlexiCapture
Solution logicielle de capture de données en flux unique à partir de divers types de documents structurés (formulaires fixes), semi-structurés (formulaires et documents flexibles) et non structurés (documents à format libre).ABBYY FlexiLayout Studio
Programme permettant de créer un FlexiLayout de la structure du document, qui peut ensuite être utilisé pour la reconnaissance automatique de documents.ABBYY FormDesigner
ABBYY FormDesigner sert à concevoir la mise en page de formulaires lisibles par machine. Une fois reproduits et remplis, ces formulaires peuvent être traités à l’aide du système automatisé de saisie de formulaires ABBYY FlexiCapture. La conception de la mise en page des formulaires est une étape importante, car la qualité de cette mise en page (sa lisibilité par machine) détermine l’efficacité de toutes les étapes de traitement suivantes : numérisation, reconnaissance, vérification et export.FCFORINVOICES
ADF
Administrateur
Alphabet
Repère
Details...
Details...
Les repères sont des éléments spéciaux de la conception des formulaires, utilisés par le système pour effectuer la mise en correspondance après la numérisation (élimination de l’inclinaison, compensation des défauts linéaires et non linéaires liés à la numérisation, calcul de l’emplacement des blocs). Les repères les plus fiables sont les carrés noirs, généralement situés dans les coins d’un formulaire. Si aucun repère spécial n’est présent sur l’image, d’autres éléments statiques peuvent être utilisés pour la mise en correspondance de la définition de document : les Separator, c’est-à-dire des lignes verticales ou horizontales, comme des lignes de tableau, des cadres, etc., ou un texte statique bien visible, à savoir : l’en-tête du formulaire, les libellés de champ, les informations explicatives, etc. L’option Use for définition de document matching doit être activée pour les éléments statiques utilisés pour la mise en correspondance de la définition de document.
Barcode de repère
Élément statique représentant un barcode non destiné à l’extraction de données. Un barcode de repère peut être utilisé pour la mise en correspondance ou l’identification d’une définition de document.Texte de repère
Élément statique représentant un texte présent sur un formulaire vierge et non destiné à l’extraction de données. Il peut s’agir de tout texte explicatif ou d’un en-tête. Le texte de repère peut être utilisé pour la mise en correspondance ou l’identification de la définition de document.Angle
Un repère en forme d’angle.Annexe
Pages ne contenant aucun champ, mais incluses dans l’assemblage de documents. Aucune donnée n’est extraite de ces pages, mais elles peuvent être enregistrées sous forme d’images ou de fichiers PDF avec recherche. (Administrateur) Voir Création de définitions de document pour les documents avec annexes.Erreur d’assemblage
Auto-apprentissage
B
Barcode
Élément de formulaire lisible par machine, représenté par une alternance de barres blanches et noires d’une certaine longueur, qui codent des informations numériques. Un Barcode présent dans un document peut être utilisé pour extraire des informations (champ Barcode) ou pour associer et identifier une Document Definition (anchor Barcode).Champ Barcode
Un champ d’une définition de document contenant un Barcode à reconnaître.Reconnaissance de Barcode
Conversion d’une image de Barcode en nombres ou en texte.Type de lot
Formulaire à lignes en noir et blanc
Carré noir
Luminosité
Seuil de sensibilité à la lumière qui détermine à partir de quel niveau le scanner interprète les demi-teintes en niveaux de gris comme du blanc.C
Coche
Un élément de formulaire lisible par machine portant une marque (coche, croix, point, rature à l’encre, etc.) apposée par la personne qui remplit le formulaire.Champ de coche
Groupe de coches
Élément d’un formulaire lisible par machine qui regroupe plusieurs coches situées à proximité. Une ou plusieurs coches peuvent être sélectionnées dans un groupe de coches.Champ de groupe de coches
Champ de définition de document contenant un groupe de coches.Classificateur
Projet créé dans FlexiLayout Studio, destiné à l’identification préliminaire des pages avant l’application des définitions de document, ainsi qu’à la sélection du FlexiLayout ou de la variante de mise en page appropriée.F-mesure du classificateur
Mesure combinée de la précision et du rappel pour la classification de documents. Elle s’exprime sous la forme d’un nombre compris entre 0 et 1 ou d’un pourcentage compris entre 0 % et 100 %. La F-mesure d’une catégorie se calcule comme suit : (β^2 + 1) * P * R / (β^2 * P + R), où P est la précision de la catégorie, R est le rappel de la catégorie, et β est un paramètre libre qui détermine la pondération relative de la précision et du rappel pour le modèle donné. Valeur maximale = 1 (100 %) lorsque P = R = 1 (100 %). La F-mesure d’un lot de test ou d’entraînement se calcule comme suit : (β^2 + 1) * P * R / (β^2 * P + R), où P est la précision du lot de test ou d’entraînement, R est le rappel du lot de test ou d’entraînement, et β est un paramètre libre qui détermine la pondération relative de la précision et du rappel pour le modèle donné.Page de codes
Formulaire sur fond coloré
Contraste
Rapport entre la luminosité des zones les plus sombres et les plus claires d’une image.Contrôle
Coche corrigée
Croix
Un repère en forme de croix.Type de données personnalisé
Type de données défini par l’utilisateur. (Administrateur) Voir Créer des types de données personnalisés.D
Recherche dans la base de données
Jeu de données
Type de données
Details...
Details...
L’une des caractéristiques du champ est son type de données : nombre, date, texte, nom de famille, prénom, adresse, etc. Un type de données définit l’ensemble des mots susceptibles d’apparaître dans le champ concerné. Le type de données est un paramètre de reconnaissance important qui influe sur la qualité de la reconnaissance. Un type de données correctement spécifié peut réduire considérablement le nombre de caractères mal reconnus.
Fichier de description
Fichier auxiliaire qui définit comment un lot est constitué lorsque des images sont ajoutées depuis un Hot Folder. (Administrateur) Pour plus de détails, voir Fichier de description.Dictionary
Details...
Details...
Un dictionnaire est défini lors de la création d’un type de données. Par conséquent, le type de données associé à un champ détermine le dictionnaire utilisé pendant la reconnaissance et la vérification. Outre les types de données prédéfinis déjà fournis avec des dictionnaires prêts à l’emploi, le programme vous permet d’associer des types de données créés à partir de dictionnaires personnalisés. Vous pouvez saisir manuellement les données du dictionnaire ou les charger à partir d’un fichier.
Document
Lot de documents
Ensemble de documents regroupés par l’utilisateur. Un lot contient généralement une pile de documents numérisés en un seul passage ou importés à partir d’un dossier spécifique. (Administrateur) Voir Lots de documents.Classe de documents
Données du document
Données capturées après le traitement des images des pages du document (reconnaissance, vérification et modification des résultats de reconnaissance).Définition de document
Une définition de document définit les principes d’identification et de traitement d’un type particulier de document et contient :- La structure du document, c’est-à-dire une description de l’ordre autorisé des pages pour les documents de ce type, qui définit comment les documents doivent être assemblés
- Les définitions des sections du document
- Une liste de règles auxquelles les données des champs doivent satisfaire
- L’emplacement des champs et de leurs signatures dans la fenêtre de données (vue du formulaire de données)
- Les paramètres d’export du document
- Les paramètres de traitement du document
Identification de définition de document
Mise en correspondance d’une définition de document
Publication d’une définition de document
Permet d’accéder à une nouvelle version de définition de document après sa modification. Une version publiée participe au traitement des documents provenant des lots de travail, tandis qu’une version locale non publiée ne peut participer qu’au traitement des définitions de document provenant des lots de test. (Administrateur) Voir Modification et publication d’une définition de document.Section de définition de document
Identification des documents
Jeu de documents
Texte du document
Type de document
Variante de document
Texte d’imprimante matricielle
Un type de texte reconnaissable correspondant à un texte imprimé avec une imprimante matricielle.dpi
E
Entité
Variable d’environnement
Erreur / avertissement
L’erreur / l’avertissement se produit lorsque les données extraites d’un ou de plusieurs champs ne satisfont pas aux règles appliquées lors des contrôles automatiques ou ne correspondent pas au format spécifié. Il existe deux types d’erreurs et d’avertissements :- les erreurs / avertissements sur un seul champ sont générés par des règles et des formats qui portent sur un seul champ ;
- les erreurs / avertissements sur plusieurs champs sont générés par des règles qui portent sur plusieurs champs.
Texte explicatif
Élément de formulaire lisible par machine représentant un texte descriptif (nom du formulaire, noms de champs, explications des champs, etc.).Export
Processus de transfert de données traitées vers un système d’information externe ou un fichier.Profil d’exportation
Ensemble de paramètres qui détermine ce qui est fait des données traitées : format des fichiers de sortie, chemin de sortie, conditions d’exportation, etc.Base de données externe
F
Champ
Élément de document destiné à l’extraction de données. Les champs peuvent être simples (sans structure interne) ou composites, comme un champ de type tableau, dans lequel chaque cellule peut être considérée comme un sous-champ distinct du tableau. (Administrateur) Voir Création de champs d’une définition de document.Région du champ
Vérification de champ
Détails...
Détails...
En mode de vérification de champ, les caractères incertains sont vérifiés dans le contexte de l’ensemble du champ. Les champs pour lesquels l’option Send to field verification est activée sont soumis à la vérification de champ. Nous recommandons de soumettre à la vérification de champ les champs dont l’éventail des valeurs possibles est connu ou peut être déterminé facilement. C’est le cas, par exemple, des noms de pays ou de villes : nous savons quelles valeurs ce type de champ peut prendre.
Champ avec plusieurs occurrences
Champ avec plusieurs régions
Champ sans région
Champ détecté dans une définition de document, mais sans région sur l’image. (Administrateur) Voir Champs sans région.Formulaire fixe
Document comportant des champs d’information fixes, dont la mise en forme, le nombre et la disposition sont strictement définis et ne varient pas d’une instance à l’autre.Définition de document à structure fixe
Définition d’un document ou de l’une de ses sections conçue pour traiter des formulaires à structure fixe. Les champs d’une définition de document à structure fixe occupent des emplacements fixes.FlexiLayout
Description de la structure du document semi-structuré. Cette description est créée avec ABBYY FlexiLayout Studio et exportée vers ABBYY FlexiCapture. Format de fichier : *.afl. FlexiLayout est un ensemble d’instructions permettant de détecter et d’identifier les champs d’un formulaire flexible.variante de FlexiLayout
Définition de document flexible
Définition d’un document ou de l’une de ses sections, conçue pour le traitement de documents semi-structurés. Créée en y attachant un FlexiLayout. Les champs d’une telle définition de document n’ont pas d’emplacement fixe. Ils sont détectés à l’aide d’un FlexiLayout. (Administrateur) Voir Création d’une définition de document pour le traitement de documents semi-structurés.Formulaire
Document composé d’une ou plusieurs pages, conçu pour être rempli par une personne à la main ou à l’aide de toute autre technique d’impression.Texte encadré
Type de marquage du texte où un cadre délimite le texte.Afficher...
Afficher...

Texte encadré sur une zone à peigne
Afficher...
Afficher...

G
Formulaire sur fond gris
Vérification de groupe
Details...
Details...
Les champs pour lesquels l’option Envoyer à la vérification de groupe est activée sont envoyés pour vérification de groupe. Nous vous recommandons également d’envoyer pour vérification de groupe les caractères des champs numériques, ainsi que les coches.
H
Texte manuscrit en caractères d’imprimerie
Type de texte reconnaissable correspondant à un texte écrit à la main en caractères distincts.Texte manuscrit
Un type de texte reconnaissable dont les lettres sont attachées ou partiellement attachées. Remarque : Actuellement, seul le texte manuscrit en anglais peut être reconnu.Dossier de surveillance
Dossier situé sur le disque dur d’un ordinateur local ou distant et utilisé pour importer des images. Il sert généralement à des téléversements d’images périodiques, sans intervention de l’utilisateur. (Administrateur) Voir Profils d’importation d’images.I
Identifiant
Élément statique utilisé pour identifier avec certitude une définition de document parmi plusieurs définitions de document dont les repères sont situés aux mêmes emplacements. L’option Use for définition de document identification doit être activée dans les propriétés de ces éléments statiques.Fournisseur d’identité
Système tiers, tel qu’Azure AD, OneLogin ou Okta, qui gère les informations d’identité et fournit des services d’authentification à ses clients, permettant à l’utilisateur final d’accéder à l’ensemble des ressources autorisées de son réseau local en ne saisissant ses identifiants qu’une seule fois.Caractère ignoré
Details...
Details...
Ces caractères sont exclus des mots, c’est-à-dire que les mots sont associés à un type de données particulier sans tenir compte de ces caractères.
Image
Image électronique d’une page numérisée issue d’un document papier.Suppression du bruit de l’image
Élimination du bruit de l’image. Du bruit peut apparaître lors de la numérisation, et il est recommandé de le supprimer afin d’améliorer la reconnaissance des données. Lors de cette opération, le programme supprime également les points d’arrière-plan ou les lignes de contour des formulaires rasterisés.Import d’images
Processus consistant à ajouter des images à un lot en vue de leur traitement. L’importation peut être effectuée en ajoutant des images depuis des fichiers, un scanner ou à l’aide de profils d’importation. (Administrateur, Vérification) Voir Ajout d’images de page.Rotation de l’image
Rotation d’une image autour de son centre.Profil d’importation
Combinaison de paramètres permettant d’ajouter des images à un lot : source d’importation, options de traitement des images, options de nettoyage du Hot Folder, etc. (Administrateur) Voir Profils d’importation d’images.Caractère reconnu de manière incorrecte
Statut attribué automatiquement à un caractère au cours de la reconnaissance s’il a été reconnu avec un niveau d’incertitude élevé.Champ d’indexation
Un champ dont la valeur est utilisée pour indexer les documents à des fins de tri et de recherche. (Administrateur) Voir Champs d’indexation.Image inversée
Facture
ICR, reconnaissance intelligente de caractères
K
Champ principal
Champ permettant de vérifier automatiquement l’assemblage des pages en documents. Les valeurs des champs principaux doivent être identiques sur toutes les pages d’un même document.L
Langue (locale)
Propriété d’un champ qui détermine la langue d’écriture ainsi que les paramètres régionaux associés (tels que le format de date ou d’adresse).Mise en page
Lettres dans des cadres
Afficher...
Afficher...

Lettres dans des cadres séparés
Afficher...
Afficher...

Lettres sur un peigne
Afficher...
Afficher...

M
Texte imprimé
Type de texte reconnaissable imprimé au moyen d’un équipement typographique ou d’une imprimante laser ou jet d’encre, avec une résolution minimale de 300 dpi.Formulaire lisible par machine
Champ de saisie manuelle
Champ d’une définition de document contenant du texte non reconnaissable (par exemple, un texte composé de lettres fusionnées) qui doit être saisi au clavier.MRC (Mixed Raster Content)
Méthode de compression utilisée pour les images qui contiennent à la fois du texte et des fragments raster. L’image est décomposée en fragments, puis un algorithme de compression optimal est sélectionné pour chacun d’eux. Cette approche offre de meilleurs taux de compression tout en préservant la qualité visuelle des images.Texte à chasse fixe
Type de marquage du texte dans lequel chaque lettre est située dans un cadre de même hauteur et de même largeur, mais dont la bordure disparaît lors de la numérisation.Document multipage
Un document composé de plusieurs pages.Multitenance
N
NER (reconnaissance des entités nommées) Une tâche d’extraction d’informations consistant à repérer des attributs dans du texte non structuré et à les classer dans des catégories prédéfinies. NLP (traitement automatique du langage naturel) Un sous-domaine de l’intelligence artificielle et de la linguistique mathématique. Il est consacré à l’analyse et à la synthèse informatiques des langues naturelles. L’une de ses applications possibles est l’extraction d’informations pertinentes à partir de texte. Il inclut notamment : la traduction automatique, les chatbots, la classification, l’analyse du ton, l’extraction de données, etc.Modèle NLP
O
OCR (Reconnaissance optique de caractères)
OMR (reconnaissance optique de marques)
Opérateur
Rôle d’opérateur
Superposition
P
Page
Image d’une page d’un document papier et des résultats de son traitement.Disposition de la page
Schéma montrant l’emplacement des champs sur une image.Orientation de la page
Position de la page par rapport à l’orientation standard : de haut en bas, de gauche à droite. L’orientation de la page peut être déterminée automatiquement lors de la reconnaissance de l’image de la page ; à cet effet, ABBYY FlexiCapture vous permet de spécifier les orientations possibles.Image
Élément d’un formulaire lisible par machine qui ne fait pas l’objet d’une reconnaissance, mais qui est destiné à être exporté sous la forme d’un objet graphique (par exemple, un fichier).Champ d’image
Un champ de définition de document contenant une image. Précision Une caractéristique permettant à l’utilisateur d’évaluer la qualité de la classification automatique. Elle est calculée en divisant le nombre de documents de classe A correctement identifiés par le nombre total de documents identifiés comme appartenant à la classe A, qu’ils le soient correctement ou non.Préreconnaissance
Débit de traitement
(Distribué) Étape de traitement
Caractère interdit
Détails...
Détails...
La définition de tels caractères peut considérablement améliorer la vitesse et la qualité de la reconnaissance. Par exemple, lors de la reconnaissance de textes composés uniquement de lettres majuscules, indiquez toutes les lettres minuscules comme caractères interdits.
Projet
Un projet est un environnement unique qui regroupe les lots de documents et les paramètres nécessaires à leur traitement, tels que les définitions de document, les profils d’importation, etc. (Administrateur) Voir Création d’un projet.(Distributed) Q
(Distributed) File d’attente
R
Formulaire tramé
Ligne raster
Une ligne composée de points espacés régulièrement. Rappel Une mesure qui permet à l’utilisateur d’évaluer la qualité de la classification automatique. Elle est calculée en divisant le nombre de documents de classe A correctement identifiés par le nombre total de documents de classe A.Reconnaissance
Processus de mise en correspondance entre des éléments d’image et des caractères spécifiques.Langue de reconnaissance
Disposition de référence
Mise en page créée par l’utilisateur et servant de référence pour les mises en page générées automatiquement. Cette comparaison permet d’évaluer dans quelle mesure le programme détecte correctement les régions de champ.(Administrateur) Expression régulière
(Administrateur) Description de la structure d’un mot ou de toute valeur saisie à l’aide d’un langage spécial. Le programme vous permet de spécifier non seulement le jeu de caractères autorisés, mais aussi la structure du contenu d’un champ. Vous pouvez décrire cette structure à l’aide d’une expression régulière lors de la définition de contraintes pour un champ Text ou de la création d’un type de données personnalisé. Voir Alphabet utilisé dans les expressions régulières.Résolution
Paramètre Image. La résolution se mesure en points par pouce (dpi). Classes de résultat Une classe de résultat est une classe attribuée à un document lors d’une classification automatique.Validation des règles
Vérification automatique des données reconnues au regard de règles prédéfinies. Voir Validation des règles.Règles
Certaines conditions appliquées aux données des champs et vérifiées automatiquement par le programme. (Administrateur, Vérification) Voir Validation des règles.S
Numérisation
Processus consistant à obtenir une image électronique d’un formulaire papier à l’aide d’un scanner. Segment Fragment de texte constitué d’un ou de plusieurs paragraphes contenant des données à extraire. Un segment peut également être un champ à extraire (par exemple, les conditions de résiliation d’un contrat). Segmentation Processus d’identification des segments. La segmentation précède l’extraction d’informations et s’avère utile pour les documents volumineux, car elle limite la recherche d’entités à des fragments de texte spécifiques.Section
Une partie logiquement distincte d’un document contenant un ensemble de champs extractibles. Les sections sont utilisées à diverses fins au cours du processus de reconnaissance, par exemple pour assembler des documents à partir de pages. Elles peuvent comprendre une seule page ou plusieurs pages, et être fixes ou flexibles. (Administrator) Voir Création de définitions de document pour les documents multipages.Document semi-structuré
Document contenant un ensemble de champs d’information dont la présentation, le nombre et la disposition peuvent varier considérablement d’un exemplaire du document à l’autre. Voir Quels types de documents peuvent être traités avec ABBYY FlexiCapture.Separator
Un élément de formulaire lisible par machine qui représente une ligne verticale ou horizontale.Champ de service
Ensemble de caractères autorisés
Details...
Details...
Cet ensemble est déterminé par le type de données. En d’autres termes, le type de données associé à un champ détermine l’ensemble de caractères utilisé lors de la reconnaissance.Outre la sélection des caractères inclus dans cet ensemble, vous pouvez configurer des paramètres supplémentaires pour le restreindre. Par exemple, vous pouvez spécifier :
- Les caractères dont vous savez qu’ils n’apparaîtront pas lors de la reconnaissance d’un champ donné : caractères interdits (par exemple, vous pouvez indiquer toutes les lettres minuscules comme interdites pour un champ dans lequel seuls des caractères majuscules peuvent apparaître).
- Les caractères pouvant apparaître à l’intérieur des mots sans affecter leur vérification : caractères ignorés (par exemple, les traits d’union, les accents, etc.).
Texte simple
Type de marquage du texte dans lequel le texte est inséré dans un bloc sans délimiteur.Saisie de données en flux unique
Extraction automatisée de données à partir de documents analogiques (imprimés) et numériques (images numérisées).Entrée de documents en flux unique
Conversion automatisée de documents papier au format électronique.SLA (accord de niveau de service)
Éléments statiques
Éléments non reconnaissables destinés à la mise en correspondance et à l’identification de la définition de document. Ces éléments sont : repères, texte de repère, Separator, Barcode de repère.Section de synthèse
T
Tableau
Champ de tableau
Tâche (distribuée)
Tenant
Lots de documents de test
Lots de documents conçus pour tester et configurer les définitions de document. Des copies locales des lots de documents servent à traiter les lots de test. (Administrateur) Voir Lots de documents.Champ Text
Marquage du champ Text
Marquage de texte
Définition d’une région de page destinée à la saisie de texte. (Administrateur) Voir des exemples de formatage du texte dans la rubrique Champ de saisie.Orientation du texte
Orientation du texte dans un champ par rapport à la page.Reconnaissance de texte (OCR, ICR)
Conversion d’une image en texte.Exemple de texte
Entraînement [définition de document]
Lots d’entraînement
Machine à écrire
Type de texte reconnaissable correspondant à un texte imprimé à la machine à écrire.U
Texte souligné
Afficher...
Afficher...

Dictionnaire utilisateur
Dictionnaire auxiliaire créé par l’utilisateur, il contient des mots qui ne figurent pas dans les dictionnaires intégrés. Les dictionnaires intégrés peuvent être complétés par un dictionnaire utilisateur afin d’améliorer la qualité de la capture de données. En général, un dictionnaire utilisateur contient des termes spécialisés, des abréviations, des noms d’entreprise, etc.Région non reconnaissable
Une région de l’image exclue de la reconnaissance. Une région non reconnaissable est nécessaire pour exclure une zone contenant un texte explicatif ou une image qui complique la reconnaissance des champs. (Administrateur) Voir Exclure une région de la reconnaissance.Document non structuré
Document contenant des informations présentées sous une forme libre. Les contrats, les lettres, les commandes et les graphiques en sont des exemples. (Administrateur) Voir Création de définitions de document pour les documents non structurés et semi-structurés.V
Fournisseur
Vérification
La vérification consiste à s’assurer que les données ont bien été reconnues, que les pages ont été correctement assemblées en documents et que les règles n’ont signalé aucune erreur. (Standalone) La vérification s’effectue dans l’Operator Station. (Distributed) La vérification s’effectue dans la Data Verification Station (où la précision de la reconnaissance est vérifiée) et dans la Verification Station (où tous les types de contrôles peuvent être effectués). (Administrator, Verification) Voir Vérification.W
Lots de travail
Lots de documents destinés à la saisie des données. Seules les Définitions de document publiées sont utilisées pour le traitement des lots de travail. (Administrateur) Voir Lots de documents.Style d’écriture
Détails...
Détails...
Cette option permet de configurer le style d’écriture des caractères écrits en lettres moulées dans les formulaires. Le choix d’un style d’écriture dépend de la zone géographique où les formulaires sont traités (Russie, Allemagne, République tchèque, USA, etc.).
