Tips and tricks
Conseils et astuces
Découvrez des conseils et astuces pour créer des FlexiLayouts qui extraient des données à partir d’images de mauvaise qualité, avec des exemples de projets couvrant les problèmes de recherche typiques.
Ce chapitre décrit plusieurs méthodes courantes pour créer des FlexiLayouts capables de rechercher des champs de données dans des images de mauvaise qualité. Ces images sont assez fréquentes et présentent différents défauts de numérisation, le plus souvent dus à des paramètres de numérisation incorrects. Par exemple, une image peut être trop claire ou trop sombre si les réglages de luminosité ne sont pas corrects. Il peut alors arriver que certaines informations de l’image soient perdues ou que certaines zones soient parasitées.
Il n’est pas toujours possible de numériser à nouveau les documents, et l’utilisateur doit souvent extraire des données à partir d’images dégradées. De plus, certains documents peuvent comporter des notes manuscrites superposées à des informations utiles, ce qui entraîne souvent des erreurs de reconnaissance.
Tous les types de dégradation du texte décrits ici nuisent fortement à la qualité de la pré-reconnaissance. Celle-ci peut être améliorée en réglant le mode de reconnaissance sur Accurate. Malheureusement, cela n’aide pas toujours et augmente considérablement le temps de pré-reconnaissance.
Lorsqu’un FlexiLayout est créé dans FlexiLayout Studio, la méthode suivante est généralement utilisée. L’utilisateur peut indiquer dans le FlexiLayout que les résultats de la pré-reconnaissance peuvent être inexacts, c’est-à-dire différer du texte source. Cela se reflète dans les paramètres standard d’un élément, par exemple dans le nombre maximal d’erreurs pour un élément de type Static Text, ou dans le pourcentage de caractères non alphabétiques pour un élément Character String. En réalité, une qualité élevée de pré-reconnaissance n’est pas indispensable pour rechercher des champs de données. En revanche, elle est nécessaire lorsque les champs détectés sont reconnus dans FlexiCapture. Ces programmes proposent des types de données spécialisés pour chaque champ, ce qui améliore considérablement la qualité de la reconnaissance. La pré-reconnaissance dans FlexiLayout Studio correspond à une Reconnaissance optique de caractères (OCR) sur page entière, et l’expérience montre que cela suffit généralement pour détecter les champs de données d’un document.
Dans les projets réels, il suffit généralement de créer seulement quelques éléments pour obtenir un FlexiLayout capable de traiter correctement des images de bonne qualité. Tout utilisateur peut facilement créer un FlexiLayout qui détectera les champs de données requis sur environ 70 % des images. Un tel FlexiLayout peut être utilisé dans FlexiCapture. Un FlexiLayout peut être mis à jour et « entraîné » à extraire des données à partir d’images de mauvaise qualité. L’ampleur de cette modification dépend de la tâche à accomplir et du temps dont dispose l’utilisateur.
La modification d’un FlexiLayout comprend la détection d’éléments qui n’étaient pas détectés auparavant et la tentative de les trouver à l’aide d’éléments supplémentaires (éventuellement d’un autre type) avec des contraintes de recherche moins strictes.
D’autres situations exigent également de modifier le FlexiLayout, notamment en créant des éléments supplémentaires. L’utilisateur doit souvent traiter des documents similaires provenant de différentes sources, par exemple des documents créés dans différentes antennes régionales d’un organisme public. Ces documents, malgré leur apparente ressemblance, peuvent présenter des différences dans la mise en page des champs de données. Dans ce cas, il est préférable de créer un seul FlexiLayout plutôt que plusieurs FlexiCapture Document Definitions légèrement différentes.
Les documents peuvent se distinguer par les types de séparateurs qu’ils utilisent, ou être remplis non seulement à la main, mais aussi à l’imprimante. Pour apprendre au programme à trouver ce type de champs, utilisez les méthodes décrites dans ce chapitre.
Un projet FlexiLayout Studio contenant des images de test et un FlexiLayout validé se trouve dans %public%\ABBYY\FlexiCapture\12.0\Samples\FLS\Tips and Tricks.
Détection des dates en cas de pré-reconnaissance de faible qualité
Définition de plusieurs valeurs de texte statique. Recherche de texte statique avec des valeurs similaires
Utilisation de Exclude pour exclure des éléments
Utilisation des éléments Group pour optimiser la structure et la recherche du FlexiLayout
Recherche d’éléments Static Text sur une seule ligne
Restriction de la zone de recherche avec RestrictSearchArea
Recherche de champs sur une seule ligne de format connu ou inconnu dans des documents de qualité variable
Recherche d’éléments avec Nearest et FuzzyQuality
Optimisation de la recherche d’un élément Group
La propriété “Optional” d’un élément Group
Recherche de chaînes de chiffres
Simplification du FlexiLayout à l’aide d’un élément auxiliaire avec une hypothèse nulle
Description des champs de texte contenant des lettres encadrées
Imprimer pour le débogage
Précédent
Recherche de date après une reconnaissance de qualité élevée ou faible
Suivant
