Conseils et astuces

Cette section décrit plusieurs méthodes courantes pour créer des FlexiLayouts capables de rechercher des champs de données dans des images de mauvaise qualité. Ces images sont assez fréquentes et présentent divers défauts de numérisation, le plus souvent dus à des paramètres de numérisation incorrects. Par exemple, une image peut être trop claire ou trop sombre si les réglages de luminosité ne sont pas corrects. Il peut alors arriver que certaines informations de l’image soient perdues ou que certaines zones soient parasitées. Il n’est pas toujours possible de numériser à nouveau les documents, et vous devez souvent extraire des données à partir d’images dégradées. De plus, certains documents peuvent comporter des notes manuscrites superposées à des informations utiles, ce qui entraîne souvent des erreurs de reconnaissance.

Comment les dégradations de l’image affectent la qualité de la pré-reconnaissance

Tous ces types de dégradation du texte nuisent fortement à la qualité de la pré-reconnaissance. Celle-ci peut être améliorée en réglant le mode de reconnaissance sur Accurate, mais cela n’aide pas toujours et augmente considérablement le temps de pré-reconnaissance.

Comment les FlexiLayouts tolèrent une pré-reconnaissance inexacte

Lorsque vous créez un FlexiLayout dans FlexiLayout Studio, vous pouvez indiquer que les résultats de la pré-reconnaissance peuvent être inexacts, c’est-à-dire différer du texte source. Cela se reflète dans les paramètres standard d’un élément, par exemple dans le nombre maximal d’erreurs pour un élément de type Static Text, ou dans le pourcentage de caractères non alphabétiques pour un élément Character String. En réalité, une qualité élevée de pré-reconnaissance n’est pas indispensable pour rechercher des champs de données. En revanche, elle est nécessaire lorsque les champs détectés sont reconnus dans FlexiCapture, qui propose des types de données spécialisés pour chaque champ, ce qui améliore considérablement la qualité de la reconnaissance. La pré-reconnaissance dans FlexiLayout Studio correspond à une Reconnaissance optique de caractères (OCR) sur page entière, et l’expérience montre que cela suffit généralement pour détecter les champs de données d’un document.

Étendre un FlexiLayout pour gérer des images de mauvaise qualité

Dans les projets réels, il suffit généralement de créer seulement quelques éléments pour obtenir un FlexiLayout capable de traiter correctement des images de bonne qualité. Tout utilisateur peut facilement créer un FlexiLayout qui détectera les champs de données requis sur environ 70 % des images. Un tel FlexiLayout peut être utilisé dans FlexiCapture. Un FlexiLayout peut être mis à jour et entraîné à extraire des données à partir d’images de mauvaise qualité. L’ampleur de cette modification dépend de la tâche à accomplir et du temps dont dispose l’utilisateur. La modification d’un FlexiLayout comprend la détection d’éléments qui n’étaient pas détectés auparavant et la tentative de les trouver à l’aide d’éléments supplémentaires (éventuellement d’un autre type) avec des contraintes de recherche moins strictes.

Quand un FlexiLayout remplace plusieurs Document Definitions

D’autres situations exigent également de modifier le FlexiLayout, notamment en créant des éléments supplémentaires. L’utilisateur doit souvent traiter des documents similaires provenant de différentes sources, par exemple des documents créés dans différentes antennes régionales d’un organisme public. Ces documents, malgré leur apparente ressemblance, peuvent présenter des différences dans la mise en page des champs de données. Dans ce cas, il est préférable de créer un seul FlexiLayout plutôt que plusieurs FlexiCapture Document Definitions légèrement différentes. Les documents peuvent se distinguer par les types de séparateurs qu’ils utilisent, ou être remplis non seulement à la main, mais aussi à l’imprimante. Pour apprendre au FlexiLayout à trouver ce type de champs, utilisez les méthodes décrites dans cette section.

Tutoriels du projet d’exemple

Un projet FlexiLayout Studio contenant des images de test et un FlexiLayout validé se trouve dans %public%\ABBYY\FlexiCapture\12.0\Samples\FLS\Tips and Tricks. Chacun des tutoriels suivants présente une technique permettant de résoudre un problème de recherche courant :

Fonction Print pour la sortie de débogage

Recherche de date après une reconnaissance de qualité élevée ou faible

⌘I

Introducing ABBYY FlexiLayout Studio

Program interface

Projects

Batches

FlexiLayouts

Multi-page FlexiLayout

Pre-recognition

Elements

Blocks

Working with tables

Hypotheses and trees of hypotheses

Debugging the FlexiLayout

Classification

Export

FlexiLayout language

Tips and tricks

Appendix

Tutorial

Comment les dégradations de l’image affectent la qualité de la pré-reconnaissance

Comment les FlexiLayouts tolèrent une pré-reconnaissance inexacte

Étendre un FlexiLayout pour gérer des images de mauvaise qualité

Quand un FlexiLayout remplace plusieurs Document Definitions

Tutoriels du projet d’exemple

​Comment les dégradations de l’image affectent la qualité de la pré-reconnaissance

​Comment les FlexiLayouts tolèrent une pré-reconnaissance inexacte

​Étendre un FlexiLayout pour gérer des images de mauvaise qualité

​Quand un FlexiLayout remplace plusieurs Document Definitions

​Tutoriels du projet d’exemple

Comment les dégradations de l’image affectent la qualité de la pré-reconnaissance

Comment les FlexiLayouts tolèrent une pré-reconnaissance inexacte

Étendre un FlexiLayout pour gérer des images de mauvaise qualité

Quand un FlexiLayout remplace plusieurs Document Definitions

Tutoriels du projet d’exemple