Un élément de type Character String est utilisé pour rechercher des chaînes de chiffres. Si la qualité de l’image est très bonne, il est possible de définir même une expression régulière comme alphabet. En revanche, si la qualité des images du lot varie, il faut spécifier la liste des caractères susceptibles d’être reconnus dans le champ correspondant. Si la qualité des images ou de l’impression n’est pas satisfaisante, des chiffres peuvent être reconnus à tort comme d’autres caractères. Par exemple, « 8 » peut être reconnu comme « B », « 7 » comme « ? », « 5 » comme « S », « 4 » comme « H » ou comme la combinaison de lettres « LI », etc. Cela peut se produire si les chiffres sont « collés », ce qui est fréquent lorsque les documents sont remplis à la machine à écrire.
Le degré de correspondance entre les résultats de la reconnaissance et les caractères réels dépend de la qualité de l’image. S’il existe une tendance à mal interpréter les caractères sur tout ou partie des images traitées, vous devez ajouter ces variantes de reconnaissance à l’alphabet dans la fenêtre Modifier l’alphabet de l’élément Character String correspondant. En spécifiant ces caractères, vous indiquez au programme de ne pas pénaliser l’hypothèse si ces caractères sont rencontrés dans la zone de recherche.
Bien entendu, il n’est pas nécessaire de spécifiertoutesles variantes de reconnaissance possibles. Si la qualité des images est mauvaise, trouver toutes ces variantes peut prendre énormément de temps. Si, en raison de la faible qualité des images, les résultats de la reconnaissance sont imprévisibles, vous devez lancer la recherche en utilisant d’autres propriétés de l’élément, telles que la longueur de la chaîne, la longueur des espaces dans la chaîne, etc.
Spécifiez les caractères dont la forme est similaire à celle des chiffres. Le risque de reconnaissance incorrecte est plus élevé pour ces caractères que pour les autres. Si nécessaire, vous pouvez également spécifier d’autres caractères s’ils sont souvent confondus avec des chiffres.
Considérons le projet 1.fsp (dossier Digital strings\Project1).
Le projet comporte 3 pages.
- Page 1 – le chiffre 4 est reconnu comme la combinaison de lettres « LI » ;
- Page 2 – la sous-chaîne 13 est reconnue comme la lettre « å » ;
- Page 3 – le chiffre 0 est reconnu comme « a », 2 et 5 sont reconnus comme « S », 6 et 8 comme « B ».
Pour détecter la chaîne de chiffres, nous avons créé un élément de type Character String, l’avons nommé DigitalString et avons défini un alphabet ne contenant que des chiffres. Nous avons fixé à 20 le pourcentage maximal de caractères non numériques.
Après avoir exécuté la procédure de mise en correspondance de FlexiLayout sur toutes les pages, le champ de chiffres de la page 3 n’a pas été entièrement détecté. La valeur de qualité de l’hypothèse est d’environ 0,98. Sur les pages 1 et 2, la chaîne a été détectée. Mais comme elle contient des caractères ne figurant pas dans l’alphabet, les hypothèses correspondantes ont été pénalisées et leur qualité est tombée à 0,978 et 0,982 respectivement.
Voyons maintenant les résultats de la mise en correspondance de FlexiLayout si nous ajoutons à l’alphabet les caractères reconnus à tort à la place des chiffres : L, I, e, a, B, S.
Le résultat de la mise en correspondance de FlexiLayout est visible dans le projet 2.fsp (dossier %public%\ABBYY\FlexiCapture\12.0\Samples\FLS\Tips and Tricks\Digital strings\Project2).
Les autres paramètres des projets sont identiques.
Comme vous pouvez le voir, la chaîne de la page 3 a été entièrement détectée, et la qualité de toutes les hypothèses générées est de 1.