Un intervalle flou est un outil qui permet au programme d’évaluer la qualité d’une hypothèse en fonction de sa longueur. Un intervalle flou peut être mesuré en unités de longueur (dots, millimètres, etc.) ou en caractères (dans le cas des lignes). Pour un intervalle flou, quatre valeurs doivent être spécifiées afin de définir les plages de valeurs optimales et possibles.
Supposons que vous disposiez d’un intervalle flou [f1,f2,f3,f4] et que la longueur de la chaîne de caractères détectée (ou la longueur de l’espace détecté) soit L. Si la longueur L se situe dans la plage allant de f2 à f3 (c.-à-d. L >= f2 et L <= f3), la qualité de l’hypothèse est de 1. Si la longueur se situe dans la plage allant de f1 à f2, la qualité de l’hypothèse varie linéairement de 0 à 1 (Quality(f1) = 0, Quality(f2) = 1). De même, si la longueur se situe dans la plage allant de f3 à f4, la qualité de l’hypothèse varie linéairement de 1 à 0 (Quality(f3) = 1, Quality(f4) = 0). Si la longueur ne se situe pas dans la plage allant de f1 à f4 (c.-à-d. L < f1 ou L > f4), la qualité de l’hypothèse est de 0 (Quality(L) = 0). La qualité de l’hypothèse pour l’objet détecté est multipliée par la valeur de la propriété Character count. La valeur de cette propriété est sélectionnée en fonction de la longueur de l’objet détecté.
La qualité de toute chaîne d’hypothèses pour plusieurs éléments est calculée en multipliant celles de chaque élément. Si la chaîne est relativement longue et que les estimations de qualité des hypothèses qui la composent sont trop faibles en raison de contraintes trop strictes, la qualité globale de la chaîne risque d’être trop faible.
Assurez-vous que l’hypothèse sélectionnée a l’estimation de qualité la plus élevée possible. D’autre part, vous devez pouvoir distinguer les hypothèses selon leur qualité afin de sélectionner la meilleure. Il est donc nécessaire de configurer les intervalles flous de manière à ne pas trop pénaliser les hypothèses acceptables.
Vous pouvez également utiliser des valeurs négatives pour la limite gauche de l’intervalle flou (même s’il n’existe en réalité aucune chaîne de longueur négative). Cela peut être utile, car la variation de la qualité dans la plage de 0 à 1 sera alors moins abrupte, ce qui réduira la pénalité. Si, dans le même temps, vous devez définir la limite inférieure de ce paramètre (par exemple, la longueur de la chaîne ne peut pas être inférieure à 10 caractères et l’intervalle flou pour la longueur de la chaîne est [-10,20,30,40]), vous pouvez le faire directement dans l’onglet Advanced en saisissant Value.Length >= 10 dans le volet Advanced post-search relations.
En général, il est recommandé de ne pas définir des intervalles trop stricts. Cela est particulièrement important lors du traitement d’images de qualité variable. Sur certaines images, par exemple, il peut y avoir des espaces à l’intérieur des lettres en raison de la mauvaise qualité du document source ou de mauvais paramètres de numérisation. Dans ce cas, le programme peut interpréter un caractère comme plusieurs caractères, ce qui peut entraîner une forte diminution de la qualité de l’hypothèse si l’intervalle flou est trop strict. Par conséquent, le programme écartera une hypothèse qui est en réalité correcte et en sélectionnera une autre. C’est pourquoi, si vous devez choisir entre des hypothèses Character String en comparant leur longueur, il est préférable de spécifier des contraintes supplémentaires dans le volet Advanced post-search relations.
Éditeur visuel des intervalles flous
ABBYY FlexiLayout Studio propose un éditeur visuel pour faciliter la définition des intervalles flous. Vous pouvez ouvrir l’éditeur d’intervalles flous à partir de la boîte de dialogue Propriétés d’un élément Character String (onglet Character String, boutons
) ou depuis le menu principal en sélectionnant Outils → Fuzzy Interval Editor…