Passer au contenu principal
Si une expression régulière a été spécifiée dans les propriétés d’un élément, le programme recherchera dans la zone de recherche toutes les chaînes qui satisfont aux conditions de l’expression régulière. Si aucune expression régulière n’a été spécifiée, le programme utilise les alphabets définis par l’utilisateur. Le programme prend en compte tous les objets texte qui intersectent horizontalement la zone de recherche (verticalement, les objets doivent être entièrement contenus dans la zone de recherche). Les objets texte sont ensuite regroupés en lignes. Les lignes sont construites de gauche à droite. Le programme cesse de construire une ligne lorsque la longueur maximale de l’espace (définie dans la propriété Max space length) est dépassée. Dans les lignes obtenues, le programme identifie des chaînes de caractères, dont chacune ne contient que des caractères provenant de l’un des alphabets définis par l’utilisateur. De façon similaire, le programme divise les lignes en fragments. Ensuite, le programme formule une hypothèse pour chacun des fragments. Selon que l’option Allow embedded hypotheses est sélectionnée ou non, les hypothèses sont formulées selon deux principes différents. Supposons que le programme ait détecté trois fragments à une étape précédente. Si l’option Allow embedded hypotheses est sélectionnée, les hypothèses sont formulées comme suit : hypothèse 1 : fragment 1 hypothèse 2 : fragment 1 + fragment 2 hypothèse 3 : fragment 1 + fragment 2 + fragment 3 hypothèse 4 : fragment 2 hypothèse 5 : fragment 2 + fragment 3 hypothèse 6 : fragment 3 Pour chaque hypothèse, le programme vérifie que la proportion de caractères de chaque alphabet ne dépasse pas la valeur définie dans le champ Percentage of alphabet characters. De même, le programme vérifie que le pourcentage de caractères n’appartenant à aucun alphabet ne dépasse pas la valeur définie dans le champ Percentage of non-alphabet characters. Si au moins l’un des contrôles échoue, aucune hypothèse n’est formulée. Si l’option Allow embedded hypotheses n’est pas sélectionnée, les hypothèses incluses dans la liste ci-dessus sont supprimées. Les hypothèses incluses sont celles qui sont contenues dans une autre hypothèse de la liste ci-dessus. Si les contrôles réussissent pour toutes les hypothèses, seule l’hypothèse suivante reste : fragment 1 + fragment 2 + fragment 3. Ainsi, si l’option Allow embedded hypotheses n’est pas sélectionnée, le programme formule des hypothèses de longueur maximale qui satisfont à toutes les conditions. Même si les hypothèses incluses sont exclues, les hypothèses peuvent s’intersecter. Il peut s’agir d’un caractère ou d’un mot autonome, ou d’une chaîne de caractères faisant partie d’autres hypothèses, mais pour laquelle aucune hypothèse distincte n’a été formulée. Par exemple, le programme peut formuler deux hypothèses (c’est-à-dire deux chaînes) - l’une se terminant par un mot ou une expression donnés et l’autre commençant par ce mot ou cette expression. Par ex. hypothèse 1 : fragment 1 + fragment 2 hypothèse 2 : fragment 2 + fragment 3 Une fois toutes les hypothèses possibles générées, le programme calcule la qualité de prérecherche pour chacune d’elles (il s’agit d’une estimation de la mesure dans laquelle une hypothèse satisfait aux contraintes de recherche définies dans la boîte de dialogue Properties de l’onglet Character String et, dans l’onglet Advanced, dans le champ Advanced pre-search relations). À ce stade, la qualité est calculée selon que la longueur de l’hypothèse en caractères se situe dans l’intervalle flou spécifié dans la propriété Character count, selon que la longueur de l’espace total dans la ligne se situe dans l’intervalle flou spécifié dans TotalGapLength, et selon que le nombre de mots dans la ligne se situe dans l’intervalle flou spécifié dans la propriété Word count. La qualité globale d’une hypothèse est calculée en multipliant toutes les qualités. Une hypothèse Character String possède les propriétés suivantes :
PropertyDescription
Element nameLe nom complet de l’élément.
PageLe numéro de la page sur laquelle l’élément a été détecté.
Surrounding rectLes coordonnées du rectangle qui entoure la région de l’hypothèse.
WidthLa largeur de la région de l’hypothèse.
HeightLa hauteur de la région de l’hypothèse.
TextLes caractères de l’hypothèse.
DetectedIndique si l’objet décrit par l’élément a été trouvé (true) ou si une hypothèse nulle a été formulée (false).
From the best pathIndique si l’hypothèse trouvée appartient au meilleur chemin dans l’arbre des hypothèses (true) ou non (false).
qualité de prérechercheDans quelle mesure l’hypothèse correspond aux propriétés de l’élément spécifiées par les paramètres de la boîte de dialogue Properties et par le code dans le champ Advanced pre-search relations.
Post-search qualityLa qualité de l’hypothèse après application des conditions du champ Advanced post-search relations.
Chain qualityLa qualité de la chaîne d’hypothèses, du premier sous-élément du groupe jusqu’au sous-élément actuel. La qualité de la chaîne est calculée en multipliant les qualités de tous les sous-éléments de la chaîne et sert à comparer des chaînes d’hypothèses concurrentes.

Pour en savoir plus :

Character String Zone de recherche Contraintes de recherche supplémentaires