Passer au contenu principal
Character String est un élément d’un FlexiLayout qui décrit une chaîne de caractères écrite sur une seule ligne, de gauche à droite. Les chaînes de caractères peuvent être composées de mots ou de parties de mots. Les éléments Character String sont signalés par dans l’arborescence FlexiLayout. Les éléments Character String servent à rechercher du texte non défini. Le programme considère comme candidats les objets Recognized Words détectés lors de la pré-reconnaissance dans la zone de recherche de l’élément. En général, les chaînes de caractères se trouvent à côté d’un Static Text. Par exemple, pour rechercher le n° de réf. d’un document, le programme doit d’abord trouver le Static Text “Ref. No.”, puis rechercher les chiffres à côté.

Décrire le texte à rechercher

Cliquez sur l’onglet Character String dans la boîte de dialogue Propriétés pour décrire l’objet correspondant. Pour ouvrir la boîte de dialogue Propriétés, cliquez avec le bouton droit sur l’élément dans l’arborescence FlexiLayout, puis sélectionnez Properties… dans le menu contextuel.
Le texte à rechercher peut être décrit de deux manières.

Décrire le texte de recherche à l’aide d’une expression régulière

Une expression régulière définit les combinaisons possibles de caractères. Si vous utilisez une expression régulière, l’hypothèse doit répondre aux conditions qu’elle définit. Cette méthode est généralement utilisée pour des documents de bonne qualité, reconnus sans erreurs. Pour saisir une expression régulière, sélectionnez l’option Regular expression et saisissez l’expression dans le champ situé à côté. Vous pouvez également cliquer sur le bouton , qui ouvre une liste déroulante d’options (Any Letter, Character From Set, etc.). Sélectionnez l’option souhaitée pour saisir l’expression régulière correspondante dans le champ.

N’importe quel caractère

*

“k”*“t” – accepte ‘kit’, ‘kat’, etc.

Lettre

C

C”at” – accepte cat, bat, Rat, mat, etc.

Lettre majuscule

A

A”at” – accepte Cat, Bat, Rat, Mat, etc.

Lettre minuscule

a

a”at” – accepte car, bat, rat, mat, etc.

Lettre ou chiffre

Х

X – accepte une seule lettre ou un seul chiffre.

Chiffre

N

N”th” accepte 5th, 4th, 6th, etc.

String

""

"cat”

Ou

|

“dr”(“i”|“u”)“nk” – accepte “drink” ou “drunk”.

Caractère appartenant à l’ensemble

[]

[hm]“at” – accepte ‘hat’ ou ‘mat’.

Caractère n’appartenant pas à l’ensemble

[^]

[^b]“at” – accepte ‘cat’, ‘mat’, ‘rat’, mais pas bat.

Nombre quelconque de répétitions

(s’applique à l’expression ou à la sous-expression à gauche)

{-}

[AB74]{-} – accepte toute combinaison de A, B, 7 et 4, quelle qu’en soit la longueur.

Le nombre de répétitions est n

{n}

N{2}“th” accepte 25th, 84th, 11th, etc.

De n à m répétitions

{n-m}

N{1-3}“th” accepte 5th, 84th, 111th, etc.

De 0 à n répétitions

{-n}

N{-2}“th” accepte th, 84th, 4th, etc.

n répétitions ou plus

{n-}

N{2-}“th” accepte 25th, 834th, 311th, 34576th, etc.

Sous-expression

()

 

Décrire le texte de recherche à l’aide d’un alphabet

Un alphabet répertorie les caractères susceptibles d’apparaître dans le texte de recherche. Cette méthode est utilisée lorsque la chaîne de caractères ne peut pas être décrite au moyen d’une expression régulière ou lorsque le texte reconnu comporte trop d’erreurs en raison d’une mauvaise qualité d’image. Vous pouvez spécifier plusieurs alphabets pour un élément Character String. Si le format du texte est inconnu, aucun alphabet n’est spécifié. Dans ce cas, le programme prendra en compte tous les caractères possibles lors de la recherche de l’objet correspondant à l’élément. Pour décrire le texte de recherche à l’aide d’un alphabet :
  1. Sélectionnez un mode de génération d’hypothèses. Pour utiliser les caractères de la zone de recherche afin de générer toutes les hypothèses possibles, y compris les hypothèses qui se chevauchent et les hypothèses imbriquées, sélectionnez Allow embedded hypotheses. Pour générer des hypothèses de longueur maximale, désactivez Allow embedded hypotheses.
  2. Créez un ou plusieurs alphabets.
Pour créer un alphabet :
  1. Cliquez sur Add… 2. Dans la boîte de dialogue Add New Alphabet, sélectionnez la page de codes requise dans la liste Code page, 3. Dans la table de caractères, sélectionnez les caractères qui figurent dans le texte de recherche. Les caractères sélectionnés et leur nombre s’affichent dans le champ Selected on screen/selected in all. 4. Dans le champ Percentage of alphabet characters, indiquez le pourcentage requis de caractères de l’alphabet dans le texte de recherche.
Remarque. Vous pouvez spécifier plusieurs alphabets, mais ils ne doivent pas se chevaucher, c’est-à-dire contenir les mêmes caractères. Pour supprimer un alphabet, sélectionnez-le dans la liste Alphabets et cliquez sur Delete. Pour ajouter ou supprimer des caractères d’alphabet, sélectionnez l’alphabet voulu dans la liste Alphabets, puis cliquez sur Edit…
  1. Dans le champ Percentage of non-alphabet characters, indiquez le pourcentage autorisé de caractères n’appartenant à aucun des alphabets.
Selon la méthode utilisée pour décrire le texte de recherche, vous devrez peut-être spécifier les propriétés suivantes :
  1. Sélectionnez Whole words only si vous souhaitez rechercher uniquement des mots entiers.
  2. Utilisez l’option Detect words by interword space pour préciser comment les lignes doivent être divisées en mots. Désactivez cette option pour détecter les mots automatiquement. Lorsque cette option est activée, une ligne est divisée en mots chaque fois que l’espace entre des caractères voisins est supérieur ou égal à la valeur saisie dans Min interword space. Remarque. En cas de détection automatique des mots, les fins de mots sont détectées à partir des espaces ou d’autres symboles qui séparent les mots (par ex. ” , ”, ” ; ”, ” / ”, ” ? ” — l’ensemble exact des symboles dépend de la langue de pré-reconnaissance sélectionnée), ou à partir d’autres attributs. Pour vous assurer que le programme divise correctement les lignes en mots, examinez les objet texte sur les images de test (View → Images → Objects → Recognized Words).
  3. Dans les champs Word count, indiquez le nombre de mots dans la chaîne de caractères. Le nombre de mots est spécifié au moyen d’un intervalle flou. L’intervalle par défaut est {-1,-1,INF,INF} (c.-à-d. que le programme recherche des hypothèses contenant n’importe quel nombre de mots).
  4. Dans le champ Max space length, indiquez la longueur maximale de l’espace à l’intérieur de l’objet. Elle est mesurée dans les unités de mesure définies par l’utilisateur. Vous pouvez estimer la longueur de l’espace en consultant les coordonnées des objets voisins. Placez le pointeur de la souris sur un objet voisin pour afficher ses coordonnées dans la barre d’état. Lors de la recherche d’un texte, des caractères seront ajoutés à la chaîne de caractères jusqu’à ce que la distance entre des éléments voisins dépasse Max space length.
  5. Dans le champ Character count, indiquez la longueur de la chaîne de caractères (c’est-à-dire le nombre de caractères de la chaîne). Le nombre de caractères est spécifié au moyen d’un intervalle flou et permet d’évaluer la qualité de l’hypothèse en fonction de sa longueur. Utilisez le bouton pour spécifier des intervalles flous dans une fenêtre distincte qui les visualise pour plus de commodité.

Voir aussi :

Créer et supprimer des éléments Vue d’ensemble des propriétés des éléments Zone de recherche Contraintes de recherche supplémentaires pour l’élément Character String