Character String

Character String est un élément d’un FlexiLayout qui décrit une chaîne de caractères écrite sur une seule ligne, de gauche à droite. Les chaînes de caractères peuvent être composées de mots ou de parties de mots. Les éléments Character String sont signalés par

dans l’arborescence FlexiLayout. Les éléments Character String servent à rechercher du texte non défini. Le programme considère comme candidats les objets Recognized Words détectés lors de la pré-reconnaissance dans la zone de recherche de l’élément. En général, les chaînes de caractères se trouvent à côté d’un Static Text. Par exemple, pour trouver le n° de réf. d’un document, FlexiLayout Studio trouve d’abord le Static Text “Ref. No.”, puis recherche les chiffres à côté.

Décrire le Texte de recherche

Cliquez sur l’onglet Character String dans la boîte de dialogue Propriétés pour décrire l’objet correspondant. Pour ouvrir la boîte de dialogue Propriétés, cliquez avec le bouton droit sur l’élément dans l’arborescence FlexiLayout et sélectionnez Propriétés dans le menu contextuel.

Capture d’écran de l’onglet Character String de la boîte de dialogue Propriétés de l’élément dans ABBYY FlexiLayout Studio.

Vous pouvez décrire le Texte de recherche à l’aide d’une expression régulière ou d’un alphabet.

Décrire le Texte de recherche à l’aide d’une expression régulière

Une expression régulière définit les combinaisons possibles de caractères. Si vous en utilisez une, l’hypothèse doit répondre aux conditions qu’elle définit. Utilisez cette méthode sur des documents de bonne qualité, reconnus sans erreurs. Pour saisir une expression régulière, sélectionnez l’option expression régulière et saisissez l’expression dans le champ situé à côté. Vous pouvez également cliquer sur le bouton

, qui ouvre une liste déroulante d’options (Any Letter, Character From Set et ainsi de suite). Sélectionnez l’option pour saisir l’expression régulière correspondante dans le champ.

Syntaxe des expressions régulières

Nom dans la liste	Symbole dans le champ	Exemple
N’importe quel caractère	*	“k”*“t” – autorise ‘kit’, ‘kat’, etc.
Lettre	C	C”at” – autorise cat, bat, Rat, mat, etc.
Lettre majuscule	A	A”at” – autorise Cat, Bat, Rat, Mat, etc.
Lettre minuscule	a	a”at” – autorise cat, bat, rat, mat, etc.
Lettre ou chiffre	X	X – autorise une seule lettre ou un seul chiffre.
Chiffre	N	N”th” autorise 5th, 4th, 6th, etc.
Chaîne de caractères	""	"cat”
Ou			”dr”(“i"	"u”)“nk” – autorise “drink” ou “drunk”.
Caractère de l’ensemble	[]	[hm]“at” – autorise ‘hat’ ou ‘mat’.
Caractère n’appartenant pas à l’ensemble	[^]	[^b]“at” – autorise ‘cat’, ‘mat’, ‘rat’, mais pas bat.
Nombre quelconque de répétitions (s’applique à l’expression ou à la sous-expression à gauche)	{-}	[AB74]{-} – autorise toute combinaison de A, B, 7 et 4, quelle qu’en soit la longueur.
Le nombre de répétitions est n	{n}	N{2}“th” autorise 25th, 84th, 11th, etc.
n à m répétitions	{n-m}	N{1-3}“th” autorise 5th, 84th, 111th, etc.
0 à n répétitions	{-n}	N{-2}“th” autorise th, 84th, 4th, etc.
n répétitions ou plus	{n-}	N{2-}“th” autorise 25th, 834th, 311th, 34576th, etc.
Sous-expression	()

Décrire le Texte de recherche à l’aide d’un alphabet

Un alphabet répertorie les caractères qui peuvent apparaître dans le Texte de recherche. Utilisez cette méthode lorsque la chaîne de caractères ne peut pas être décrite à l’aide d’une expression régulière ou que le texte reconnu comporte trop d’erreurs en raison d’une qualité d’image médiocre. Vous pouvez spécifier plusieurs alphabets pour un élément Character String. Si le format du texte est inconnu, ne spécifiez aucun alphabet. Dans ce cas, FlexiLayout Studio prend en compte tous les caractères possibles lorsqu’il recherche l’objet correspondant à l’élément.

Sélectionnez un mode de génération des hypothèses

Pour utiliser les caractères de la zone de recherche afin de générer toutes les hypothèses possibles, y compris les hypothèses qui se chevauchent et les hypothèses imbriquées, sélectionnez Allow embedded hypotheses. Pour générer des hypothèses de longueur maximale, désactivez Allow embedded hypotheses.

Créez un ou plusieurs alphabets

Pour chaque alphabet :

Cliquez sur Add….
Dans la boîte de dialogue Add New Alphabet, sélectionnez la page de codes requise dans la liste Code page.
Dans la Character map, sélectionnez les caractères qui apparaissent dans le Texte de recherche. Les caractères sélectionnés ainsi que leur nombre s’affichent dans le champ Selected on screen/selected in all.
Dans le champ Percentage of alphabet characters, spécifiez le pourcentage requis de caractères de l’alphabet dans le Texte de recherche.

Vous pouvez spécifier plusieurs alphabets, mais ils ne doivent pas se chevaucher, c’est-à-dire contenir les mêmes caractères.

Pour supprimer un alphabet, sélectionnez-le dans la liste Alphabets et cliquez sur Delete. Pour ajouter ou supprimer des caractères d’alphabet, sélectionnez l’alphabet voulu dans la liste Alphabets, puis cliquez sur Edit…. Dans le champ Percentage of non-alphabet characters, spécifiez le pourcentage autorisé de caractères qui n’appartiennent à aucun des alphabets.

Propriétés supplémentaires de Character String

Selon la méthode utilisée pour décrire le texte de recherche, vous devrez peut-être spécifier les propriétés suivantes :

Mots entiers uniquement – Recherche uniquement des mots entiers.
Détecter les mots selon l’espace intermot – Indique comment les lignes sont divisées en mots. Désactivez cette option pour détecter automatiquement les mots. Lorsqu’elle est activée, une ligne est divisée en mots chaque fois que l’espace entre des caractères voisins est supérieur ou égal à la valeur saisie dans Espace intermot min.
En cas de détection automatique des mots, les fins de mots sont détectées à partir des espaces, d’autres symboles séparant les mots (par exemple, ,, ;, / ou ?) ou d’autres attributs. L’ensemble exact des symboles séparateurs dépend de la langue de pré-reconnaissance sélectionnée. Pour vous assurer que FlexiLayout Studio divise correctement les lignes en mots, vérifiez les objets texte dans les images de test (View → Images → Objects → Recognized Words).
Word count – Indique le nombre de mots dans la chaîne de caractères à l’aide d’un intervalle approximatif. L’intervalle par défaut est {-1,-1,INF,INF} (c’est-à-dire que les hypothèses comportant un nombre quelconque de mots sont associées).
Max space length – Indique la longueur maximale de l’espace à l’intérieur de l’objet, mesurée dans les unités de mesure définies par l’utilisateur. Vous pouvez estimer la longueur de l’espace en examinant les coordonnées des objets voisins : placez le pointeur de la souris sur un objet voisin pour afficher ses coordonnées dans la barre d’état. Lors de la recherche de texte, des caractères sont ajoutés à la chaîne de caractères jusqu’à ce que la distance entre des éléments voisins dépasse Max space length.
Character count – Indique la longueur de la chaîne de caractères (le nombre de caractères) à l’aide d’un intervalle approximatif, qui évalue également la qualité de l’hypothèse en fonction de sa longueur. Utilisez le bouton pour spécifier des intervalles approximatifs dans une fenêtre séparée qui les visualise.

Static Text

Paragraph

⌘I

Introducing ABBYY FlexiLayout Studio

Program interface

Projects

Batches

FlexiLayouts

Multi-page FlexiLayout

Pre-recognition

Elements

Blocks

Working with tables

Hypotheses and trees of hypotheses

Debugging the FlexiLayout

Classification

Export

FlexiLayout language

Tips and tricks

Appendix

Tutorial

Décrire le Texte de recherche

Décrire le Texte de recherche à l’aide d’une expression régulière

Syntaxe des expressions régulières

Décrire le Texte de recherche à l’aide d’un alphabet

Propriétés supplémentaires de Character String

​Décrire le Texte de recherche

​Décrire le Texte de recherche à l’aide d’une expression régulière

​Syntaxe des expressions régulières

​Décrire le Texte de recherche à l’aide d’un alphabet

​Propriétés supplémentaires de Character String

​Sujets connexes

Décrire le Texte de recherche

Décrire le Texte de recherche à l’aide d’une expression régulière

Syntaxe des expressions régulières

Décrire le Texte de recherche à l’aide d’un alphabet

Propriétés supplémentaires de Character String

Sujets connexes