Passer au contenu principal
Configurez les propriétés de l’élément Chaîne de caractères pour rechercher, sur une seule ligne, des séquences de caractères à l’aide d’ensembles de caractères ou d’expressions régulières. L’élément Chaîne de caractères comporte les propriétés suivantes dans la section À rechercher :

Méthode

Méthode définit la méthode de recherche pour le texte. Les deux méthodes suivantes sont disponibles :

Caractères

Caractères décrit le texte à l’aide d’ensembles de caractères spécifiés, c’est‑à‑dire une collection de caractères autorisés dans la séquence recherchée. Cette méthode est utilisée lorsque le format de la séquence de caractères ne peut pas être décrit à l’aide d’une expression régulière, ou si la qualité de l’image est insuffisante, entraînant des erreurs de reconnaissance. Plusieurs ensembles de caractères peuvent être spécifiés pour un élément Character String ; toutefois, ces ensembles ne peuvent pas contenir simultanément de caractères communs. Si le format du texte n’est pas connu, les ensembles de caractères autorisés ne sont pas définis et tous les caractères possibles sont pris en compte lors de la recherche. Pour définir des ensembles de caractères, sélectionnez Caractères dans le champ Method et accédez au champ Characters. Dans la boîte de dialogue qui s’ouvre, vous pouvez créer de nouveaux ensembles de caractères, ainsi que modifier et supprimer les ensembles existants.

Définition d’un jeu de caractères

  1. Sélectionnez la norme d’encodage de caractères appropriée dans les listes déroulantes des champs Code Page ou Unicode Subrange.
  2. Sélectionnez les caractères souhaités dans le tableau ci-dessous.
  3. Les caractères sélectionnés s’affichent dans le champ Selected characters. Vous pouvez également définir un jeu de caractères à l’aide du clavier.
  4. Dans le champ Portion in text, %, indiquez la proportion de caractères (de 0 à 100) présents dans le texte recherché.
CharacterSet

Expression régulière

Expression régulière décrit le texte à rechercher au moyen d’une expression régulière. Les expressions régulières définissent la structure d’un mot ou de toute autre valeur saisie à l’aide d’un langage spécifique. Une expression régulière détermine les combinaisons de caractères possibles et leur positionnement les unes par rapport aux autres, décrivant ainsi la structure du texte recherché. La recherche par expression régulière est stricte — l’hypothèse formulée doit correspondre exactement à l’expression régulière. En général, cette méthode est utilisée lorsque les images de documents sont de haute qualité et exemptes d’erreurs de reconnaissance. Pour décrire le texte à rechercher à l’aide d’une expression régulière, sélectionnez Expression régulière dans le champ Method, puis passez au champ ci-dessous. Dans l’éditeur qui s’ouvre, saisissez votre expression régulière.

Alphabet des expressions régulières

Nom dans la listeSymbole dans le champExemple
N’importe quel caractère*“k”*“t” – autorise « kit », « kat », etc.
LettreCC”at” – autorise cat, bat, Rat, mat, etc.
Lettre majusculeAA”at” – autorise Cat, Bat, Rat, Mat, etc.
Lettre minusculeaa”at” – autorise cat, bat, rat, mat, etc.
Lettre ou chiffreXX – autorise une seule lettre ou un seul chiffre.
ChiffreNN”th” autorise 5th, 4th, 6th, etc.
Chaîne"""cat”
Ou”dr”(“i""u”)“nk” – autorise “drink” ou “drunk”.
Caractère du jeu[][hm]“at” – autorise « hat » ou « mat ».
Caractère ne faisant pas partie du jeu[^][^b]“at” – autorise « cat », « mat », « rat », mais n’autorise pas bat.
Nombre quelconque de répétitions (s’applique à l’expression ou sous-expression à gauche){-}[AB74]{-} – autorise toute combinaison de A, B, 7, 4, de toute longueur.
Nombre de répétitions égal à n{n}N{2}"th" autorise 25th, 84th, 11th, etc.
De n à m répétitions{n-m}N{1-3}"th" autorise 5th, 84th, 111th, etc.
De 0 à n répétitions{-n}N{-2}"th" autorise th, 84th, 4th, etc.
n répétitions ou plus{n-}N{2-}"th" autorise 25th, 834th, 311th, 34576th, etc.
Sous-expression()

Exemples d’expressions régulières

  1. Code postal : [0-9]{6} Exemple de valeur : “142172”
  2. Code ZIP (USA) : [0-9]{5}("-"[0-9]{4}){-1} Exemples de valeurs : “55416”, “33701-4313”
  3. Revenu : N{4-8}[,]N{2} Exemples de valeurs : “15000,00”, “4499,00”
  4. Mois au format numérique : ((|"0")[1-9])|("10")|("11")|("12") Exemples de valeurs : “4”, “05”, “12”
  5. Fraction : ("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-}))) Exemples de valeurs : “1234,567”, “0.99”, “100,0”, “-345.6788903”
  6. E-mail : [A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost") Exemples de valeurs : [email protected], [email protected], [email protected]

Expressions régulières étendues

Les expressions régulières étendues sont des expressions régulières offrant des fonctionnalités supplémentaires, délimitées par un crochet ouvrant suivi d’un caractère pourcentage, puis d’un caractère pourcentage suivi d’un crochet fermant ([% and %]). Les expressions régulières étendues offrent les fonctionnalités supplémentaires suivantes :
  1. Un ou plusieurs caractères entre crochets sont complétés par des erreurs OCR courantes. Par exemple, [%S%] peut autoriser S, $ et 5.
  2. Mots spéciaux à l’intérieur de [%...%] pour des ensembles de caractères courants et des erreurs OCR : a. LETTERS - Lettres latines majuscules et caractères couramment reconnus comme tels ; b. DIGITS - Chiffres et caractères couramment reconnus comme tels ; c. LETERSANDDIGITS - Lettres latines majuscules, chiffres et caractères couramment reconnus comme tels.
Par exemple, [%DIGITS%]{9} indique neuf chiffres consécutifs ou des erreurs OCR courantes pour les chiffres, p. ex. “OI234Sb7B9”.

Propriétés supplémentaires

  • Erreurs autorisées définit le pourcentage maximal d’erreurs de reconnaissance autorisé. Autrement dit, il indique le pourcentage maximal du nombre total de caractères pouvant provenir de caractères en dehors de l’ensemble défini. Une hypothèse pour un objet ne peut être formulée que si son pourcentage d’erreurs de reconnaissance ne dépasse pas la valeur spécifiée.
  • Nombre de mots définit le nombre minimal et maximal de mots dans le texte recherché.
  • Nombre de caractères définit le nombre minimal et maximal de caractères dans le texte recherché.
  • Recherche de parties de mots indique si des fragments de mots sont autorisés dans les hypothèses. Désactivez cette option si vous souhaitez exclure les hypothèses contenant des fragments de mots et ne rechercher que des mots entiers.

Propriétés avancées

  • Autoriser les hypothèses imbriquées permet d’utiliser les caractères présents dans la zone de recherche pour générer toutes les hypothèses possibles, y compris les hypothèses intersectées et imbriquées.
  • Longueur max. d’espace permet d’indiquer la longueur maximale de l’espace à l’intérieur de l’objet détecté.
  • Orientation du texte permet d’indiquer l’orientation du texte recherché. Par défaut, l’activité ne recherche que le texte orienté horizontalement et ne formulera pas d’hypothèse pour du texte pivoté. Si vous devez trouver du texte pivoté d’une certaine manière et ignorer le texte écrit dans toute autre direction, sélectionnez uniquement l’option Sens horaire ou Sens anti‑horaire. Pour trouver le texte quelle que soit son orientation, activez toutes les options disponibles.
  • Détecter les mots selon spécifie comment les lignes doivent être découpées en mots : automatiquement (Pré‑reconnaissance) ou en découpant une ligne en mots (Espace inter‑mots) chaque fois que l’espace entre des caractères adjacents est supérieur ou égal à la valeur saisie dans Min. espace inter‑mots.
En mode avancé, les propriétés Nombre de mots et Nombre de caractères ne sont pas définies par une valeur numérique, mais par un intervalle flou ; pour plus de détails, voir Intervalle flou et Éditeur d’intervalle flou. Pour afficher les propriétés avancées, cliquez sur l’icône du mode avancé dans le volet Propriétés.