Passer au contenu principal
L’élément Character String présente les propriétés suivantes dans la section What to search for :

Méthode

Méthode définit la méthode de recherche pour le texte. Les deux méthodes suivantes sont disponibles :

Caractères

Caractères décrit le texte à l’aide d’ensembles de caractères spécifiés, c’est‑à‑dire une collection de caractères autorisés dans la séquence recherchée. Cette méthode est utilisée lorsque le format de la séquence de caractères ne peut pas être décrit à l’aide d’une expression régulière, ou si la qualité de l’image est insuffisante, entraînant des erreurs de reconnaissance. Plusieurs ensembles de caractères peuvent être spécifiés pour un élément Character String ; toutefois, ces ensembles ne peuvent pas contenir simultanément de caractères communs. Si le format du texte n’est pas connu, les ensembles de caractères autorisés ne sont pas définis et tous les caractères possibles sont pris en compte lors de la recherche. Pour définir des ensembles de caractères, sélectionnez Caractères dans le champ Method et accédez au champ Characters. Dans la boîte de dialogue qui s’ouvre, vous pouvez créer de nouveaux ensembles de caractères, ainsi que modifier et supprimer les ensembles existants.

Définition d’un jeu de caractères

  1. Sélectionnez la norme d’encodage de caractères appropriée dans les listes déroulantes des champs Code Page ou Unicode Subrange.
  2. Sélectionnez les caractères souhaités dans le tableau ci-dessous.
  3. Les caractères sélectionnés s’affichent dans le champ Selected characters. Vous pouvez également définir un jeu de caractères à l’aide du clavier.
  4. Dans le champ Portion in text, %, indiquez la proportion de caractères (de 0 à 100) présents dans le texte recherché.
CharacterSet

Expression régulière

Expression régulière décrit le texte à rechercher au moyen d’une expression régulière. Les expressions régulières définissent la structure d’un mot ou de toute autre valeur saisie à l’aide d’un langage spécifique. Une expression régulière détermine les combinaisons de caractères possibles et leur positionnement les unes par rapport aux autres, décrivant ainsi la structure du texte recherché. La recherche par expression régulière est stricte — l’hypothèse formulée doit correspondre exactement à l’expression régulière. En général, cette méthode est utilisée lorsque les images de documents sont de haute qualité et exemptes d’erreurs de reconnaissance. Pour décrire le texte à rechercher à l’aide d’une expression régulière, sélectionnez Expression régulière dans le champ Method, puis passez au champ ci-dessous. Dans l’éditeur qui s’ouvre, saisissez votre expression régulière.

Alphabet des expressions régulières

Nom dans la listeSymbole dans le champExemple
N’importe quel caractère*“k”*“t” – autorise “kit”, “kat”, etc.
LettreCC”at” – autorise “cat”, “bat”, “Rat”, “mat”, etc.
Lettre majusculeAA”at” – autorise “Cat”, “Bat”, “Rat”, “Mat”, etc.
Lettre minusculeaa”at” – autorise “car”, “bat”, “rat”, “mat”, etc.
Lettre ou chiffreXX – autorise une seule lettre ou un seul chiffre.
ChiffreNN”th” – autorise “5th”, “4th”, “6th”, etc.
Chaîne"""cat”
Ou”dr”(“i""u”)“nk” – autorise “drink” ou “drunk”.
Caractère de l’ensemble[][hm]“at” – autorise “hat” ou “mat”.
Caractère ne faisant pas partie de l’ensemble[^][^b]“at” – autorise “cat”, “mat”, “rat”, mais n’autorise pas “bat”.
N’importe quel nombre de répétitions (s’applique à l’expression ou sous‑expression à gauche){-}[AB74]{-} – autorise toute combinaison de A, B, 7, 4 de n’importe quelle longueur.
Le nombre de répétitions est n{n}N{2}"th" – autorise “25th”, “84th”, “11th”, etc.
De n à m répétitions{n-m}N{1-3}"th" – autorise “5th”, “84th”, “111th”, etc.
0 à n répétitions{-n}N{-2}"th" – autorise “th”, “84th”, “4th”, etc.
n répétitions ou plus{n-}N{2-}"th" – autorise “25th”, “834th”, “311th”, “34576th”, etc.
Sous‑expression()

Exemples d’expressions régulières

  1. Code postal : [0-9]{6} Valeur d’exemple : “142172”
  2. Code ZIP (USA) : [0-9]{5}("-"[0-9]{4}){-1} Valeurs d’exemple : “55416”, “33701-4313”
  3. Revenu : N{4-8}[,]N{2} Valeurs d’exemple : “15000,00”, “4499,00”
  4. Mois au format numérique : ((|"0")[1-9])|("10")|("11")|("12") Valeurs d’exemple : “4”, “05”, “12”
  5. Fraction : ("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-}))) Valeurs d’exemple : “1234,567”, “0.99”, “100,0”, “-345.6788903”
  6. E-mail : [A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost") Valeurs d’exemple : “support@abbyy.com”, “my-name@company.org.ru”, “info@gallery.museum

Expressions régulières étendues

Les expressions régulières étendues sont des expressions régulières avec des fonctionnalités supplémentaires délimitées par un crochet ouvrant suivi d’un signe pourcentage et un signe pourcentage suivi d’un crochet fermant ([% et %]). Les expressions régulières étendues offrent les fonctionnalités supplémentaires suivantes :
  1. Un ou plusieurs caractères à l’intérieur des crochets sont augmentés des confusions d’OCR (Reconnaissance optique de caractères) les plus courantes. Par exemple, [%S%] peut autoriser S, $ et 5.
  2. Mots réservés à l’intérieur de [%...%] pour des ensembles de caractères courants et les confusions d’OCR : a. LETTERS - Lettres latines majuscules et caractères couramment reconnus comme des lettres latines majuscules ; b. DIGITS - Chiffres et caractères couramment reconnus comme des chiffres ; c. LETTERSANDDIGITS - Lettres latines majuscules, chiffres et caractères couramment reconnus comme des lettres latines majuscules et des chiffres.
Par exemple, [%DIGITS%]{9} spécifie neuf chiffres consécutifs ou leurs confusions d’OCR courantes, par ex. « OI234Sb7B9 ».

Propriétés supplémentaires

  • Erreurs autorisées indique le pourcentage maximal d’erreurs de reconnaissance autorisé. Autrement dit, il s’agit du pourcentage maximal de caractères, sur l’ensemble, pouvant provenir de l’extérieur de l’ensemble de caractères défini. Une hypothèse pour un objet ne peut être formulée que si son pourcentage d’erreurs de reconnaissance n’excède pas la valeur spécifiée.
  • Nombre de mots indique le nombre minimal et maximal de mots dans le texte recherché.
  • Nombre de caractères indique le nombre minimal et maximal de caractères dans le texte recherché.
  • Rechercher des parties de mots indique si des fragments de mots sont autorisés dans les hypothèses. Désactivez cette option pour exclure les hypothèses contenant des fragments de mots et rechercher uniquement des mots entiers.

Propriétés avancées

  • Autoriser les hypothèses imbriquées permet d’utiliser les caractères présents dans la zone de recherche pour générer toutes les hypothèses possibles — y compris les hypothèses qui se croisent et les hypothèses imbriquées.
  • Longueur max. de l’espace permet d’indiquer la longueur maximale de l’espace à l’intérieur de l’objet détecté.
  • Orientation du texte permet de préciser l’orientation du texte recherché. Par défaut, l’activité ne recherche que le texte horizontal et ne formulera pas d’hypothèse pour le texte pivoté. Si vous devez trouver du texte pivoté d’une certaine manière et ignorer le texte écrit dans toute autre direction, sélectionnez uniquement l’option Sens horaire ou Sens antihoraire. Pour trouver du texte quelle que soit son orientation, activez toutes les options disponibles.
  • Détecter les mots par indique comment les lignes doivent être découpées en mots : automatiquement (Préreconnaissance) ou en découpant une ligne en mots (Espace intermots) chaque fois que l’espace entre des caractères adjacents est supérieur ou égal à la valeur saisie dans Min. espace intermots.
En mode avancé, les propriétés Nombre de mots et Nombre de caractères ne sont pas définies par une valeur numérique, mais par un intervalle flou. Pour plus de détails, voir Intervalle flou et Éditeur d’intervalle flou. Pour afficher les propriétés avancées, cliquez sur l’icône du mode avancé dans le volet Propriétés.