Méthode
Caractères
Définition d’un jeu de caractères
- Sélectionnez la norme d’encodage de caractères appropriée dans les listes déroulantes des champs Code Page ou Unicode Subrange.
- Sélectionnez les caractères souhaités dans le tableau ci-dessous.
- Les caractères sélectionnés s’affichent dans le champ Selected characters. Vous pouvez également définir un jeu de caractères à l’aide du clavier.
- Dans le champ
Portion in text, %, indiquez la proportion de caractères (de 0 à 100) présents dans le texte recherché.

Expression régulière
Alphabet des expressions régulières
| Nom dans la liste | Symbole dans le champ | Exemple | ||
|---|---|---|---|---|
| N’importe quel caractère | * | “k”*“t” – autorise “kit”, “kat”, etc. | ||
| Lettre | C | C”at” – autorise “cat”, “bat”, “Rat”, “mat”, etc. | ||
| Lettre majuscule | A | A”at” – autorise “Cat”, “Bat”, “Rat”, “Mat”, etc. | ||
| Lettre minuscule | a | a”at” – autorise “car”, “bat”, “rat”, “mat”, etc. | ||
| Lettre ou chiffre | X | X – autorise une seule lettre ou un seul chiffre. | ||
| Chiffre | N | N”th” – autorise “5th”, “4th”, “6th”, etc. | ||
| Chaîne | "" | "cat” | ||
| Ou | ”dr”(“i" | "u”)“nk” – autorise “drink” ou “drunk”. | ||
| Caractère de l’ensemble | [] | [hm]“at” – autorise “hat” ou “mat”. | ||
| Caractère ne faisant pas partie de l’ensemble | [^] | [^b]“at” – autorise “cat”, “mat”, “rat”, mais n’autorise pas “bat”. | ||
| N’importe quel nombre de répétitions (s’applique à l’expression ou sous‑expression à gauche) | {-} | [AB74]{-} – autorise toute combinaison de A, B, 7, 4 de n’importe quelle longueur. | ||
| Le nombre de répétitions est n | {n} | N{2}"th" – autorise “25th”, “84th”, “11th”, etc. | ||
| De n à m répétitions | {n-m} | N{1-3}"th" – autorise “5th”, “84th”, “111th”, etc. | ||
| 0 à n répétitions | {-n} | N{-2}"th" – autorise “th”, “84th”, “4th”, etc. | ||
| n répétitions ou plus | {n-} | N{2-}"th" – autorise “25th”, “834th”, “311th”, “34576th”, etc. | ||
| Sous‑expression | () |
Exemples d’expressions régulières
-
Code postal :
[0-9]{6}Valeur d’exemple : “142172” -
Code ZIP (USA) :
[0-9]{5}("-"[0-9]{4}){-1}Valeurs d’exemple : “55416”, “33701-4313” -
Revenu : N
{4-8}[,]N{2}Valeurs d’exemple : “15000,00”, “4499,00” -
Mois au format numérique :
((|"0")[1-9])|("10")|("11")|("12")Valeurs d’exemple : “4”, “05”, “12” -
Fraction :
("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-})))Valeurs d’exemple : “1234,567”, “0.99”, “100,0”, “-345.6788903” -
E-mail :
[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost")Valeurs d’exemple : “support@abbyy.com”, “my-name@company.org.ru”, “info@gallery.museum”
Expressions régulières étendues
[% et %]). Les expressions régulières étendues offrent les fonctionnalités supplémentaires suivantes :
-
Un ou plusieurs caractères à l’intérieur des crochets sont augmentés des confusions d’OCR (Reconnaissance optique de caractères) les plus courantes.
Par exemple,
[%S%]peut autoriser S, $ et 5. -
Mots réservés à l’intérieur de
[%...%]pour des ensembles de caractères courants et les confusions d’OCR : a. LETTERS - Lettres latines majuscules et caractères couramment reconnus comme des lettres latines majuscules ; b. DIGITS - Chiffres et caractères couramment reconnus comme des chiffres ; c. LETTERSANDDIGITS - Lettres latines majuscules, chiffres et caractères couramment reconnus comme des lettres latines majuscules et des chiffres.
[%DIGITS%]{9} spécifie neuf chiffres consécutifs ou leurs confusions d’OCR courantes, par ex. « OI234Sb7B9 ».
Propriétés supplémentaires
- Erreurs autorisées indique le pourcentage maximal d’erreurs de reconnaissance autorisé. Autrement dit, il s’agit du pourcentage maximal de caractères, sur l’ensemble, pouvant provenir de l’extérieur de l’ensemble de caractères défini. Une hypothèse pour un objet ne peut être formulée que si son pourcentage d’erreurs de reconnaissance n’excède pas la valeur spécifiée.
- Nombre de mots indique le nombre minimal et maximal de mots dans le texte recherché.
- Nombre de caractères indique le nombre minimal et maximal de caractères dans le texte recherché.
- Rechercher des parties de mots indique si des fragments de mots sont autorisés dans les hypothèses. Désactivez cette option pour exclure les hypothèses contenant des fragments de mots et rechercher uniquement des mots entiers.
Propriétés avancées
- Autoriser les hypothèses imbriquées permet d’utiliser les caractères présents dans la zone de recherche pour générer toutes les hypothèses possibles — y compris les hypothèses qui se croisent et les hypothèses imbriquées.
- Longueur max. de l’espace permet d’indiquer la longueur maximale de l’espace à l’intérieur de l’objet détecté.
- Orientation du texte permet de préciser l’orientation du texte recherché. Par défaut, l’activité ne recherche que le texte horizontal et ne formulera pas d’hypothèse pour le texte pivoté. Si vous devez trouver du texte pivoté d’une certaine manière et ignorer le texte écrit dans toute autre direction, sélectionnez uniquement l’option Sens horaire ou Sens antihoraire. Pour trouver du texte quelle que soit son orientation, activez toutes les options disponibles.
- Détecter les mots par indique comment les lignes doivent être découpées en mots : automatiquement (Préreconnaissance) ou en découpant une ligne en mots (Espace intermots) chaque fois que l’espace entre des caractères adjacents est supérieur ou égal à la valeur saisie dans Min. espace intermots.
