Méthode
Caractères
Définition d’un jeu de caractères
- Sélectionnez la norme d’encodage de caractères appropriée dans les listes déroulantes des champs Code Page ou Unicode Subrange.
- Sélectionnez les caractères souhaités dans le tableau ci-dessous.
- Les caractères sélectionnés s’affichent dans le champ Selected characters. Vous pouvez également définir un jeu de caractères à l’aide du clavier.
- Dans le champ
Portion in text, %, indiquez la proportion de caractères (de 0 à 100) présents dans le texte recherché.

Expression régulière
Alphabet des expressions régulières
| Nom dans la liste | Symbole dans le champ | Exemple | ||
|---|---|---|---|---|
| N’importe quel caractère | * | “k”*“t” – autorise « kit », « kat », etc. | ||
| Lettre | C | C”at” – autorise cat, bat, Rat, mat, etc. | ||
| Lettre majuscule | A | A”at” – autorise Cat, Bat, Rat, Mat, etc. | ||
| Lettre minuscule | a | a”at” – autorise cat, bat, rat, mat, etc. | ||
| Lettre ou chiffre | X | X – autorise une seule lettre ou un seul chiffre. | ||
| Chiffre | N | N”th” autorise 5th, 4th, 6th, etc. | ||
| Chaîne | "" | "cat” | ||
| Ou | ”dr”(“i" | "u”)“nk” – autorise “drink” ou “drunk”. | ||
| Caractère du jeu | [] | [hm]“at” – autorise « hat » ou « mat ». | ||
| Caractère ne faisant pas partie du jeu | [^] | [^b]“at” – autorise « cat », « mat », « rat », mais n’autorise pas bat. | ||
| Nombre quelconque de répétitions (s’applique à l’expression ou sous-expression à gauche) | {-} | [AB74]{-} – autorise toute combinaison de A, B, 7, 4, de toute longueur. | ||
| Nombre de répétitions égal à n | {n} | N{2}"th" autorise 25th, 84th, 11th, etc. | ||
| De n à m répétitions | {n-m} | N{1-3}"th" autorise 5th, 84th, 111th, etc. | ||
| De 0 à n répétitions | {-n} | N{-2}"th" autorise th, 84th, 4th, etc. | ||
| n répétitions ou plus | {n-} | N{2-}"th" autorise 25th, 834th, 311th, 34576th, etc. | ||
| Sous-expression | () |
Exemples d’expressions régulières
- Code postal :
[0-9]{6}Exemple de valeur : “142172” - Code ZIP (USA) :
[0-9]{5}("-"[0-9]{4}){-1}Exemples de valeurs : “55416”, “33701-4313” - Revenu : N
{4-8}[,]N{2}Exemples de valeurs : “15000,00”, “4499,00” - Mois au format numérique :
((|"0")[1-9])|("10")|("11")|("12")Exemples de valeurs : “4”, “05”, “12” - Fraction :
("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-})))Exemples de valeurs : “1234,567”, “0.99”, “100,0”, “-345.6788903” - E-mail :
[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost")Exemples de valeurs : [email protected], [email protected], [email protected]
Expressions régulières étendues
[% and %]). Les expressions régulières étendues offrent les fonctionnalités supplémentaires suivantes :
- Un ou plusieurs caractères entre crochets sont complétés par des erreurs OCR courantes. Par exemple,
[%S%]peut autoriser S, $ et 5. - Mots spéciaux à l’intérieur de
[%...%]pour des ensembles de caractères courants et des erreurs OCR : a. LETTERS - Lettres latines majuscules et caractères couramment reconnus comme tels ; b. DIGITS - Chiffres et caractères couramment reconnus comme tels ; c. LETERSANDDIGITS - Lettres latines majuscules, chiffres et caractères couramment reconnus comme tels.
[%DIGITS%]{9} indique neuf chiffres consécutifs ou des erreurs OCR courantes pour les chiffres, p. ex. “OI234Sb7B9”.
Propriétés supplémentaires
- Erreurs autorisées définit le pourcentage maximal d’erreurs de reconnaissance autorisé. Autrement dit, il indique le pourcentage maximal du nombre total de caractères pouvant provenir de caractères en dehors de l’ensemble défini. Une hypothèse pour un objet ne peut être formulée que si son pourcentage d’erreurs de reconnaissance ne dépasse pas la valeur spécifiée.
- Nombre de mots définit le nombre minimal et maximal de mots dans le texte recherché.
- Nombre de caractères définit le nombre minimal et maximal de caractères dans le texte recherché.
- Recherche de parties de mots indique si des fragments de mots sont autorisés dans les hypothèses. Désactivez cette option si vous souhaitez exclure les hypothèses contenant des fragments de mots et ne rechercher que des mots entiers.
Propriétés avancées
- Autoriser les hypothèses imbriquées permet d’utiliser les caractères présents dans la zone de recherche pour générer toutes les hypothèses possibles, y compris les hypothèses intersectées et imbriquées.
- Longueur max. d’espace permet d’indiquer la longueur maximale de l’espace à l’intérieur de l’objet détecté.
- Orientation du texte permet d’indiquer l’orientation du texte recherché. Par défaut, l’activité ne recherche que le texte orienté horizontalement et ne formulera pas d’hypothèse pour du texte pivoté. Si vous devez trouver du texte pivoté d’une certaine manière et ignorer le texte écrit dans toute autre direction, sélectionnez uniquement l’option Sens horaire ou Sens anti‑horaire. Pour trouver le texte quelle que soit son orientation, activez toutes les options disponibles.
- Détecter les mots selon spécifie comment les lignes doivent être découpées en mots : automatiquement (Pré‑reconnaissance) ou en découpant une ligne en mots (Espace inter‑mots) chaque fois que l’espace entre des caractères adjacents est supérieur ou égal à la valeur saisie dans Min. espace inter‑mots.
