Método
Caracteres
Configuración de un conjunto de caracteres
Seleccione un estándar de codificación de caracteres
Seleccione el estándar de codificación de caracteres correspondiente en las listas desplegables, ya sea en el campo Code Page o en el campo Unicode Subrange.
Revise los caracteres seleccionados
Los caracteres que seleccione se mostrarán en el campo Selected characters. También puede definir un conjunto de caracteres usando el teclado.

Expresión regular
Alfabeto de expresiones regulares
| Nombre en la lista | Símbolo en el campo | Ejemplo | ||
|---|---|---|---|---|
| Cualquier carácter | * | “k”*“t” – permite ‘kit’, ‘kat’, etc. | ||
| Letra | C | C”at” – permite cat, bat, Rat, mat, etc. | ||
| Letra mayúscula | A | A”at” – permite Cat, Bat, Rat, Mat, etc. | ||
| Letra minúscula | a | a”at” – permite car, bat, rat, mat, etc. | ||
| Letra o dígito | X | X – permite cualquier letra o dígito individual. | ||
| Dígito | N | N”th” permite 5th, 4th, 6th, etc. | ||
| Cadena | "" | "cat” | ||
| O | ”dr”(“i" | "u”)“nk” – permite “drink” o “drunk”. | ||
| Carácter del conjunto | [] | [hm]“at” – permite ‘hat’ o ‘mat’. | ||
| Carácter no perteneciente al conjunto | [^] | [^b]“at” – permite ‘cat’, ‘mat’, ‘rat’, pero no permite bat. | ||
| Cualquier número de repeticiones (se aplica a la expresión o subexpresión a la izquierda) | {-} | [AB74]{-} – permite cualquier combinación de A, B, 7, 4 de cualquier longitud. | ||
| Número de repeticiones igual a n | {n} | N{2}"th" permite 25th, 84th, 11th, etc. | ||
| De n a m repeticiones | {n-m} | N{1-3}"th" permite 5th, 84th, 111th, etc. | ||
| De 0 a n repeticiones | {-n} | N{-2}"th" permite th, 84th, 4th, etc. | ||
| n o más repeticiones | {n-} | N{2-}"th" permite 25th, 834th, 311th, 34576th, etc. | ||
| Subexpresión | () |
Ejemplos de expresiones regulares
| Caso de uso | Expresión regular | Valores de ejemplo |
|---|---|---|
| Código postal | [0-9]{6} | ”142172” |
| Código ZIP (USA) | [0-9]{5}("-"[0-9]{4}){-1} | ”55416”, “33701-4313” |
| Ingresos | N{4-8}[,]N{2} | ”15000,00”, “4499,00” |
| Mes (numérico) | ((|"0")[1-9])|("10")|("11")|("12") | ”4”, “05”, “12” |
| Fracción | ("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-}))) | ”1234,567”, “0.99”, “100,0”, “-345.6788903” |
| Correo electrónico | [A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost") | ”support@abbyy.com”, “my-name@company.org.ru”, “info@gallery.museum” |
Expresiones regulares extendidas
[% y %]). Las expresiones regulares extendidas incluyen las siguientes funciones adicionales:
- Uno o más caracteres dentro de los corchetes se amplían con errores comunes de OCR. Por ejemplo,
[%S%]puede admitir S, $ y 5. - Palabras especiales dentro de
[%...%]para conjuntos de caracteres comunes y errores de OCR:- LETTERS — Letras latinas mayúsculas y caracteres comúnmente reconocidos como letras latinas mayúsculas.
- DIGITS — Dígitos y caracteres comúnmente reconocidos como dígitos.
- LETTERSANDDIGITS — Letras latinas mayúsculas, dígitos y caracteres comúnmente reconocidos como letras latinas mayúsculas y dígitos.
[%DIGITS%]{9} especifica nueve dígitos consecutivos o errores de OCR comunes para dígitos, p. ej., “OI234Sb7B9”.
Propiedades adicionales
- Errores permitidos especifica el porcentaje máximo de error de reconocimiento permitido. En otras palabras, indica el porcentaje máximo permitido de caracteres totales que pueden estar fuera del conjunto de caracteres definido. La hipótesis para un objeto solo puede formularse si su porcentaje de error de reconocimiento no supera el valor especificado.
- Recuento de palabras especifica el número mínimo y máximo de palabras en el texto que se está buscando.
- Recuento de caracteres especifica el número mínimo y máximo de caracteres en el texto que se está buscando.
- Buscar partes de palabras especifica si se permiten fragmentos de palabras en las hipótesis. Desactive esta opción si necesita excluir hipótesis con fragmentos de palabras y buscar únicamente palabras completas.
Propiedades avanzadas
- Permitir hipótesis incrustadas permite usar caracteres en el área de búsqueda para generar todas las hipótesis posibles, incluidas las que se cruzan y las incrustadas.
- Longitud máx. de espacio permite especificar la longitud máxima del espacio dentro del objeto detectado.
- Orientación del texto permite especificar la orientación del texto que buscas. De forma predeterminada, la actividad solo busca texto orientado horizontalmente y no formulará hipótesis para texto girado. Si necesitas encontrar texto girado de una manera específica e ignorar el texto escrito en cualquier otra dirección, selecciona únicamente la opción En el sentido de las agujas del reloj o En sentido contrario a las agujas del reloj. Para encontrar texto independientemente de su orientación, habilita todas las opciones disponibles.
- Detectar palabras por especifica cómo se deben dividir las líneas en palabras: automáticamente (Pre-reconocimiento) o dividiendo una línea en palabras (Espacio entre palabras) cada vez que el espacio entre caracteres contiguos sea mayor o igual al valor introducido en Espacio mín. entre palabras.
