Saltar al contenido principal
Configure las propiedades del elemento Cadena de caracteres para buscar secuencias de caracteres en una sola línea mediante conjuntos de caracteres o expresiones regulares. El elemento Cadena de caracteres tiene las siguientes propiedades en la sección Qué buscar:

Método

Método especifica el método de búsqueda para el texto. Hay disponibles los siguientes 2 métodos:

Caracteres

Caracteres describe el texto utilizando conjuntos de caracteres específicos, que son colecciones de caracteres permitidos en la secuencia que se está buscando. Este método se utiliza cuando el formato de la secuencia de caracteres no puede describirse mediante una expresión regular o si la calidad de la imagen no es suficientemente alta, lo que provoca errores de reconocimiento. Se pueden especificar varios conjuntos de caracteres para un elemento de cadena de caracteres; sin embargo, estos conjuntos no pueden contener caracteres que se repitan entre ellos al mismo tiempo. Si no se conoce el formato del texto, no se especifican conjuntos de caracteres permitidos y se consideran todos los caracteres posibles durante la búsqueda. Para configurar conjuntos de caracteres, seleccione Characters en el campo Method y vaya al campo Characters. En el cuadro de diálogo que se abrirá, podrá definir nuevos conjuntos de caracteres, así como editar y eliminar los existentes.

Configuración de un conjunto de caracteres

  1. Seleccione el estándar de codificación de caracteres correspondiente en las listas desplegables, ya sea en el campo Code Page o en el campo Unicode Subrange.
  2. Seleccione los caracteres pertinentes en la tabla de abajo.
  3. Los caracteres que seleccione se mostrarán en el campo Selected characters. También puede definir un conjunto de caracteres usando el teclado.
  4. En el campo Portion in text, %, especifique el porcentaje de caracteres (de 0 a 100) presentes en el texto que se va a buscar.
CharacterSet

Expresión regular

La expresión regular describe el texto que se busca mediante una expresión regular. Las expresiones regulares describen la estructura de una palabra o de cualquier otro valor ingresado mediante un lenguaje específico. Una expresión regular determina las posibles combinaciones de caracteres y su posición relativa entre sí, describiendo así la estructura del texto que se busca. Una búsqueda con expresión regular es precisa; es decir, la hipótesis formulada debe corresponder exactamente a la expresión regular. Por lo general, este método de búsqueda se utiliza cuando las imágenes de los documentos son de alta calidad y no presentan errores de reconocimiento. Para describir el texto que se busca mediante una expresión regular, seleccione Expresión regular en el campo Method y vaya al campo de abajo. En el editor que se abrirá, indique su expresión regular.

Alfabeto de expresiones regulares

Nombre en la listaSímbolo en el campoEjemplo
Cualquier carácter*“k”*“t” – permite ‘kit’, ‘kat’, etc.
LetraCC”at” – permite cat, bat, Rat, mat, etc.
Letra mayúsculaAA”at” – permite Cat, Bat, Rat, Mat, etc.
Letra minúsculaaa”at” – permite car, bat, rat, mat, etc.
Letra o dígitoXX – permite cualquier letra o dígito individual.
DígitoNN”th” permite 5th, 4th, 6th, etc.
Cadena"""cat”
O”dr”(“i""u”)“nk” – permite “drink” o “drunk”.
Carácter del conjunto[][hm]“at” – permite ‘hat’ o ‘mat’.
Carácter no perteneciente al conjunto[^][^b]“at” – permite ‘cat’, ‘mat’, ‘rat’, pero no permite bat.
Cualquier número de repeticiones (se aplica a la expresión o subexpresión a la izquierda){-}[AB74]{-} – permite cualquier combinación de A, B, 7, 4 de cualquier longitud.
Número de repeticiones igual a n{n}N{2}"th" permite 25th, 84th, 11th, etc.
De n a m repeticiones{n-m}N{1-3}"th" permite 5th, 84th, 111th, etc.
De 0 a n repeticiones{-n}N{-2}"th" permite th, 84th, 4th, etc.
n o más repeticiones{n-}N{2-}"th" permite 25th, 834th, 311th, 34576th, etc.
Subexpresión()

Ejemplos de expresiones regulares

  1. Código postal: [0-9]{6} Valor de ejemplo: “142172”
  2. Código ZIP (USA): [0-9]{5}("-"[0-9]{4}){-1} Valores de ejemplo: “55416”, “33701-4313”
  3. Ingresos: N{4-8}[,]N{2} Valores de ejemplo: “15000,00”, “4499,00”
  4. Mes en formato numérico: ((|"0")[1-9])|("10")|("11")|("12") Valores de ejemplo: “4”, “05”, “12”
  5. Fracción: ("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-}))) Valores de ejemplo: “1234,567”, “0.99”, “100,0”, “-345.6788903”
  6. Correo electrónico: [A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost") Valores de ejemplo: “[email protected]”, “[email protected]”, “[email protected]

Expresiones regulares extendidas

Las expresiones regulares extendidas son expresiones regulares con funcionalidad adicional delimitada por un corchete de apertura seguido de un signo de porcentaje y un signo de porcentaje seguido de un corchete de cierre ([% y %]). Las expresiones regulares extendidas incluyen las siguientes funciones adicionales:
  1. Uno o más caracteres dentro de los corchetes se amplían con errores comunes de OCR. Por ejemplo, [%S%] puede admitir S, $ y 5.
  2. Palabras especiales dentro de [%...%] para conjuntos de caracteres comunes y errores de OCR: a. LETTERS: letras latinas mayúsculas y caracteres comúnmente reconocidos como letras latinas mayúsculas; b. DIGITS: dígitos y caracteres comúnmente reconocidos como dígitos; c. LETTERSANDDIGITS: letras latinas mayúsculas, dígitos y caracteres comúnmente reconocidos como letras latinas mayúsculas y dígitos.
Por ejemplo, [%DIGITS%]{9} especifica nueve dígitos consecutivos o errores de OCR comunes para dígitos, p. ej., “OI234Sb7B9”.

Propiedades adicionales

  • Errores permitidos especifica el porcentaje máximo de error de reconocimiento permitido. En otras palabras, indica el porcentaje máximo permitido de caracteres totales que pueden estar fuera del conjunto de caracteres definido. La hipótesis para un objeto solo puede formularse si su porcentaje de error de reconocimiento no supera el valor especificado.
  • Conteo de palabras especifica el número mínimo y máximo de palabras en el texto que se está buscando.
  • Conteo de caracteres especifica el número mínimo y máximo de caracteres en el texto que se está buscando.
  • Buscar partes de palabras especifica si se permiten fragmentos de palabras en las hipótesis. Desactive esta opción si necesita excluir hipótesis con fragmentos de palabras y buscar únicamente palabras completas.

Propiedades avanzadas

  • Permitir hipótesis incrustadas permite usar caracteres en el área de búsqueda para generar todas las hipótesis posibles, incluidas las que se cruzan y las incrustadas.
  • Longitud máx. de espacio permite especificar la longitud máxima del espacio dentro del objeto detectado.
  • Orientación del texto permite especificar la orientación del texto que buscas. De forma predeterminada, la actividad solo busca texto orientado horizontalmente y no formulará hipótesis para texto girado. Si necesitas encontrar texto girado de una manera específica e ignorar el texto escrito en cualquier otra dirección, selecciona únicamente la opción En el sentido de las agujas del reloj o En sentido contrario a las agujas del reloj. Para encontrar texto independientemente de su orientación, habilita todas las opciones disponibles.
  • Detectar palabras por especifica cómo se deben dividir las líneas en palabras: automáticamente (Pre-reconocimiento) o dividiendo una línea en palabras (Espacio entre palabras) cada vez que el espacio entre caracteres contiguos sea mayor o igual al valor introducido en Espacio mín. entre palabras.
En el modo avanzado, las propiedades Recuento de palabras y Recuento de caracteres no se establecen con un valor numérico, sino con un intervalo difuso; para más detalles, consulta Intervalo difuso y Editor de intervalo difuso. Para mostrar las propiedades avanzadas, haz clic en el icono del modo avanzado en el panel Propiedades.