Saltar al contenido principal
El elemento Cadena de caracteres tiene las siguientes propiedades en la sección Qué buscar:

Método

Método especifica el método de búsqueda para el texto. Hay disponibles los siguientes 2 métodos:

Caracteres

Caracteres describe el texto utilizando conjuntos de caracteres específicos, que son colecciones de caracteres permitidos en la secuencia que se está buscando. Este método se utiliza cuando el formato de la secuencia de caracteres no puede describirse mediante una expresión regular o si la calidad de la imagen no es suficientemente alta, lo que provoca errores de reconocimiento. Se pueden especificar varios conjuntos de caracteres para un elemento de cadena de caracteres; sin embargo, estos conjuntos no pueden contener caracteres que se repitan entre ellos al mismo tiempo. Si no se conoce el formato del texto, no se especifican conjuntos de caracteres permitidos y se consideran todos los caracteres posibles durante la búsqueda. Para configurar conjuntos de caracteres, seleccione Characters en el campo Method y vaya al campo Characters. En el cuadro de diálogo que se abrirá, podrá definir nuevos conjuntos de caracteres, así como editar y eliminar los existentes.

Configuración de un conjunto de caracteres

  1. Seleccione el estándar de codificación de caracteres correspondiente en las listas desplegables, ya sea en el campo Code Page o en el campo Unicode Subrange.
  2. Seleccione los caracteres pertinentes en la tabla de abajo.
  3. Los caracteres que seleccione se mostrarán en el campo Selected characters. También puede definir un conjunto de caracteres usando el teclado.
  4. En el campo Portion in text, %, especifique el porcentaje de caracteres (de 0 a 100) presentes en el texto que se va a buscar.
CharacterSet

Expresión regular

La expresión regular describe el texto que se busca mediante una expresión regular. Las expresiones regulares describen la estructura de una palabra o de cualquier otro valor ingresado mediante un lenguaje específico. Una expresión regular determina las posibles combinaciones de caracteres y su posición relativa entre sí, describiendo así la estructura del texto que se busca. Una búsqueda con expresión regular es precisa; es decir, la hipótesis formulada debe corresponder exactamente a la expresión regular. Por lo general, este método de búsqueda se utiliza cuando las imágenes de los documentos son de alta calidad y no presentan errores de reconocimiento. Para describir el texto que se busca mediante una expresión regular, seleccione Expresión regular en el campo Method y vaya al campo de abajo. En el editor que se abrirá, indique su expresión regular.

Alfabeto de expresiones regulares

Nombre en la listaSímbolo en el campoEjemplo
Cualquier carácter*“k”*“t” – permite ‘kit’, ‘kat’, etc.
LetraCC”at” – permite cat, bat, Rat, mat, etc.
Letra mayúsculaAA”at” – permite Cat, Bat, Rat, Mat, etc.
Letra minúsculaaa”at” – permite cat, bat, rat, mat, etc.
Letra o dígitoXX – permite cualquier letra o dígito individual.
DígitoNN”th” – permite 5th, 4th, 6th, etc.
Cadena"""cat”
O”dr”(“i""u”)“nk” – permite “drink” o “drunk”.
Carácter del conjunto[][hm]“at” – permite ‘hat’ o ‘mat’.
Carácter que no pertenece al conjunto[^][^b]“at” – permite ‘cat’, ‘mat’, ‘rat’, pero no permite ‘bat’.
Cualquier número de repeticiones (se aplica a la expresión o subexpresión a la izquierda){-}[AB74]{-} – permite cualquier combinación de A, B, 7, 4 de cualquier longitud.
El número de repeticiones es n{n}N{2}"th" – permite 25th, 84th, 11th, etc.
De n a m repeticiones{n-m}N{1-3}"th" – permite 5th, 84th, 111th, etc.
De 0 a n repeticiones{-n}N{-2}"th" – permite th, 84th, 4th, etc.
n o más repeticiones{n-}N{2-}"th" – permite 25th, 834th, 311th, 34576th, etc.
Subexpresión()

Ejemplos de expresiones regulares

  1. Código postal: [0-9]{6} Valor de ejemplo: “142172”
  2. Código ZIP (USA): [0-9]{5}("-"[0-9]{4}){-1} Valores de ejemplo: “55416”, “33701-4313”
  3. Ingresos: N{4-8}[,]N{2} Valores de ejemplo: “15000,00”, “4499,00”
  4. Mes en formato numérico: ((|"0")[1-9])|("10")|("11")|("12") Valores de ejemplo: “4”, “05”, “12”
  5. Fracción: ("-"|)([0-9]{1-})(|(("."| ",")([0-9]{1-}))) Valores de ejemplo: “1234,567”, “0.99”, “100,0”, “-345.6788903”
  6. Correo electrónico: [A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-3}"@"[A-Za-z0-9_]{1-}(("."| "-")[A-Za-z0-9_]{1-}){-4}"."([A-Za-z]{2-4}|"asia"|"museum"|"travel"|"example"|"localhost") Valores de ejemplo: “support@abbyy.com”, “my-name@company.org.ru”, “info@gallery.museum

Expresiones regulares extendidas

Las expresiones regulares extendidas son expresiones regulares con funcionalidad adicional, delimitada por un corchete de apertura seguido de un signo de porcentaje y un signo de porcentaje seguido de un corchete de cierre ([% y %]). Las expresiones regulares extendidas incluyen las siguientes funciones adicionales:
  1. Uno o más caracteres dentro de los corchetes se amplían con errores de OCR habituales. Por ejemplo, [%S%] puede permitir S, $ y 5.
  2. Palabras especiales dentro de [%...%] para conjuntos de caracteres comunes y errores de OCR: a. LETTERS - Letras mayúsculas del alfabeto latino y caracteres comúnmente reconocidos como tales; b. DIGITS - Dígitos y caracteres comúnmente reconocidos como dígitos; c. LETTERSANDDIGITS - Letras mayúsculas del alfabeto latino, dígitos y caracteres comúnmente reconocidos como letras mayúsculas y dígitos.
Por ejemplo, [%DIGITS%]{9} especifica nueve dígitos consecutivos o errores de OCR comunes para dígitos, p. ej., “OI234Sb7B9”.

Propiedades adicionales

  • Errores permitidos especifica el porcentaje máximo de errores de reconocimiento permitido. En otras palabras, indica el porcentaje máximo permitido de caracteres totales que pueden estar fuera del conjunto de caracteres definido. Solo se puede formular una hipótesis para un objeto si su porcentaje de error de reconocimiento no supera el valor especificado.
  • Recuento de palabras especifica el número mínimo y máximo de palabras en el texto que se busca.
  • Recuento de caracteres especifica el número mínimo y máximo de caracteres en el texto que se busca.
  • Buscar partes de palabras especifica si se permiten fragmentos de palabras en las hipótesis. Desactive esta opción si necesita excluir hipótesis con fragmentos de palabras y buscar únicamente palabras completas.

Propiedades avanzadas

  • Permitir hipótesis anidadas permite usar caracteres en el área de búsqueda para generar todas las posibles hipótesis, incluidas las hipótesis que se cruzan y las anidadas.
  • Longitud máx. del espacio permite especificar la longitud máxima del espacio dentro del objeto detectado.
  • Orientación del texto permite especificar la orientación del texto que estás buscando. De forma predeterminada, la actividad solo busca texto orientado horizontalmente y no formulará hipótesis para texto rotado. Si necesitas encontrar texto rotado de una forma específica e ignorar el texto escrito en cualquier otra dirección, debes seleccionar únicamente la opción En sentido horario o En sentido antihorario. Para encontrar texto independientemente de su orientación, debes habilitar todas las opciones disponibles.
  • Detectar palabras por especifica cómo se deben dividir las líneas en palabras: automáticamente (Pre-Recognition) o dividiendo una línea en palabras (Espacio interpalabras) cuando el espacio entre caracteres adyacentes sea mayor o igual que el valor introducido en Espacio interpalabras mín..
En el modo avanzado, las propiedades Recuento de palabras y Recuento de caracteres no se establecen mediante un valor numérico, sino mediante un intervalo difuso; para más detalles, consulta Intervalo difuso y Editor de intervalos difusos. Para mostrar las propiedades avanzadas, haz clic en el icono del modo avanzado en el panel Propiedades.