Saltar al contenido principal
Texto estático es un elemento de FlexiLayout que describe un texto predefinido. El texto puede consistir en una palabra o en una frase. Las frases se diferencian de las palabras en que contienen al menos un espacio. Una frase puede escribirse en varias líneas. Los elementos de Texto estático se marcan con en el árbol de FlexiLayout. El programa utiliza elementos de Texto estático para buscar texto estático, es decir, texto conocido de antemano. El programa considerará los objetos Recognized Words y Recognized Lines detectados durante el prerreconocimiento y ubicados en el área de búsqueda del elemento como candidatos a texto estático. Por lo general, todas o muchas de las imágenes del lote incluyen texto estático. Puede tratarse del encabezado del documento (p. ej., Factura) o de los nombres de los campos (p. ej., fecha, para:, de:). Estos objetos, que se detectan como Recognized Words durante el prerreconocimiento, suelen utilizarse como “indicadores” al buscar cualquier texto que pueda introducirse en los campos correspondientes: por ejemplo, es natural esperar una fecha junto al texto estático “Fecha”.

Las propiedades de un elemento de texto estático

Haga clic en la pestaña Buscar texto desde archivo del cuadro de diálogo de propiedades para describir el objeto correspondiente. Para abrir el cuadro de diálogo de propiedades, haga clic con el botón derecho en el elemento del árbol de FlexiLayout y seleccione Propiedades… en el menú contextual.
  • Texto a buscar el texto que se debe encontrar en la imagen. Si necesita encontrar una frase o varias palabras y sabe que siempre estarán en la misma línea, se recomienda ignorar los espacios (es decir, dejar desmarcada la opción Tener en cuenta los espacios), ya que esto acelerará la búsqueda. En este caso, puede escribir la frase de búsqueda sin espacios: el programa los eliminará de todos modos si la opción Tener en cuenta los espacios no está seleccionada.
P. ej.:para encontrar el nombre ‘Purchase Agreement’, que aparece escrito en una sola línea en todos los documentos, debe introducir PURCHASEAGREEMENT.
Utilice una barra vertical (el símbolo ’|’) para separar las variantes. | P. ej.: | Si documentos similares pueden tener nombres como Contract o Agreement, debe introducir CONTRACT|AGREEMENT. | | --- | --- | Las variantes de frases se escriben entre llaves y se separan mediante una barra vertical: { }|{ }. Puede enumerar variantes de palabras dentro de frases (debe estar seleccionada la opción Tener en cuenta los espacios). | P. ej.: | Si introduce {SALE|PURCHASE AGREEMENT|CONTRACT}|{CUSTOMER|CLIENT APPLICATION} en el campo Texto a buscar, el programa buscará las siguientes frases: sale agreement, purchase agreement, sale contract, purchase contract, customer application, client application. | | --- | --- | Para introducir cadenas largas, haga clic en , que abre una ventana independiente de entrada de datos.
  • Buscar texto desde base de datos Puede buscar en la imagen un fragmento de texto procedente de una base de datos. Para buscar los campos pertinentes en la tabla, se utiliza una consulta SQL que comience con el comando SELECT. El programa buscará en la imagen el texto contenido en el campo encontrado.
  • Introduzca la cadena de conexión de la base de datos en los campos de Cadena de conexión o haga clic en para abrir el cuadro de diálogo estándar de conexión a bases de datos.
    • Escriba la consulta en el campo de texto Consulta. También puede hacer clic en para abrir una ventana independiente de entrada de datos donde podrá escribir la consulta.
  • Buscar texto desde archivo Puede buscar un fragmento de texto en un archivo. Haga clic en el botón Browse… para seleccionar el archivo deseado. Para obtener más información sobre el uso de bases de datos y archivos de texto, consulte Uso de bases de datos y archivos de texto en FlexiLayout language.
  • Número máximo de errores
  • el número máximo de errores en la palabra. El programa comprobará cada palabra de la frase si las palabras de la frase están separadas por espacios. En caso contrario, se considerará que la frase consta de una sola palabra. Si el número de errores en una palabra es mayor que el número especificado en este campo, la palabra se considera no detectada. Un error corresponde a una operación de eliminación, inserción o sustitución necesaria para ajustar el texto de modo que coincida con el texto introducido en el campo Texto a buscar. De manera predeterminada, el valor de esta propiedad es ilimitado.
P. ej.:Suponga que el campo Texto a buscar contiene la palabra ‘meet’ y que el número máximo de errores está establecido en 1. Si el programa encuentra la palabra ‘moot’ en esta área de búsqueda, habrá 2 errores en la palabra y la palabra ‘meet’ se considerará no encontrada.
  • Porcentaje máximo de errores el porcentaje máximo de errores en una palabra (calculado como la relación entre el número de errores en las hipótesis y el número de letras de la hipótesis). Si el porcentaje de errores en una palabra es superior al porcentaje especificado en este campo, la palabra se considera no detectada. El valor predeterminado es del 30 %. Nota. Si especifica tanto el número máximo de errores como el porcentaje máximo de errores, el programa usará el criterio más estricto e ignorará el otro.
  • Longitud máxima del espacio le permite especificar la longitud máxima del espacio dentro del objeto detectado.
  • Solo palabras completas busca solo palabras completas.
  • Distinguir mayúsculas y minúsculas habilita la búsqueda con distinción entre mayúsculas y minúsculas (el programa distingue entre letras minúsculas y mayúsculas).
  • Tener en cuenta los espacios permite usar espacios en la cadena de búsqueda. Si esta opción no está seleccionada, los espacios se eliminarán de la cadena de búsqueda. Ignorar los espacios acelera la búsqueda. Sin embargo, si la frase de búsqueda puede estar distribuida en varias líneas o si pueden faltar algunas palabras de la frase, debe habilitar la opción Tener en cuenta los espacios y escribir la frase de búsqueda conservando los espacios.
Las siguientes opciones están disponibles solo si se selecciona Tener en cuenta los espacios:
  • Permitir varias líneas: permite que la frase se escriba en varias líneas.
  • Penalización por salto de línea: establece una penalización para los saltos de línea entre palabras. La penalización es un número de 0 a 1. La calidad de la hipótesis se multiplicará por este número tantas veces como saltos de línea haya en la frase. Si se permiten saltos de línea en la frase, establezca este parámetro en 1 (multiplicar la calidad de la hipótesis por 1 no reducirá su calidad).
  • Permitir palabras omitidas: permite que falten palabras en la frase.
  • Penalización por palabra omitida: establece una penalización para las palabras omitidas. La penalización es un número de 0 a 1. La calidad de la hipótesis se multiplicará por este número tantas veces como palabras omitidas haya en la frase. Si algunas palabras pueden faltar en la frase, establezca este parámetro en 1 (multiplicar la calidad de la hipótesis por 1 no reducirá su calidad).

Recomendaciones para crear un elemento de texto estático

Dado que el texto estático se conoce de antemano, se puede usar un elemento de texto estático como elemento de referencia para buscar otros objetos de imagen. Siga estas recomendaciones:
  • para asegurarse de que el texto estático seleccionado pueda reconocerse de forma fiable en todas las imágenes, vea los resultados del prerreconocimiento en todas las imágenes haciendo clic en o para palabras y frases, respectivamente. Asegúrese de que las letras estén correctamente agrupadas en palabras y de que las palabras estén correctamente agrupadas en líneas.
  • Es preferible seleccionar texto estático impreso con letras más grandes, que se mantenga igual incluso en escaneos de baja calidad o en los que el número de errores de OCR sea predecible.
  • Si en los documentos solo hay texto estático en letra pequeña que no puede reconocerse de forma fiable durante el prerreconocimiento (es decir, si el número y los tipos de errores varían mucho entre imágenes), es mejor describir esos fragmentos de texto no como texto estático, sino como una colección de objetos con las opciones Text y Punctuation mark seleccionadas. (También puede ser necesario seleccionar la opción Picture: haga clic en (Raw Objects ) en la Toolbar y seleccione el objeto correspondiente en la imagen. El tipo de objeto se mostrará en la línea DataType de la ventana Propiedades.)
  • Es preferible seleccionar fragmentos únicos de texto estático para evitar coincidencias erróneas y reducir al mínimo las search constraints adicionales.
  • Si hay tanto nombres de una sola palabra (que prevé encontrar mediante elementos de texto estático) como nombres de varias palabras que contienen las mismas palabras que los nombres de una sola palabra, cree primero los elementos para las frases. Esto evitará que el programa detecte por error nombres de una sola palabra dentro de nombres de frases.

Recomendaciones para idiomas jeroglíficos

Para cadenas en chino, japonés y coreano, se puede usar un parámetro de búsqueda especial. Este parámetro afecta a la forma de contar el número de errores en la hipótesis encontrada en comparación con el valor especificado del elemento Texto a buscar. Si este parámetro está habilitado, en las operaciones de inserción/eliminación/reemplazo de un carácter, cada una contada como un error, solo se permiten como caracteres de reemplazo los caracteres (jeroglíficos) con un trazado similar. Así, sustituir un carácter por otro similar se cuenta como un error, mientras que sustituirlo por un carácter distinto se cuenta como dos errores, ya que implica dos operaciones: eliminar un carácter e insertar uno nuevo. La activación de este modo de búsqueda afecta únicamente a la búsqueda de cadenas en chino, japonés y coreano.
Para estos idiomas, la búsqueda por palabras completas no está disponible, porque los textos escritos en estos idiomas a menudo no están divididos explícitamente en palabras.
Para habilitar este modo de búsqueda, introduzca el siguiente código en el panel relación avanzada de prebúsqueda de la pestaña Advanced: SuggestOnlySimilarChars(Logic value = true); De forma predeterminada, el parámetro SuggestOnlySimilarChars está establecido en false.

Consulte también:

Crear y eliminar elementos Información general sobre las propiedades de los elementos Área de búsqueda Restricciones de búsqueda adicionales para el elemento de texto estático