Saltar al contenido principal
Un Elemento de búsqueda es la descripción de uno o varios objetos de la imagen del documento que permite establecer condiciones de búsqueda para un objeto en un área específica. Un elemento contiene información sobre el tipo de objeto de imagen que se busca, las propiedades del objeto y su área de búsqueda. Los resultados de la búsqueda obtenidos a partir de las propiedades del elemento son utilizados por la actividad para formar regiones de los objetos detectados en la imagen: un área compuesta por uno o varios rectángulos que abarcan el objeto detectado. La ubicación de los campos y otros elementos se determina después en relación con la ubicación de los elementos detectados. Para crear un elemento, haga clic en Create Element y seleccione el tipo de elemento correspondiente en la lista que aparecerá. Una vez creado el elemento, debe configurar sus propiedades en el panel Properties (consulte Propiedades de los elementos para obtener más información). Las propiedades especificadas también se pueden ver y editar en formato de código (consulte FlexiLayout Language para obtener más información). Los elementos se pueden mover en el árbol según la estructura del documento. Tenga en cuenta que la ubicación de los elementos en el árbol determina su orden de búsqueda. La búsqueda de elementos se realiza en orden descendente. Cuando cree un elemento de búsqueda, elija su tipo según el objeto que necesite encontrar. A continuación encontrará breves descripciones de los tipos de elementos de búsqueda disponibles en la actividad Extraction Rules. Una vez que cree el elemento de búsqueda, configure sus propiedades, que se describen aquí.

Texto estático

Este elemento describe texto predefinido. La mayoría de las imágenes de documentos suelen contener texto estático. Puede tratarse del nombre del documento (por ejemplo, “Invoice”) o de etiquetas adicionales para campos de datos (p. ej., “Date”, “to:”, “from:”). Este texto se reconoce como un objeto Recognized Words durante la prereconocimiento y suele servir como ancla para detectar valores de los campos correspondientes (por ejemplo, la fecha suele escribirse junto a la etiqueta “Date”). Este texto puede consistir en una palabra o en una frase. Las frases se diferencian de las palabras en que contienen al menos un espacio. Una frase también puede estar escrita en varias líneas. Al buscar este elemento, se tienen en cuenta los objetos Recognized Words y Recognized Lines detectados durante la prereconocimiento de la imagen y ubicados en el área de búsqueda del elemento.

Cadena de caracteres

Este elemento describe una secuencia de caracteres en una sola línea (de izquierda a derecha). Las secuencias de caracteres se forman a partir de objetos de texto reconocidos (Palabras reconocidas), por ejemplo, de palabras completas o de varios fragmentos de objetos de texto. Este elemento está diseñado para buscar texto que no está predefinido. Se tienen en cuenta los objetos Palabras reconocidas detectados durante la prerreconocimiento de la imagen y ubicados dentro del área de búsqueda del elemento. Por lo general, la actividad busca secuencias de caracteres en áreas alrededor de texto estático que ya se ha detectado. Por ejemplo, al buscar un número de factura, primero es necesario encontrar el texto estático “Invoice No.”, tras lo cual la actividad busca una secuencia de caracteres a la derecha del texto estático en la misma línea (en este caso, solo números).
Nota: La actividad no busca elementos de Cadena de caracteres en árabe y hebreo debido a su restricción de izquierda a derecha.

Párrafo

Este elemento describe un párrafo de texto. Una búsqueda que use este elemento considera todos los objetos de texto que se cruzan con el área de búsqueda. Este elemento está diseñado para buscar párrafos de texto no predefinidos. Se consideran los objetos Recognized Words y Recognized Lines detectados durante el prerreconocimiento y ubicados en el área de búsqueda del elemento.

Valor clave

Este es un elemento de grupo diseñado para buscar campos que tienen una etiqueta. Para crear este elemento, debe especificar las propiedades de la etiqueta, el campo de búsqueda principal y el espacio entre ellos. También puede especificar un tipo y las propiedades correspondientes para el elemento principal. El texto estático y el espacio en blanco actúan como métodos de búsqueda secundarios para el campo principal. Al buscar el texto estático, se consideran los objetos Recognized Words y Recognized Lines detectados durante el pre-reconocimiento de la imagen y ubicados dentro del área de búsqueda del elemento. Una vez detectado el elemento de texto estático, la actividad busca el campo correspondiente que contiene el valor del elemento.

Fecha

Este elemento describe la fecha. Las fechas pueden escribirse en distintos formatos: los valores de día y año siempre se escriben con números, mientras que el mes a veces puede escribirse con letras. El formato de la fecha lo define el usuario.

Monto de dinero

Este elemento describe valores numéricos que son enteros o tienen dos decimales. De forma predeterminada, se permite un símbolo como marcador de posición para la parte decimal. Por ejemplo, 12. se reconocerá como 12.00. La parte entera puede dividirse en grupos utilizando delimitadores (los espacios y los siguientes símbolos están permitidos como delimitadores de forma predeterminada: . , ’). El número que se busca puede tener un prefijo y un sufijo; por ejemplo, un elemento de texto que aparece antes o después del valor numérico. El prefijo debe estar en la misma línea que el valor numérico. Este formato se usa normalmente para montos de dinero, con el nombre de la divisa como prefijo.

Teléfono

Este elemento describe un número de teléfono, que suele ir acompañado de una palabra clave (p. ej., «Tel.», «Tel. (casa)», etc.) y un código de ciudad/región separado del resto del número mediante paréntesis. El número de teléfono y la palabra clave correspondiente deben estar en la misma línea.

Región

Este elemento representa una región en la imagen de un documento sin especificaciones sobre su contenido. La región puede estar formada por varias áreas no conectadas entre sí. Este elemento se utiliza en la actividad para delimitar regiones independientemente de los objetos que contengan. Debe usarse cuando el mismo campo se detecta mediante distintos elementos en diferentes documentos; por ejemplo, Fecha y cadena de caracteres para buscar una fecha que puede aparecer en formatos estándar y no estándar. En este caso, Fecha y cadena de caracteres son elementos secundarios, mientras que Región se utiliza para registrar los resultados de la extracción.

Separador

Este elemento describe un separador vertical u horizontal. Está diseñado para la búsqueda de separadores. Se tienen en cuenta los separadores detectados durante la pre-reconocimimiento de la imagen y que estén ubicados completamente dentro del área de búsqueda del elemento. Estos objetos pueden estar totalmente dentro del área de búsqueda o simplemente intersectarla.

Espacio en blanco

Este elemento describe un área rectangular de la imagen que casi nunca contiene otros objetos. Puede usarse como elemento secundario para buscar otros elementos. Por ejemplo, si siempre hay un espacio en blanco entre la dirección y el encabezado del documento en los documentos que se procesan, se puede usar un elemento Espacio en blanco para buscar el elemento que contiene la dirección.

Código de barras

Este elemento describe códigos de barras. Está diseñado para detectar los tipos de códigos de barras compatibles con Advanced Designer. Se tienen en cuenta los objetos de código de barras detectados durante el prerreconocimiento de la imagen y ubicados dentro del área de búsqueda del elemento.

Colección de objetos

Este elemento describe una colección de objetos de varios tipos, todos los cuales cumplen las condiciones de búsqueda. El elemento Colección de objetos se utiliza normalmente para buscar objetos que no pueden detectarse con ningún otro tipo de elemento. Por ejemplo, puede usarse para encontrar signos de puntuación independientes que no forman parte de ninguna línea de texto ni de otros objetos de texto, así como texto que no pudo reconocerse debido a la presencia de numerosos objetos no relacionados. Este elemento también puede utilizarse para encontrar objetos no textuales, como imágenes y marcas.

Grupo

Es una colección de varios elementos (denominados subelementos). Los subelementos pueden ser tanto simples como de grupo. No recomendamos usar elementos de grupo que no contengan subelementos. Los elementos de grupo se pueden usar para lo siguiente:
  • Agrupar elementos. Esto facilita la depuración de partes independientes de la actividad de Extraction Rules. Por ejemplo, su actividad puede contener 100 elementos divididos en 3 partes: encabezado, cuerpo, pie de página. Cada uno de estos 3 elementos de grupo contiene más elementos de grupo diseñados para buscar pequeños fragmentos de la parte lógica de su actividad. Además de minimizar la cantidad de posibilidades que la actividad debe considerar, usar esta estructura garantiza que la depuración y la edición sean más fáciles en el futuro, ya que está dividida en partes independientes.
  • Asegurar una jerarquía lógica de los elementos en el árbol, lo que facilita la navegación por la actividad.
  • Reducir el número posible de hipótesis de elementos, lo que acelera la búsqueda de la hipótesis resultante para la actividad en su conjunto. Agrupar elementos permite que ese grupo de elementos se considere como una sola entidad con su propia hipótesis, lo que hace posible contar con una medición de calidad para el grupo en su conjunto.
  • Un elemento compuesto le permite especificar restricciones del área de búsqueda compartidas por todos los subelementos. El área de búsqueda de un subelemento específico de un elemento de grupo se calculará como la intersección de las áreas de búsqueda del subelemento y del elemento de grupo.
Los elementos (tanto de grupo como simples) pueden ser obligatorios, opcionales o prohibidos. Si un elemento compuesto opcional contiene un subelemento obligatorio, el hecho de que el subelemento no coincida dará lugar a formular la hipótesis nula para el elemento de grupo. Esto no interrumpirá la coincidencia en la actividad de Extraction Rules.

Grupo repetido

Este elemento está diseñado para buscar grupos de elementos repetidos (de cantidad de instancias desconocida). Un ejemplo común es una tabla de datos. Un elemento repetido se diferencia de un elemento compuesto normal en sus parámetros de repetición. Este grupo puede aparecer varias veces en una sola Página, así como a lo largo de todo el documento. Dado que este grupo se repite dentro de un documento, el elemento permite describir todas sus instancias (incluidos sus parámetros de repetición) como un único elemento. Por lo tanto, usar Grupo repetido le permite describir la estructura del documento mucho más rápido. Este elemento se puede utilizar para lo siguiente:
  • Buscar tablas.
  • Buscar un encabezado en cada Página de un documento de varias páginas.
  • Buscar un número desconocido de entradas de datos repetidas.

Campo de entrada

Este elemento está diseñado para detectar una región de campo extraída por otra actividad. Este elemento se puede utilizar para encontrar otros elementos. Por ejemplo, si una skill contiene un campo que siempre permanece en la imagen después del entrenamiento, puede usarse como campo ancla al buscar elementos mediante una actividad de Extraction Rules. Para hacerlo, cree un elemento Campo de entrada y seleccione el campo adecuado en la estructura de la skill. Esto creará un elemento Región que contiene código que vincula el elemento y el campo seleccionado en la pestaña Search Conditions.

Deep Learning

Este elemento permite acceder a un valor encontrado por una actividad de Deep Learning que envía su salida a la actividad Extraction Rules dentro de un contenedor Hypothesis Filtering. Este elemento solo está disponible dentro de un contenedor Hypothesis Filtering. Puede controlar la salida de una actividad de Deep Learning especificando condiciones para este elemento de búsqueda. Por ejemplo, si la actividad de Deep Learning está configurada para encontrar un valor repetitivo, puede establecer la ubicación preferida de la instancia que necesita extraer.