Saltar al contenido principal
La actividad Reglas de extracción permite definir reglas para detectar campos en documentos semiestructurados y verificar cómo funcionan dichas reglas en documentos reales. Suele aplicarse cuando la ubicación de un campo puede variar de un documento a otro, lo que complica la extracción de datos, y cuando puede proporcionar información adicional para detectar dichos campos: por ejemplo, la ubicación de los campos en relación con otros objetos del documento o expresiones regulares que definan las condiciones de búsqueda de un objeto. Por ejemplo, puede especificar que el campo Número de factura puede estar ubicado a la derecha de la imagen o directamente debajo de las palabras “Order number”, “Order #” u otras palabras clave similares. También recomendamos añadir una actividad de Aprendizaje rápido al flujo de procesamiento y habilitar el Aprendizaje en línea para recopilar documentos en tiempo de ejecución, lo que reconstruirá automáticamente la Habilidad más adelante mediante aprendizaje automático.

Casos de uso

Agregue la actividad Extraction Rules a su flujo de procesamiento de documentos en los siguientes casos:
  • Cuando su conjunto de documentos no está lo suficientemente estandarizado como para usar una actividad Fast Learning para extraer datos, no tiene suficientes documentos para entrenar una actividad Deep Learning y los documentos tienen una estructura conocida que puede formalizarse.
  • Cuando desea un mayor control sobre la IA, analizando los resultados de predicción de las actividades Deep Learning y Fast Learning antes de transferir esos valores a los campos del documento. Por ejemplo, si espera extraer un número ubicado cerca de alguna palabra clave, puede filtrar las hipótesis que no parecen ser un número y aquellas que no están ubicadas cerca de la palabra clave. En general, si se requiere posprocesamiento con reglas, esto suele indicar que el conjunto de entrenamiento para las actividades Deep Learning y Fast Learning debe ampliarse, porque las tecnologías de aprendizaje automático pueden “captar” y aprender el tipo de datos de un campo, su ubicación típica y su contexto.
  • Cuando tiene un archivo FlexiLayout de ABBYY FlexiLayout Studio que desea reutilizar. Para obtener más información, consulte Importing FlexiLayouts from ABBYY FlexiLayout Studio.
  • Cuando sus documentos contienen estructuras complejas (p. ej., tablas anidadas, que son estructuras repetitivas dentro de otras tablas) que no pueden extraerse mediante otras actividades dirigidas a documentos semiestructurados.

Cómo funciona

Una actividad de Reglas de extracción es una descripción formalizada de un conjunto de documentos que permite a los operadores de captura de datos usar reglas personalizadas para localizar campos de datos en los documentos y extraer información de esos campos. En otras palabras, una actividad de Reglas de extracción permite especificar algoritmos de búsqueda de campos para imágenes de documentos. Puedes definir la ubicación de los campos en relación con otros objetos o usar coordenadas absolutas para indicar su posición. Varios objetos en la imagen del documento se detectan mediante elementos de búsqueda. Para cada objeto que deba detectarse en la imagen, debes crear un elemento correspondiente que describa por completo el tipo de objeto requerido (como texto, imagen, código de barras), sus características y el área de búsqueda prevista para el objeto. Los elementos componen un árbol de Elementos de búsqueda, que es una estructura lógicamente conectada (de cualquier nivel de anidación) donde los elementos se buscan en relación entre sí. El orden de los elementos en el árbol corresponde directamente al orden en que la actividad los busca; es decir, al comparar una descripción con la imagen, la actividad buscará los elementos en orden descendente. Agrupar elementos ayuda a optimizar la búsqueda y permite crear subjerarquías independientes. Para extraer datos a un campo, debes asignarlo a un elemento de búsqueda. Si el elemento se encuentra en la imagen, su región se convierte en la región del campo asignado. Para obtener más información, consulta Configurar una actividad de Reglas de extracción.

Combinar varias actividades de Extraction Rules

Puede crear un elemento de flujo de trabajo que contenga varias actividades de Extraction Rules. La actividad que se aplicará al documento se selecciona en función del valor de algún campo. Este campo puede contener resultados de clasificación u otros datos que ayuden a distinguir entre variantes del documento. Los valores especificados funcionan como condiciones para elegir la actividad correspondiente. Para obtener más información, consulte Varios conjuntos de Extraction Rules dentro de una única actividad.