Saltar al contenido principal
Un contenedor de filtrado de hipótesis combina varias actividades de Deep Learning y una actividad de Reglas de extracción. Los resultados de las actividades de Deep Learning se envían a la actividad de Reglas de extracción, que establece condiciones para seleccionar los valores deseados. Aunque una actividad de Deep Learning puede lograr una calidad muy alta en la extracción de campos, en algunos casos quizá quiera controlar el resultado de la actividad de Deep Learning. Para ello, puede combinar una o varias actividades de Deep Learning con una actividad de Reglas de extracción, que aplicará condiciones a los valores obtenidos por la(s) actividad(es) de Deep Learning. El control del resultado es esencial cuando la red neuronal detecta palabras completas pero solo necesita partes específicas, o cuando debe filtrar ruido capturado accidentalmente. También puede ser útil para identificar partes de campos más grandes, como direcciones, que la red neuronal puede pasar por alto. Además, le permite elegir la mejor hipótesis entre múltiples instancias del mismo valor. Por ejemplo, cuando un nombre de Proveedor aparece varias veces en un documento, puede seleccionar el resultado de extracción más preciso entre las múltiples instancias.
Nota: Esta tecnología se proporciona como vista previa y se mejorará en versiones futuras.

Configuración de un contenedor de filtrado de hipótesis

  1. Haga clic en el bloque con la actividad Deep Learning y seleccione Filter Hypotheses. Esto creará un nuevo contenedor de filtrado de hipótesis y colocará dentro de él la actividad Deep Learning seleccionada.
  2. (Opcional) Arrastre más actividades de Deep Learning al contenedor de filtrado de hipótesis. Esto le permitirá combinar y comparar los resultados de dos o más actividades de Deep Learning. Por ejemplo, pueden ser necesarias dos actividades cuando se trabaja con campos de texto y tablas al mismo tiempo.
  3. Agregue una actividad Extraction Rules al contenedor. Puede crear una nueva actividad haciendo clic en el marcador de posición o arrastrar una actividad existente al contenedor.
  4. Configure la actividad Extraction Rules. Para cada uno de los valores encontrados por las actividades de Deep Learning, agregue un elemento de búsqueda de Deep Learning y configure sus propiedades. Puede agregar todos los campos de salida de una actividad de Deep Learning a la vez. Un elemento de búsqueda Deep Learning admite todas las propiedades que limitan el área de búsqueda y las condiciones para encontrar el elemento.
  5. Conecte la entrada y la salida del contenedor de filtrado de hipótesis a otros bloques del flujo de trabajo de procesamiento de documentos. Los campos de salida del contenedor de filtrado de hipótesis serán los mismos que los campos de salida de la actividad Extraction Rules.
Nota: Si decide dejar de controlar la salida de la actividad Deep Learning, haga clic en cualquier lugar del contenedor y seleccione Don’t Filter Hypotheses. El contenedor se desarmará, pero las actividades en sí no se eliminarán y aún podrá usarlas en el flujo de trabajo de procesamiento de documentos modificado.

Ejemplos

Nota: Estos son solo algunos ejemplos que muestran cómo puede usarse un contenedor de Hypothesis Filtering. No obstante, hay muchas otras situaciones en las que puede emplear esta funcionalidad para controlar la salida de las redes neuronales y afinar la extracción de campos. Solo usted puede determinar qué ajustes se necesitan para los documentos con los que trabaja, y le recomendamos probar esta tecnología siempre que los resultados de la actividad de Deep Learning puedan beneficiarse de algún ajuste. Los ejemplos a continuación usan la misma Habilidad de muestra, donde las salidas de dos actividades de Deep Learning se envían a una actividad de Extraction Rules.

Flujo de Habilidad

AD_HypothesisFiltering_Container
  • La actividad Deep Learning extrae campos de texto.
  • La actividad Deep Learning 2 extrae una tabla.
  • El contenedor Hypothesis Filtering selecciona y combina sus resultados.

Estructura de los elementos de búsqueda en la actividad Extraction Rules

AD_HypothesisFiltering_SearchElementTree Cada elemento de búsqueda se asigna a su campo correspondiente.

Ejemplo 1: Corregir un valor encontrado por una actividad de Deep Learning

En este ejemplo, una actividad de Deep Learning encuentra un valor para el número de documento que es demasiado largo, y se crea un nuevo elemento de búsqueda para corregirlo. El valor para el número de documento encontrado por la actividad de Deep Learning incluye la parte después del guion: AD_HypothesisFiltering_ValueTooLong
  1. Para corregir el valor de 95, se crea un nuevo elemento de búsqueda. Este elemento de búsqueda, llamado DocNumber_Corrected, debe ubicarse dentro de la región del elemento de búsqueda 95 y contener un número limitado de caracteres.
AD_HypothesisFiltering_CorrectedProperties
  1. El área de búsqueda para el nuevo elemento se restringe para que coincida con la región de 95 agregando la siguiente línea al código del elemento:
RestrictSearchArea: 95.Region;
  1. El elemento de búsqueda corregido se asigna al campo que extrae el número de documento:
AD_HypothesisFiltering_CorrectedMapping Como resultado, el número de documento extraído no incluirá la parte posterior al guion: AD_HypothesisFiltering_ValueCorrected

Ejemplo 2: Seleccionar uno de varios valores repetidos

En este ejemplo, se entrena una actividad de Deep Learning para encontrar todas las instancias del número de documento, pero el resultado final de la skill necesita solo un campo de número de documento. Para lograrlo, la configuración Allow Multiple Items se deshabilita para el campo Document Number y se especifican condiciones para seleccionar la instancia correcta del número de documento.
Nota: Recomendamos que primero guarde el conjunto de documentos etiquetados en una carpeta. Cuando deshabilite la configuración Allow Multiple Items para un campo, todas las instancias adicionales de ese campo se eliminarán del etiquetado. El modelo entrenado en la actividad de Deep Learning seguirá funcionando, pero si desea modificarlo y volver a entrenarlo, deberá cargar el conjunto de documentos original.
  1. La configuración Allow Multiple Items está deshabilitada para el campo Document Number (se puede acceder a la configuración haciendo clic en Manage Fields).
AD_HypothesisFiltering_NoMultiples
  1. El elemento de búsqueda Document_Number con múltiples instancias no se puede asignar al campo Document Number. Por lo tanto, se crea un nuevo elemento de búsqueda de Deep Learning a partir de la salida del número de documento de la actividad de Deep Learning y se asigna al campo Document Number.
AD_HypothesisFiltering_MapNoMultiples
  1. Las múltiples instancias del número de documento encontradas por la actividad de Deep Learning se utilizan para construir un árbol de hipótesis, del cual solo una se seleccionará como el valor del elemento de búsqueda Document_Number.
AD_HypothesisFiltering_HypTree
  1. Para encontrar una instancia concreta, se agregan ciertas condiciones para el elemento de búsqueda Document_Number (en este caso queremos encontrar la instancia más superior del número de documento).
AD_HypothesisFiltering_TopmostInstance

Ejemplo 3: Combine la salida de dos actividades de Deep Learning

Un contenedor de Hypothesis Filtering le permite combinar los resultados de dos o más actividades de Deep Learning para compararlos entre sí o simplemente afinarlos dentro de la misma actividad. En este ejemplo, se necesitaron dos actividades de Deep Learning porque una sola actividad de Deep Learning no puede entrenarse para extraer tanto campos de texto como tablas. Se agrega una condición que especifica que el elemento de búsqueda Company_Address siempre debe encontrarse por encima del elemento de búsqueda Goods_Table. Como resultado, se encontrará la dirección correcta incluso si otras direcciones están impresas en la parte inferior de la página. AD_HypothesisFiltering_AboveTable