Saltar al contenido principal
La actividad de Deep Learning para documentos semiestructurados está diseñada para crear habilidades cognitivas de calidad de nivel de producción que extraigan campos de documentos semiestructurados utilizando redes neuronales.
Nota: Esta actividad no puede extraer estructuras complejas (por ejemplo, tablas anidadas, que son estructuras repetitivas dentro de otras tablas) ni campos de tipo distinto de Text. Para extraer dichas estructuras, utilice la actividad Extraction Rules.

Casos de uso

Agregue esta actividad a su flujo de procesamiento de documentos cuando:
  • Su Habilidad se utilizará para procesar múltiples variantes de un determinado tipo de documento.
  • Planea procesar variantes de documentos para las cuales su Habilidad aún no ha sido entrenada. Por ejemplo, puede tener una Skill de documento con una actividad Fast Learning que se ha entrenado para extraer campos de contratos de préstamo (con diferentes estructuras de campos) provenientes de varios bancos distintos. Si decide usar esta Habilidad existente para procesar contratos de préstamo de un nuevo banco que la Habilidad aún no conoce, la calidad de extracción puede ser inferior a la deseada. Para mejorar la calidad de extracción, puede usar una actividad Deep Learning en lugar de una actividad Fast Learning.

Cómo funciona

Deep Learning combina Redes Neuronales Convolucionales (CNN), Redes Neuronales Recurrentes (RNN) y tokens de procesamiento de lenguaje natural (NLP). Gracias a esta combinación, Deep Learning comprende patrones de imagen, la estructura de los documentos, el contenido de los campos y las etiquetas circundantes. Requiere una gran cantidad de documentos para su entrenamiento, pero se generaliza bien a nuevos diseños de documento que aún no ha encontrado, proporcionando un verdadero enfoque sin plantillas para la extracción, que es la única forma de tratar con documentos para los que no se dispone de un conjunto exhaustivo de diseños en la fase de entrenamiento.

Requisitos de entrenamiento

Para obtener los mejores resultados, es esencial etiquetar correctamente la mayor cantidad posible de documentos. La cantidad de documentos de ejemplo utilizados para el entrenamiento afecta significativamente la calidad de la extracción de campos. El número recomendado de documentos de ejemplo es el siguiente:
  • Para documentos de alta variabilidad: se requieren al menos 200-300 documentos de ejemplo (2-3 documentos de ejemplo por variante).
  • Para documentos de baja variabilidad: se requieren como mínimo 10 documentos de ejemplo (2-3 documentos de ejemplo por variante).
El requisito mínimo es 10, pero se recomienda contar con más de 500 documentos etiquetados, asegurándose de que su conjunto de entrenamiento contenga cantidades aproximadamente iguales de todas las variantes de documentos que desea procesar (idealmente, al menos unos cuantos ejemplos de cada variante). No es necesario proporcionar todas las posibles variantes, pero la tecnología necesita ver suficientes documentos variados para identificar patrones y generalizar a variantes que aún no ha encontrado. Por ejemplo, en el caso de facturas, se espera que la tecnología generalice bien a nuevos proveedores cuando el conjunto de entrenamiento contenga entre 500 y 1 000 proveedores diferentes, con dos o tres documentos de ejemplo de cada uno en el conjunto de entrenamiento. Si bien el deep learning tiende a generalizar, es beneficioso incluir las variantes más frecuentes del documento en el conjunto de entrenamiento, por ejemplo, los proveedores que emiten la mayor cantidad de facturas.

Características del entrenamiento

A diferencia de la actividad Fast Learning, que se entrena con una menor cantidad de documentos y está destinada a conjuntos de documentos más reducidos, el entrenamiento de la actividad Deep Learning lleva mucho más tiempo y requiere más recursos del sistema (actualmente, 16 núcleos de CPU y 64 GB de RAM). El entrenamiento de la red neuronal es un proceso iterativo. Cada iteración se denomina época. Al comienzo de una época, el conjunto de documentos se divide en un subconjunto de entrenamiento y un subconjunto de validación. Durante una época, todos los documentos del subconjunto de entrenamiento se procesan mediante un algoritmo de entrenamiento. Después, el rendimiento de la red neuronal se evalúa utilizando el subconjunto de validación y se actualizan las métricas para cada campo y para todo el conjunto de documentos. Para obtener más información, consulte Configuración de una actividad Deep Learning.