Saltar al contenido principal
Al extraer datos de documentos semiestructurados, se usa Advanced Designer para conjuntos de documentos complejos (por ejemplo, aquellos que contienen numerosas variantes de documentos muy diferentes). El flujo de procesamiento de documentos incluirá actividades destinadas a extraer datos de documentos semiestructurados.

Pueden aparecer nuevas variantes de documentos después del desarrollo

Supongamos que tiene que procesar documentos del mismo tipo con distintos diseños y no puede proporcionar todas las variantes durante el desarrollo de la Habilidad. Este puede ser el caso cuando crea una Habilidad para procesar facturas de varios proveedores. Por lo general, cada proveedor tendrá su propia plantilla de factura, y es seguro que en el futuro aparecerán nuevas plantillas. Si dispone de suficientes muestras de documentos, puede usar una actividad de Deep Learning seguida de una actividad de Fast Learning. La actividad de Deep Learning se encargará de procesar variantes de documentos imprevistas, mientras que la actividad de Fast Learning aprenderá las variantes específicas de documentos que haya proporcionado el cliente, lo que se traducirá en una calidad aún mayor para esos documentos. La actividad de Fast Learning también se puede entrenar mediante el ciclo de retroalimentación de Online Learning a partir de la revisión manual. Deep Learning with Fast Learning

Pasos para crear una Skill de documento

  1. Abra Advanced Designer. Cree una nueva Skill haciendo clic en Create Document Skill en la página de inicio.
  2. Use la pestaña Documentos que se abrirá para cargar documentos que se utilizarán para configurar su Skill.
  3. Una vez cargadas las imágenes, vaya a la pestaña Fields y defina la estructura de campos de la Skill creando y configurando los campos que se extraerán con la Skill. Etiquete los documentos en la sección Reference.
  4. Vaya a la pestaña Activities y agregue una actividad de Deep Learning para documentos semiestructurados al flujo de procesamiento.
  5. Abra el Activity Editor para configurar y entrenar la actividad de Deep Learning. Tenga en cuenta que el conjunto de documentos utilizado para entrenar esta actividad debe contener al menos 100 documentos etiquetados.
  6. Regrese a la pestaña Activities y agregue una actividad de Fast Learning al flujo de procesamiento de documentos.
  7. Abra el Activity Editor para configurar y entrenar la actividad.
  8. Pruebe su Skill haciendo clic en Test Skill Using Selected Documents y analice los resultados obtenidos.
  9. Cuando los resultados de la prueba sean satisfactorios, publique su Skill.

Algunos documentos contienen estructuras que no pueden extraerse mediante aprendizaje automático

Suponga que la mayoría de las variantes de documentos de su conjunto pueden gestionarse con las actividades Deep Learning y Fast Learning. Aun así, algunos documentos pueden tener tablas anidadas o ser, de algún otro modo, completamente diferentes de los demás documentos usados para el entrenamiento. Para tratar estos documentos, debe separarlos del conjunto principal mediante la actividad Classification:
  • Use la actividad Classify By Company si las variantes de documentos son emitidas por diferentes empresas y el nombre y/o la dirección de la empresa aparece impreso en el documento. Por ejemplo, al procesar extractos bancarios de distintos bancos, puede proporcionar fácilmente una lista en una base de datos con esos bancos, cubriendo todas las variantes que deban manejarse por separado.
  • Use la actividad Classify By Text and Image en los demás casos. Esta tecnología de clasificación multimodal utiliza texto, estructura espacial y patrones de imagen para distinguir diferentes variantes de documentos entre sí, por lo que reconocerá fácilmente las variantes que se desvían.
Use una actividad IF para bifurcar el flujo de procesamiento de documentos y separar las variantes con baja calidad de procesamiento (por ejemplo, como se mencionó antes, documentos con tablas anidadas) y luego use una actividad Extraction Rules para extraer campos y tablas específicos de dichos documentos. IF con Deep Learning y Extraction Rules

Pasos para crear una Skill de documento

  1. Abra Advanced Designer. Cree una nueva Skill haciendo clic en Create Document Skill en la página de inicio.
  2. Use la pestaña Documentos que se abrirá para cargar los documentos que se utilizarán para configurar su Skill. Para asegurarse de que su conjunto de documentos sea suficiente para configurar un clasificador, agregue una cantidad aproximadamente igual de documentos para cada variante.
  3. Una vez que haya cargado sus imágenes, vaya a la pestaña Fields y configure una estructura de campos para la Skill creando y configurando los campos que se extraerán mediante la Skill. Etiquete los documentos en la sección Reference.
  4. Vaya a la pestaña Activities y agregue una actividad Classify al flujo de procesamiento de documentos.
  5. Abra el Activity Editor y configure la actividad Classify. Para ello, cree una clase correspondiente para cada variante, asigne estas clases a sus documentos y entrene la actividad.
  6. Regrese a la pestaña Activities y configure una bifurcación condicional para el flujo de procesamiento agregando una actividad IF, así como actividades independientes para procesar cada variante de documento.
  7. Configure las actividades que creó.
  8. Pruebe su Skill haciendo clic en Test Skill Using Selected Documents y analice los resultados obtenidos.
  9. Cuando los resultados de las pruebas sean suficientemente buenos, publique su Skill.

No tienes suficientes documentos para usar aprendizaje automático

Supongamos que debes extraer datos de un pequeño número de variantes de documentos, pero no tienes suficientes documentos para entrenar una actividad de deep learning; sin embargo, cuentas con algún tipo de conocimiento experto que te permite describir los principios básicos de extracción de datos para cada variante de documento. Por ejemplo, si estás creando una Habilidad para procesar formularios fiscales de distintos años, puedes dividir todos tus documentos en diferentes variantes utilizando una actividad de Classify. Luego debe ir un conjunto de actividades de Extraction Rules, donde cada actividad esté adaptada a una determinada variante de documento. Agrega una Fast Learning activity si quieres que Vantage siga entrenando tu skill. Multiple Extraction Rules

Pasos para crear una Skill de documento

  1. Abra Advanced Designer. Cree una nueva Skill haciendo clic en Create Document Skill en la página de inicio.
  2. Use la pestaña Documentos que se abrirá para cargar los documentos que se utilizarán para configurar su Skill. Para asegurarse de que su conjunto de documentos sea suficiente para configurar un clasificador, agregue un número aproximadamente igual de documentos para cada variante.
  3. Una vez que haya cargado sus imágenes, vaya a la pestaña Fields y defina una estructura de campos para la Skill creando y configurando los campos que se extraerán con la Skill. Etiquete los documentos en la sección Reference.
  4. Vaya a la pestaña Activities y agregue una actividad Classify al flujo de procesamiento del documento.
  5. Abra el Activity Editor y configure la actividad Classify. Para ello, cree una clase correspondiente para cada variante, asigne estas clases a sus documentos y entrene la actividad.
  6. Regrese a la pestaña Activities y cree una actividad Extraction Rules. Agregue otras actividades Extraction Rules a este elemento del flujo de trabajo. Configure condiciones de ramificación seleccionando el campo completado por la actividad Classify y asignando sus valores a las actividades Extraction Rules. También puede omitir este paso para documentos de ciertas clases que no requieren reglas de extracción especiales.
  7. Configure las actividades de extracción que creó.
  8. Pruebe su Skill haciendo clic en Test Skill Using Selected Documents y analice los resultados obtenidos.
  9. Cuando los resultados de las pruebas sean satisfactorios, publique su Skill.