Procesar conjuntos de documentos mixtos en Advanced Designer

Un conjunto de documentos «mixto» puede significar dos cosas en Advanced Designer:

Un único conjunto que contiene documentos semiestructurados y no estructurados (distintos tipos de documento).
Un único documento que contiene una estructura mixta; por ejemplo, un contrato no estructurado con tablas incrustadas, títulos, encabezados o pies de página.

Seleccione un escenario

Escenario	Cuándo usarlo	Actividades clave
Semiestructurados + no estructurados en un solo conjunto	Ambos pertenecen a un mismo tipo lógico con campos de salida compartidos	Classify + IF + Fast Learning + Segmentation + Deep Learning for NLP
Celdas de tabla con campos integrados	Extraiga valores del interior de las celdas de una tabla (p. ej., nombres en un Closing Disclosure)	Fast Learning + NER (+ Address Parsing)
No estructurados con tablas/títulos/encabezados/pies de página integrados	Principalmente documentos no estructurados con fragmentos semiestructurados	Segmentation + Extraction Rules

Cada uno de los siguientes escenarios sigue un patrón común; solo cambian las actividades que agregue al flujo de procesamiento.

Flujo de trabajo habitual

Crear un Skill de documento

Abra Advanced Designer y haga clic en Create Document Skill en la página de inicio.

Cargar documentos

En la pestaña Documentos, cargue los documentos que usará para configurar el skill.

Definir campos y etiquetar

En la pestaña Campos, cree y configure los campos que extraerá el skill. Etiquete los documentos en la sección Reference.

Agregar y configurar actividades

En la pestaña Actividades, agregue las actividades adecuadas para su escenario (descrito a continuación). Abra cada actividad en el Activity Editor para configurarla y entrenarla.

Probar y publicar

Haga clic en Test Skill Using Selected Documents para evaluar los resultados. Cuando sean lo suficientemente buenos, publique el skill.

Documentos semiestructurados y no estructurados en un mismo conjunto

Use este escenario cuando una Skill de documento deba procesar tanto documentos semiestructurados como no estructurados: ambos pertenecen al mismo tipo lógico y comparten el mismo conjunto de campos de salida. Clasifique cada documento con una actividad Classify By Text and Image, que combina texto y geometría para gestionar imágenes de baja calidad y documentos que solo se diferencian por características gráficas (firmas, sellos). Para obtener los mejores resultados, cargue una cantidad aproximadamente igual de documentos para cada variante, de modo que el clasificador disponga de datos de entrenamiento equilibrados. A continuación, ramifique el flujo con una actividad IF:

Procese los documentos semiestructurados con una actividad Fast Learning.
Procese los documentos no estructurados con una actividad de Segmentation, seguida de una actividad Deep Learning for NLP.

Flujo de procesamiento de documentos con Classify y una ramificación IF hacia Fast Learning y Segmentation + Deep Learning for NLP

Celdas de tabla con campos integrados en el texto de la celda

Use este escenario cuando necesite extraer valores específicos del interior de celdas de tabla en documentos semiestructurados; por ejemplo, el nombre de un prestatario y parte de una dirección integrados en una celda de Closing Disclosure. Extraiga la celda como un bloque de texto con una actividad Fast Learning y, a continuación, ejecute actividades de NLP en ese bloque para extraer los campos integrados:

actividad Named Entities (NER) para entidades como nombres y organizaciones.
actividad Address Parsing para desglosar las direcciones en componentes.

Flujo de procesamiento de documentos en el que Fast Learning alimenta las actividades Named Entities (NER) y Address Parsing

Documentos no estructurados con tablas, títulos, encabezados o pies de página

Use este escenario para documentos que, en su mayor parte, no están estructurados (por ejemplo, contratos), pero contienen fragmentos semiestructurados integrados, como tablas, títulos, encabezados o pies de página. Detecte párrafos de texto sin formato con una actividad de Segmentation y detecte los fragmentos semiestructurados con una actividad de Extraction Rules. Una vez aislado cada fragmento, use la actividad adecuada para extraer sus campos.

Documento de ejemplo con párrafos de texto no estructurado junto a una tabla semiestructurada

​Seleccione un escenario

​Flujo de trabajo habitual

​Documentos semiestructurados y no estructurados en un mismo conjunto

​Celdas de tabla con campos integrados en el texto de la celda

​Documentos no estructurados con tablas, títulos, encabezados o pies de página

​Actividades relacionadas

Seleccione un escenario

Flujo de trabajo habitual

Documentos semiestructurados y no estructurados en un mismo conjunto

Celdas de tabla con campos integrados en el texto de la celda

Documentos no estructurados con tablas, títulos, encabezados o pies de página

Actividades relacionadas