Saltar al contenido principal

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Un conjunto de documentos «mixto» puede significar dos cosas en Advanced Designer:
  • Un único conjunto que contiene documentos semiestructurados y no estructurados (distintos tipos de documento).
  • Un único documento que contiene una estructura mixta; por ejemplo, un contrato no estructurado con tablas incrustadas, títulos, encabezados o pies de página.

Seleccione un escenario

EscenarioCuándo usarloActividades clave
Semiestructurados + no estructurados en un solo conjuntoAmbos pertenecen a un mismo tipo lógico con campos de salida compartidosClassify + IF + Fast Learning + Segmentation + Deep Learning for NLP
Celdas de tabla con campos integradosExtraiga valores del interior de las celdas de una tabla (p. ej., nombres en un Closing Disclosure)Fast Learning + NER (+ Address Parsing)
No estructurados con tablas/títulos/encabezados/pies de página integradosPrincipalmente documentos no estructurados con fragmentos semiestructuradosSegmentation + Extraction Rules
Cada uno de los siguientes escenarios sigue un patrón común; solo cambian las actividades que agregue al flujo de procesamiento.

Flujo de trabajo habitual

1

Crear un Skill de documento

Abra Advanced Designer y haga clic en Create Document Skill en la página de inicio.
2

Cargar documentos

En la pestaña Documentos, cargue los documentos que usará para configurar el skill.
3

Definir campos y etiquetar

En la pestaña Campos, cree y configure los campos que extraerá el skill. Etiquete los documentos en la sección Reference.
4

Agregar y configurar actividades

En la pestaña Actividades, agregue las actividades adecuadas para su escenario (descrito a continuación). Abra cada actividad en el Activity Editor para configurarla y entrenarla.
5

Probar y publicar

Haga clic en Test Skill Using Selected Documents para evaluar los resultados. Cuando sean lo suficientemente buenos, publique el skill.

Documentos semiestructurados y no estructurados en un mismo conjunto

Use este escenario cuando una Skill de documento deba procesar tanto documentos semiestructurados como no estructurados: ambos pertenecen al mismo tipo lógico y comparten el mismo conjunto de campos de salida. Clasifique cada documento con una actividad Classify By Text and Image, que combina texto y geometría para gestionar imágenes de baja calidad y documentos que solo se diferencian por características gráficas (firmas, sellos). Para obtener los mejores resultados, cargue una cantidad aproximadamente igual de documentos para cada variante, de modo que el clasificador disponga de datos de entrenamiento equilibrados. A continuación, ramifique el flujo con una actividad IF:
Flujo de procesamiento de documentos con Classify y una ramificación IF hacia Fast Learning y Segmentation + Deep Learning for NLP

Celdas de tabla con campos integrados en el texto de la celda

Use este escenario cuando necesite extraer valores específicos del interior de celdas de tabla en documentos semiestructurados; por ejemplo, el nombre de un prestatario y parte de una dirección integrados en una celda de Closing Disclosure. Extraiga la celda como un bloque de texto con una actividad Fast Learning y, a continuación, ejecute actividades de NLP en ese bloque para extraer los campos integrados:
Flujo de procesamiento de documentos en el que Fast Learning alimenta las actividades Named Entities (NER) y Address Parsing

Documentos no estructurados con tablas, títulos, encabezados o pies de página

Use este escenario para documentos que, en su mayor parte, no están estructurados (por ejemplo, contratos), pero contienen fragmentos semiestructurados integrados, como tablas, títulos, encabezados o pies de página. Detecte párrafos de texto sin formato con una actividad de Segmentation y detecte los fragmentos semiestructurados con una actividad de Extraction Rules. Una vez aislado cada fragmento, use la actividad adecuada para extraer sus campos.
Documento de ejemplo con párrafos de texto no estructurado junto a una tabla semiestructurada

Classify By Text and Image

Clasifique documentos combinando texto y características visuales.

actividad Fast Learning

Extraiga campos de documentos semiestructurados y de celdas de tabla.

actividad de Segmentation

Aísle los párrafos que contienen campos sin estructura.

actividad Deep Learning for NLP

Extraiga entidades personalizadas o difíciles de desambiguar a partir de texto no estructurado.

actividad Named Entities (NER)

Extraiga entidades preentrenadas, como nombres, organizaciones y fechas.

Extraction Rules activity

Defina una extracción basada en reglas para fragmentos semiestructurados.