Saltar al contenido principal

Extracción de datos de un conjunto mixto de documentos (semiestructurados y no estructurados)

Suponga que una única Skill de documento debe procesar tanto documentos semiestructurados como no estructurados. En este caso, primero clasifique los documentos en los tipos correspondientes usando la actividad Classify By Text and Image, que combina características textuales y geométricas y puede clasificar incluso imágenes de menor calidad y documentos de distintas clases que solo se diferencian por objetos gráficos, como firmas o sellos. Use una actividad IF para ramificar el flujo de procesamiento de documentos y separar los documentos no estructurados de los semiestructurados. Cada rama puede procesarse usando uno de los escenarios descritos en las secciones Processing semi-structured documents y Processing unstructured documents. Por ejemplo, los documentos semiestructurados pueden procesarse con una actividad Fast Learning, mientras que los no estructurados pueden procesarse con una combinación de una actividad Segmentation y una actividad Deep Learning para NLP. Dado que los documentos descritos pertenecen al mismo tipo, tendrán el mismo conjunto de campos de salida. Flujo de procesamiento de documentos mixtos

Pasos para crear una Skill de documento

  1. Abra Advanced Designer. Cree una nueva skill haciendo clic en Create Document Skill en la página de inicio.
  2. Use la pestaña Documents que se abrirá para cargar los documentos que se utilizarán para configurar su skill. Para asegurarse de que su conjunto de documentos sea suficiente para configurar un clasificador, agregue una cantidad aproximadamente igual de documentos para cada variante.
  3. Una vez que haya cargado sus imágenes, vaya a la pestaña Fields y defina una estructura de campos para la skill creando y configurando los campos que se extraerán con la skill. Etiquete los documentos en la sección Reference.
  4. Vaya a la pestaña Activities y agregue una actividad Classify al flujo de procesamiento de documentos.
  5. Abra el Activity Editor y configure la actividad Classify. Para ello, cree una clase correspondiente para cada variante, asigne estas clases a sus documentos y entrene la actividad.
  6. Regrese a la pestaña Activities y configure una bifurcación condicional para el flujo de procesamiento agregando una actividad IF, así como actividades independientes para procesar cada variante de documento.
  7. Configure y entrene las actividades que creó.
  8. Pruebe su skill haciendo clic en Test Skill Using Selected Documents y analice los resultados obtenidos.
  9. Cuando los resultados de las pruebas sean satisfactorios, publique su skill.

Extracción de texto de celdas de tablas en documentos semiestructurados

Supongamos que está extrayendo datos de documentos semiestructurados con tablas y necesita extraer no solo el texto de cada celda, sino también valores numéricos específicos incrustados en el texto de una celda. Por ejemplo, si necesita extraer información sobre un prestatario de un documento de Closing Disclosure, puede usar una actividad de Fast Learning, pensada para documentos semiestructurados, para extraer todo el texto de la celda de la tabla objetivo y, luego, usar una actividad para documentos no estructurados (Named Entities, NER, y Address Parsing en este caso) para extraer el nombre del prestatario y una parte de su dirección desde esa misma celda. Fast Learning con NER y Address Parsing

Pasos para crear una Skill de documento

  1. Abra Advanced Designer. Cree una nueva skill haciendo clic en Create Document Skill en la página de inicio.
  2. Use la pestaña Documentos que se abrirá para cargar documentos que se utilizarán para configurar su skill.
  3. Una vez cargadas las imágenes, vaya a la pestaña Fields y defina la estructura de campos de la skill creando y configurando los campos que se extraerán con la skill. Etiquete los documentos en la sección Reference.
  4. Vaya a la pestaña Activities, cree una actividad de Fast Learning y especifique los campos que serán extraídos por esta actividad.
  5. Abra el Activity Editor, configure y entrene la actividad de Fast Learning.
  6. Regrese a la pestaña Activities, cree una actividad de Named Entities (NER) y especifique un campo de origen, así como los campos que se usarán para almacenar las entidades nombradas extraídas. Asigne las entidades nombradas a los campos seleccionados.
  7. Si tiene un campo que contiene una dirección y desea dividirla en componentes, cree una actividad de Address Parsing y especifique un campo de origen, así como los campos que se utilizarán para almacenar los componentes de dirección extraídos. Asigne los componentes de dirección a los campos seleccionados.
  8. Pruebe su skill haciendo clic en Test Skill Using Selected Documents y analice los resultados obtenidos.
  9. Cuando los resultados de las pruebas sean satisfactorios, publique su skill.

Extracción de datos de documentos no estructurados con tablas, títulos, encabezados y pies de página

Supongamos que debe extraer datos de documentos no estructurados (por ejemplo, contratos) que contienen tablas, títulos, encabezados o pies de página. Documento mixto de ejemplo En este caso, configure una actividad de Segmentation para detectar párrafos continuos de texto y una actividad de Extraction Rules para detectar inserciones semiestructuradas. Una vez detectado el fragmento de documento requerido, utilice las actividades adecuadas para extraer campos de esos fragmentos.

Pasos para crear una Skill de documento

  1. Abra Advanced Designer. Cree una nueva skill haciendo clic en Create Document Skill en la página de inicio.
  2. Use la pestaña Documents que se abrirá para cargar documentos que se utilizarán para configurar su skill.
  3. Una vez que haya cargado sus imágenes, vaya a la pestaña Fields y defina la estructura de campos de la skill creando y configurando los campos que se extraerán con la skill. Etiquete los documentos en la sección Reference.
  4. Vaya a la pestaña Activities, cree una actividad Segmentation y especifique los campos que se utilizarán para almacenar párrafos de texto sin formato.
  5. Abra el Activity Editor, configure y entrene la actividad Segmentation.
  6. Regrese a la pestaña Activities, cree una actividad Extraction Rules y especifique los campos que se utilizarán para almacenar datos de fragmentos semiestructurados del documento.
  7. Abra el Activity Editor, configure y pruebe la actividad Extraction Rules.
  8. Pruebe su skill haciendo clic en Test Skill Using Selected Documents y analice los resultados obtenidos.
  9. Cuando los resultados de las pruebas sean suficientemente buenos, publique su skill.