Saltar al contenido principal
Las skill para procesar documentos no estructurados solo se pueden crear en Advanced Designer. El flujo de procesamiento de documentos de dichas skill incluirá actividades orientadas a extraer datos mediante PLN. Las siguientes actividades admiten un número limitado de idiomas. Puede encontrar la lista de idiomas admitidos por cada actividad en sus páginas correspondientes:
  • Actividad de segmentación
  • Actividad de Deep Learning para PLN
  • Actividad de reconocimiento de entidades (NER)
  • Actividad de análisis de direcciones

Extracción de entidades con nombre preentrenadas del documento completo

Supongamos que necesita crear una Skill de documento para extraer nombres de empresas y direcciones de documentos no estructurados, como cartas. Para extraer estas entidades, puede configurar una actividad de Named Entities (NER), diseñada para extraer entidades con nombre. Si la dirección debe dividirse en componentes como calle, ciudad, estado, país y código postal, y extraerse en diferentes campos, configure una actividad de Address Parsing. Flujo de actividad NER

Pasos para crear una Skill de documento

  1. Abra Advanced Designer. Cree una nueva skill haciendo clic en Create Document Skill en la página de inicio.
  2. Use la pestaña Documentos que se abrirá para cargar los documentos que se utilizarán para configurar su skill.
  3. Una vez cargadas las imágenes, vaya a la pestaña Fields y defina la estructura de campos de la skill creando y configurando los campos que se extraerán con la skill. Etiquete los documentos en la sección Reference.
  4. Vaya a la pestaña Activities. Cree una actividad de Named Entities (NER) y especifique los campos que se utilizarán para almacenar las entidades nombradas extraídas. Asigne las entidades nombradas a los campos seleccionados.
  5. Si tiene un campo que contiene una dirección y desea dividirla en componentes, cree una actividad de Address Parsing y especifique los campos que se utilizarán para almacenar los componentes de dirección extraídos. Asigne los componentes de la dirección a los campos seleccionados.
  6. Pruebe su skill haciendo clic en Test Skill Using Selected Documents y analice los resultados.
  7. Cuando los resultados de la prueba sean satisfactorios, publique su skill.

Extracción de entidades con nombre preentrenadas de ciertos párrafos

Supongamos que la entidad con nombre que desea extraer siempre se encuentra en el mismo párrafo. Por ejemplo, si necesita extraer un monto de dinero de un párrafo de precio de compra que forma parte de un contrato de compraventa, primero use la actividad Segmentation para extraer el párrafo objetivo y luego la actividad Named Entities (NER) para extraer el campo objetivo. Los datos objetivo deben representar una entidad con nombre compatible con una actividad Named Entities (NER) o Address Parsing, por ejemplo, nombres, direcciones y fechas. También puede extraer el párrafo objetivo usando las actividades Fast Learning y Extraction Rules. Para hacerlo, primero asegúrese de que el fragmento de texto se extraiga correctamente mediante una actividad Fast Learning o Extraction Rules y luego cree y configure una actividad Named Entities (NER) o Address Parsing. Si el párrafo objetivo también contiene otras entidades con nombre del mismo tipo que no deberían extraerse, consulte el siguiente caso de uso. Las actividades preentrenadas son un buen punto de partida, ya que se configuran fácilmente y no requieren entrenamiento. Sin embargo, una red neuronal entrenada con sus documentos puede proporcionar mayor precisión de extracción. Si tiene un conjunto de documentos extenso, también puede probar el siguiente escenario y elegir el que funcione mejor con sus documentos. Segmentation with NER and Address Parsing

Pasos para crear una Skill de documento

  1. Abra Advanced Designer. Cree una nueva Skill haciendo clic en Create Document Skill en la página de inicio.
  2. Use la pestaña Documents que se abrirá para cargar documentos que se utilizarán para configurar su Skill.
  3. Una vez que haya cargado sus imágenes, vaya a la pestaña Fields y defina la estructura de campos de la Skill creando y configurando los campos que se extraerán con la Skill. Etiquete los documentos en la sección Reference.
  4. Vaya a la pestaña Activities, cree una actividad de Segmentation y especifique los campos que se utilizarán para almacenar los párrafos de destino.
  5. Abra el Activity Editor, configure y entrene la actividad de Segmentation.
  6. Regrese a la pestaña Activities, cree una actividad de Named Entities (NER) y especifique un campo de origen, así como los campos que se utilizarán para almacenar las entidades con nombre extraídas. Asigne las entidades con nombre a los campos seleccionados.
  7. Si tiene un campo que contiene una dirección y desea dividirla en componentes, cree una actividad de Address Parsing y especifique un campo de origen, así como los campos que se utilizarán para almacenar los componentes de dirección extraídos. Asigne los componentes de dirección a los campos seleccionados.
  8. Pruebe su Skill haciendo clic en Test Skill Using Selected Documents y analice los resultados obtenidos.
  9. Cuando los resultados de las pruebas sean suficientemente buenos, publique su Skill.

Extracción de entidades con nombre personalizadas

Supongamos que necesitas extraer el nombre de una organización de un párrafo que contiene información sobre ambas partes del acuerdo. Además, necesitas extraer una dirección de correo electrónico. En este caso, primero debes usar la actividad Segmentation para extraer el párrafo de interés. Sin embargo, no puedes usar la actividad Named Entities (NER), ya que extraerá los nombres de ambas organizaciones del párrafo objetivo y, además, no está entrenada para extraer correos electrónicos. En este caso, usa la actividad Deep Learning for NLP. También puedes aplicar este enfoque para mejorar la precisión de extracción de entidades con nombre preentrenadas. Puedes probar tanto una actividad preentrenada como la actividad Deep Learning y luego elegir la que ofrezca un mejor desempeño en tus documentos. Ten en cuenta que necesitas una cantidad considerable de documentos para usar esta actividad (el mínimo es 50 documentos, pero recomendamos contar con al menos 150). También puedes probar ambas actividades (Named Entities (NER) y Deep Learning for NLP) y luego elegir la que ofrezca un mejor desempeño en tus documentos. Segmentación con Deep Learning

Pasos para crear una Skill de documento

  1. Abre Advanced Designer. Crea una nueva Skill haciendo clic en Create Document Skill en la página de inicio.
  2. Usa la pestaña Documentos que se abrirá para cargar los documentos que se utilizarán para configurar tu Skill.
  3. Una vez cargadas las imágenes, ve a la pestaña Fields y configura una estructura de campos para la Skill creando y configurando los campos que se extraerán con la Skill. Etiqueta los documentos en la sección Reference.
  4. Ve a la pestaña Activities, crea una actividad de Segmentación y especifica los campos que se utilizarán para almacenar los párrafos objetivo.
  5. Abre el Activity Editor, configura y entrena la actividad de Segmentación.
  6. Regresa a la pestaña Activities, crea una actividad de Deep Learning for NLP y especifica los campos que deben extraerse en esta actividad.
  7. Abre el Activity Editor para configurar y entrenar la actividad de Deep Learning.
  8. Prueba tu Skill haciendo clic en Test Skill Using Selected Documents y analiza los resultados obtenidos.
  9. Cuando los resultados de las pruebas sean suficientemente buenos, publica tu Skill.