Saltar al contenido principal
La actividad de segmentación está diseñada para dividir el texto de documentos no estructurados en párrafos. Esto permite que el programa acote las regiones de búsqueda de los campos que deben extraerse mediante otras actividades. La actividad también puede utilizarse para extraer párrafos completos en campos de texto (por ejemplo, si desea extraer cláusulas y condiciones legales de un contrato).
Sample Paragraph

Casos de uso

Agregue esta actividad a su flujo de procesamiento de documentos en los siguientes casos:
  • Cuando sabe que las entidades nombradas que desea extraer de los documentos siempre se encuentran en el mismo párrafo. Por ejemplo, si sabe que los nombres de organizaciones y las direcciones que necesita extraer se encuentran en el primer párrafo de cada contrato, puede extraer el primer párrafo usando una actividad de Segmentation y luego extraer nombres de empresas y direcciones de ese párrafo usando una actividad de Named Entities (NER). Este enfoque es más fiable que extraer entidades nombradas de todo el documento, ya que puede controlar el área específica de la que se extraen dichas entidades.
  • Cuando sea necesario extraer un párrafo en su totalidad porque todo su contenido es valioso; por ejemplo, un párrafo que contenga las condiciones de pago de un contrato.

Cómo funciona

Las actividades de segmentación se entrenan con etiquetado de referencia, por lo que es esencial etiquetar correctamente la mayor cantidad posible de documentos. Si el conjunto de entrenamiento contiene suficientes documentos, la actividad se entrena mediante validación cruzada. El conjunto de documentos se divide en varios subconjuntos y la actividad se entrena varias veces. En cada iteración se excluye un subconjunto del entrenamiento y se utiliza para pruebas internas, lo que permite validar los resultados del entrenamiento. Esta técnica mejora la precisión de la extracción, además de detectar errores de etiquetado y sugerir correcciones. El número recomendado de documentos de muestra es el siguiente:
  • Para documentos de alta variabilidad, se requieren al menos 100 documentos de muestra.
  • Para documentos de baja variabilidad, se requieren al menos 20 documentos de muestra.
Para obtener más información, consulta Configuración de una actividad de segmentación.