Pular para o conteúdo principal
A atividade de Segmentação foi projetada para segmentar o texto em documentos não estruturados em parágrafos. Isso permite ao programa restringir as regiões de busca para campos que precisam ser extraídos por outras atividades. A atividade também pode ser usada para extrair parágrafos inteiros em campos de texto (por exemplo, se você quiser extrair cláusulas e condições legais de um contrato).
Parágrafo de exemplo

Casos de uso

Adicione esta atividade ao seu fluxo de processamento de documentos nos seguintes casos:
  • Quando você sabe que as entidades nomeadas que deseja extrair dos documentos estão sempre no mesmo parágrafo. Por exemplo, se você sabe que os nomes de organizações e os endereços que precisa extrair estão no primeiro parágrafo de cada contrato, você pode extrair esse primeiro parágrafo usando uma atividade de Segmentação e, em seguida, extrair nomes de empresas e endereços desse parágrafo usando uma atividade de Named Entities (NER). Essa abordagem é mais confiável do que extrair entidades nomeadas do documento inteiro, pois você pode controlar a área específica de onde essas entidades serão extraídas.
  • Quando um parágrafo precisa ser extraído na íntegra porque todo o seu conteúdo é relevante; por exemplo, um parágrafo que contém os termos de pagamento de um contrato.

Como funciona

As atividades de segmentação são treinadas com rotulagem de referência, portanto, é essencial rotular corretamente o máximo possível de documentos. Se o conjunto de treinamento contiver documentos suficientes, a atividade será treinada usando validação cruzada. O conjunto de documentos é dividido em vários subconjuntos e a atividade é treinada várias vezes. A cada iteração, um subconjunto é excluído do treinamento e usado para testes internos, o que permite validar os resultados do treinamento. Essa técnica melhora a precisão da extração, além de detectar erros de rotulagem e sugerir correções. O número recomendado de documentos de amostra é o seguinte:
  • Para documentos de alta variabilidade, é necessário pelo menos 100 documentos de amostra.
  • Para documentos de baixa variabilidade, é necessário pelo menos 20 documentos de amostra.
Para mais informações, consulte Configuração de uma atividade de segmentação.