Passer au contenu principal
L’activité Segmentation est conçue pour segmenter le texte de documents non structurés en paragraphes. Cela permet au programme de restreindre les zones de recherche pour les champs devant être extraits par d’autres activités. L’activité peut également être utilisée pour extraire des paragraphes entiers vers des champs de texte (par exemple, si vous souhaitez extraire des clauses et conditions juridiques d’un contrat).
Exemple de paragraphe

Cas d’utilisation

Ajoutez cette activité à votre flux de traitement de documents dans les cas suivants :
  • Lorsque vous savez que les entités nommées que vous souhaitez extraire des documents se trouvent toujours dans le même paragraphe. Par exemple, si vous savez que les noms d’organisations et les adresses à extraire se trouvent dans le premier paragraphe de chaque contrat, vous pouvez extraire ce premier paragraphe à l’aide d’une activité Segmentation, puis en extraire les noms d’entreprises et les adresses à l’aide d’une activité Named Entities (NER). Cette approche est plus fiable que l’extraction d’entités nommées à partir de l’ensemble du document, car vous pouvez maîtriser la zone précise d’où ces entités sont extraites.
  • Lorsqu’un paragraphe doit être extrait dans son intégralité parce que tout son contenu est pertinent, par exemple un paragraphe contenant les modalités de paiement d’un contrat.

Fonctionnement

Les activités de segmentation sont entraînées à l’aide d’un étiquetage de référence ; il est donc essentiel d’étiqueter correctement autant de documents que possible. Si l’ensemble d’entraînement contient suffisamment de documents, l’activité est entraînée par validation croisée. L’ensemble de documents est divisé en plusieurs sous-ensembles et l’activité est entraînée plusieurs fois. À chaque itération, un sous-ensemble est exclu de l’entraînement et utilisé pour des tests internes, ce qui permet de valider les résultats de l’entraînement. Cette technique améliore la précision de l’extraction et permet de détecter les erreurs d’étiquetage et de proposer des corrections. Le nombre recommandé d’exemples de documents est le suivant :
  • Pour des documents à forte variabilité, au moins 100 exemples de documents sont requis.
  • Pour des documents à faible variabilité, au moins 20 exemples de documents sont requis.
Pour plus d’informations, consultez Configuration d’une activité de segmentation.