Passer au contenu principal
L’activité Segmentation est conçue pour segmenter le texte de documents non structurés en paragraphes. Cela permet au programme de restreindre les zones de recherche des champs devant être extraits par d’autres activités. L’activité peut également être utilisée pour extraire des paragraphes entiers vers des champs de texte (par exemple, si vous souhaitez extraire les clauses et conditions juridiques d’un contrat).
Exemple de paragraphe

Cas d’utilisation

Ajoutez cette activité à votre flux de traitement de documents dans les cas suivants :
  • Lorsque vous savez que les entités nommées que vous souhaitez extraire des documents se trouvent toujours dans le même paragraphe. Par exemple, si vous savez que les noms d’organisations et les adresses à extraire se trouvent dans le premier paragraphe de chaque contrat, vous pouvez extraire ce premier paragraphe à l’aide d’une activité Segmentation, puis en extraire les noms d’entreprises et les adresses à l’aide d’une activité Named Entities (NER). Cette approche est plus fiable que l’extraction d’entités nommées à partir de l’ensemble du document, car vous pouvez maîtriser la zone précise d’où ces entités sont extraites.
  • Lorsqu’un paragraphe doit être extrait dans son intégralité parce que tout son contenu est pertinent, par exemple un paragraphe contenant les modalités de paiement d’un contrat.

Fonctionnement

Les activités de segmentation sont entraînées à l’aide d’un étiquetage de référence ; il est donc essentiel d’étiqueter correctement autant de documents que possible. Si l’ensemble d’entraînement comporte suffisamment de documents, l’activité est entraînée à l’aide d’une validation croisée. L’ensemble de documents est divisé en plusieurs sous-ensembles, et l’activité est entraînée à plusieurs reprises. À chaque itération, un sous-ensemble est exclu de l’entraînement et utilisé pour des tests internes, ce qui permet de valider les résultats de l’entraînement. Cette technique améliore la précision de l’extraction, tout en détectant les erreurs d’étiquetage et en suggérant des corrections. Le nombre recommandé de documents d’exemple est le suivant :
  • Pour des documents à forte variabilité, au moins 100 documents d’exemple sont requis.
  • Pour des documents à faible variabilité, au moins 20 documents d’exemple sont requis.
Pour plus d’informations, voir Configuration d’une activité de segmentation.