Passer au contenu principal

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

L’activité Segmentation est conçue pour segmenter le texte de documents non structurés en paragraphes. Cela permet au programme de restreindre les zones de recherche pour les champs devant être extraits par d’autres activités. L’activité peut également être utilisée pour extraire des paragraphes entiers vers des champs de texte (par exemple, si vous souhaitez extraire des clauses et conditions juridiques d’un contrat).
Exemple de paragraphe

Cas d’utilisation

Ajoutez cette activité à votre flux de traitement du document dans les cas suivants :
  • Lorsque vous savez que les entités nommées que vous souhaitez extraire des documents se trouvent toujours dans le même paragraphe. Par exemple, si vous savez que les noms d’organisations et les adresses à extraire se trouvent dans le premier paragraphe de chaque contrat, vous pouvez extraire ce premier paragraphe à l’aide d’une activité Segmentation, puis en extraire les noms d’entreprises et les adresses à l’aide d’une activité Named Entities (NER). Cette approche est plus fiable que l’extraction d’entités nommées à partir de l’ensemble du document, car vous pouvez maîtriser la zone précise d’où ces entités sont extraites.
  • Lorsqu’un paragraphe doit être extrait dans son intégralité parce que tout son contenu est pertinent, par exemple un paragraphe contenant les modalités de paiement d’un contrat.

Fonctionnement

Les activités Segmentation sont entraînées à l’aide de l’annotation de référence. Il est donc essentiel d’annoter correctement autant de documents que possible. Si le jeu d’entraînement contient suffisamment de documents, l’activité est entraînée au moyen de la validation croisée. Le jeu de documents est divisé en plusieurs sous-ensembles, et l’activité est entraînée plusieurs fois. À chaque itération, un sous-ensemble est exclu de l’entraînement et utilisé pour des tests internes, ce qui permet de valider les résultats de l’entraînement. Cette technique améliore la précision de l’extraction, tout en détectant les erreurs d’annotation et en suggérant des corrections. Le nombre recommandé de documents d’exemple est le suivant :
  • Pour les documents à forte variabilité, au moins 100 documents d’exemple sont requis.
  • Pour les documents à faible variabilité, au moins 20 documents d’exemple sont requis.
Pour plus d’informations, voir Configuration d’une activité Segmentation.