Passer au contenu principal
Les compétences pour le traitement de documents non structurés ne peuvent être créées que dans Advanced Designer. Le flux de traitement de telles compétences inclura des activités visant à extraire des données à l’aide du NLP. Les activités suivantes prennent en charge un nombre limité de langues. Vous trouverez la liste des langues prises en charge par chaque activité sur leurs pages respectives :
  • Activité de segmentation
  • Activité Deep Learning pour le NLP
  • Activité Entités nommées (NER)
  • Activité d’analyse d’adresses

Extraction d’entités nommées préentraînées depuis l’ensemble du document

Supposons que vous deviez créer une Compétence de document pour extraire des noms d’entreprise et des adresses à partir de documents non structurés, comme des lettres. Pour extraire ces entités, vous pouvez configurer une activité Named Entities (NER), conçue pour l’extraction d’entités nommées. Si l’adresse doit être décomposée en éléments tels que la rue, la ville, l’État, le pays et le code postal, puis extraite dans différents champs, configurez une activité Address Parsing. Flux de l’activité NER

Étapes pour créer une Compétence de document

  1. Ouvrez Advanced Designer. Créez une nouvelle compétence en cliquant sur Create Document Skill sur la page d’accueil.
  2. Utilisez l’onglet Documents qui s’ouvre pour téléverser les documents qui serviront à configurer votre compétence.
  3. Après avoir téléversé vos images, accédez à l’onglet Fields et définissez une structure de champ pour la compétence en créant et en configurant les champs qui seront extraits par la compétence. Étiquetez les documents dans la section Reference.
  4. Accédez à l’onglet Activities. Créez une activité Named Entities (NER) et spécifiez les champs qui seront utilisés pour stocker les entités nommées extraites. Associez les entités nommées aux champs sélectionnés.
  5. Si vous avez un champ qui contient une adresse et souhaitez la diviser en composants, créez une activité Address Parsing et spécifiez les champs qui seront utilisés pour stocker les composants d’adresse extraits. Associez les composants d’adresse aux champs sélectionnés.
  6. Testez votre compétence en cliquant sur Test Skill Using Selected Documents et analysez les résultats obtenus.
  7. Lorsque les résultats des tests sont satisfaisants, publiez votre compétence.

Extraction d’entités nommées préentraînées à partir de certains paragraphes

Supposons que l’entité nommée que vous souhaitez extraire se trouve toujours dans le même paragraphe. Par exemple, si vous devez extraire un montant d’argent d’un paragraphe sur le prix d’achat faisant partie d’un contrat de vente et d’achat, utilisez d’abord l’activité Segmentation pour extraire le paragraphe cible, puis l’activité Named Entities (NER) pour extraire le champ ciblé. Les données ciblées doivent représenter une entité nommée prise en charge par une activité Named Entities (NER) ou Address Parsing, par exemple des noms, des adresses et des dates. Vous pouvez également extraire le paragraphe cible à l’aide des activités Fast Learning et Extraction Rules. Pour ce faire, vérifiez d’abord que le segment de texte est correctement extrait par une activité Fast Learning ou Extraction Rules, puis créez et configurez une activité Named Entities (NER) ou Address Parsing. Si le paragraphe cible contient également d’autres entités nommées du même type qui ne doivent pas être extraites, consultez le cas d’utilisation suivant. Les activités préentraînées constituent un bon point de départ, car elles sont faciles à configurer et ne nécessitent pas d’entraînement. Cependant, un réseau de neurones entraîné sur vos documents peut offrir une précision d’extraction supérieure. Si vous disposez d’un vaste jeu de documents, vous pouvez également essayer le scénario suivant et choisir celui qui donne les meilleurs résultats sur vos documents. Segmentation with NER and Address Parsing

Étapes pour créer une Compétence de document

  1. Ouvrez Advanced Designer. Créez une nouvelle compétence en cliquant sur Create Document Skill sur la page d’accueil.
  2. Utilisez l’onglet Documents qui s’ouvre pour téléverser les documents qui serviront à configurer votre compétence.
  3. Une fois vos images téléversées, accédez à l’onglet Fields et définissez une structure de champs pour la compétence en créant et en configurant les champs qui seront extraits à l’aide de la compétence. Étiquetez les documents dans la section Reference.
  4. Accédez à l’onglet Activities, créez une activité Segmentation et spécifiez les champs qui seront utilisés pour stocker les paragraphes cibles.
  5. Ouvrez l’Activity Editor, configurez et entraînez l’activité Segmentation.
  6. Revenez à l’onglet Activities, créez une activité Named Entities (NER) et spécifiez un champ source, ainsi que les champs qui seront utilisés pour stocker les entités nommées extraites. Faites le mapping des entités nommées vers les champs sélectionnés.
  7. Si vous avez un champ contenant une adresse et souhaitez diviser l’adresse en composants, créez une activité Address Parsing et spécifiez un champ source, ainsi que les champs qui seront utilisés pour stocker les composants d’adresse extraits. Faites le mapping des composants d’adresse vers les champs sélectionnés.
  8. Testez votre compétence en cliquant sur Test Skill Using Selected Documents et analysez les résultats obtenus.
  9. Lorsque les résultats des tests sont suffisamment probants, publiez votre compétence.

Extraction d’entités nommées personnalisées

Supposons que vous ayez besoin d’extraire le nom d’une organisation à partir d’un paragraphe qui contient des informations sur les deux parties à l’accord. En outre, vous devez extraire une adresse e‑mail. Dans ce cas, commencez par utiliser l’activité Segmentation pour extraire le paragraphe ciblé. En revanche, n’utilisez pas une activité Entités nommées (NER) : elle extraira les noms des deux organisations à partir du paragraphe ciblé et, de plus, elle n’est pas entraînée à extraire les e‑mails. Dans ce cas, utilisez plutôt l’activité Deep Learning pour le NLP. Vous pouvez également utiliser ce scénario pour améliorer la précision d’extraction des entités nommées préentraînées. Testez à la fois une activité préentraînée et l’activité Deep Learning, puis choisissez celle qui offre les meilleures performances sur vos documents. Gardez à l’esprit que cette activité requiert un grand nombre de documents (le minimum est de 50 documents, mais nous recommandons d’en avoir au moins 150). Vous pouvez également tester les deux activités (Entités nommées (NER) et Deep Learning pour le NLP), puis choisir celle qui offre les meilleures performances sur vos documents. Segmentation avec Deep Learning

Étapes pour créer une Compétence de document

  1. Ouvrez Advanced Designer. Créez une nouvelle compétence en cliquant sur Create Document Skill sur la page d’accueil.
  2. Utilisez l’onglet Documents qui s’ouvre pour téléverser les documents qui serviront à configurer votre compétence.
  3. Une fois vos images téléversées, accédez à l’onglet Fields et définissez une structure de champ pour la compétence en créant et en configurant les champs qui seront extraits par la compétence. Étiquetez les documents dans la section Reference.
  4. Accédez à l’onglet Activities, créez une activité Segmentation et spécifiez les champs qui seront utilisés pour stocker les paragraphes cibles.
  5. Ouvrez l’Activity Editor, configurez et entraînez l’activité Segmentation.
  6. Revenez à l’onglet Activities, créez une activité Deep Learning for NLP et spécifiez les champs qui doivent être extraits par cette activité.
  7. Ouvrez l’Activity Editor pour configurer et entraîner l’activité Deep Learning.
  8. Testez votre compétence en cliquant sur Test Skill Using Selected Documents et analysez les résultats obtenus.
  9. Lorsque les résultats de test sont satisfaisants, publiez votre compétence.