Passer au contenu principal
L’activité Deep Learning pour le NLP est destinée à entraîner la compétence afin d’extraire des champs à partir de documents non structurés à l’aide de la technologie de traitement du langage naturel (NLP). L’activité Deep Learning ne peut être configurée que pour un champ qui a déjà été extrait par une autre activité. Par exemple, vous pouvez extraire un paragraphe de texte à l’aide d’une activité Segmentation, puis configurer une activité Deep Learning pour extraire des champs à partir de ce paragraphe.
Remarque : cette activité ne prend en charge que les champs de type Text.

Exigences d’entraînement

Comme les activités d’apprentissage profond sont entraînées à l’aide d’un étiquetage de référence, il est important que l’emplacement des champs soit spécifié correctement sur toutes les images de documents. Plus le nombre de documents étiquetés dans l’ensemble d’entraînement est élevé, plus la qualité de l’extraction des champs est élevée. Le nombre recommandé de documents d’exemple est le suivant :
  • Pour les documents à forte variabilité, au moins 150 documents d’exemple (2 à 3 documents d’exemple par variante) sont nécessaires.
  • Pour les documents à faible variabilité, on peut commencer l’entraînement avec un document d’exemple, mais au moins 2 à 3 documents d’exemple par variante sont nécessaires.

Utilisation de jeux de documents distincts

Vous pouvez utiliser un jeu de documents distinct pour entraîner votre activité Deep Learning. Pour ce faire, sélectionnez l’activité Deep Learning dans la liste déroulante située à côté du nom du Skill. Puis, dans la liste déroulante à gauche du bouton Upload, sélectionnez le jeu de documents souhaité ou cliquez sur Create Set… pour en créer un nouveau. Vous pouvez importer, supprimer et faire pivoter des documents dans cet onglet, comme décrit dans la section Documents.

Langues prises en charge

Langues prises en charge : anglais, français, allemand, japonais, russe, espagnol, italien, portugais (standard) et néerlandais.

Configuration d’une activité Deep Learning

Pour configurer une activité Deep Learning, suivez les étapes ci-dessous :
  1. Dans l’onglet Activities, ajoutez une activité Deep Learning au flux de traitement de documents. Notez que votre activité Deep Learning doit être placée après l’activité qui extraira le champ utilisé comme source par votre activité Deep Learning.
  2. Utilisez la liste déroulante Field dans le volet Activity Properties pour sélectionner le champ source correspondant au fragment de texte non structuré à partir duquel des champs doivent être extraits.
  3. Sélectionnez les champs qui doivent être extraits à partir du champ source. Vous pouvez sélectionner des champs qui se trouvent au même niveau d’imbrication que le champ source ou à un niveau inférieur.
  4. Cliquez sur Activity Editor et accédez à l’onglet Fields pour annoter vos documents en spécifiant les régions pour les champs qui doivent être extraits à partir du champ source. Le processus d’annotation dans l’Activity Editor est identique au processus d’annotation de documents habituel, à une exception près : les champs à extraire par l’activité Deep Learning doivent être situés dans la région du champ source.
Utilisez les recommandations suivantes pour déterminer la taille de l’ensemble de documents :
  • L’activité Deep Learning pour le NLP peut être lancée avec 1 document d’exemple, mais au moins 2 à 3 documents d’exemple par variante sont nécessaires.
  • Si l’ensemble d’entraînement contient entre 1 et 150 documents, vous pouvez commencer à entraîner votre activité, mais Advanced Designer affichera un avertissement indiquant : « Nous recommandons d’ajouter au moins 150 documents ».
  • Si l’ensemble d’entraînement contient entre 150 et 10 000 documents, vous pouvez commencer à entraîner votre activité immédiatement. C’est le nombre de documents recommandé pour votre ensemble d’entraînement.
  • Si l’ensemble d’entraînement contient plus de 10 000 documents, Advanced Designer affichera un avertissement indiquant que la compétence peut devenir instable.
  1. Cliquez sur Train Activity pour entraîner l’activité.
  2. Une fois l’activité entraînée, les tests de l’activité démarreront automatiquement. Lorsque les tests sont terminés, accédez à l’onglet Results et analysez les résultats d’extraction de champs pour votre activité. Les statistiques affichées dans l’onglet Results sont identiques aux statistiques générales pour la compétence affichées dans l’onglet Results. Si nécessaire, apportez les modifications requises à votre annotation et entraînez à nouveau l’activité.
L’activité ne peut être entraînée et testée qu’à l’aide de documents avec une annotation confirmée. Les documents ont une annotation non confirmée si l’annotation de référence a été générée automatiquement sur la base de l’annotation prédite, à moins que vous ne copiez l’annotation prédite vers l’annotation de référence à l’aide de l’option correspondante dans le menu contextuel du document. Vous pouvez vérifier l’état de l’annotation de chaque document dans l’onglet Documents. Pour confirmer l’annotation d’un document, vous devez le vérifier dans l’onglet Fields.