Activité Deep Learning pour le NLP

L’activité Deep Learning for NLP est conçue pour entraîner la compétence à extraire des champs de documents non structurés à l’aide de la technologie de traitement du langage naturel (NLP). L’activité Deep Learning ne peut être configurée que pour un champ précédemment extrait par une autre activité. Par exemple, vous pouvez extraire un paragraphe de texte à l’aide d’une activité Segmentation, puis configurer une activité Deep Learning pour extraire des champs à partir de ce paragraphe.

Cette activité prend uniquement en charge les champs de type Text.

Exigences d’entraînement

Comme les activités Deep Learning sont entraînées à partir de l’annotation de référence, il est important que l’emplacement des champs soit correctement défini sur toutes les images de document. Plus le nombre de documents annotés dans le jeu d’entraînement est élevé, meilleure est la qualité de l’extraction des champs. Le nombre recommandé de documents d’exemple est le suivant :

Pour les documents à forte variabilité, au moins 150 documents d’exemple (2 à 3 documents d’exemple par variante) sont requis.
Pour les documents à faible variabilité, il est possible de commencer l’entraînement avec 1 document d’exemple, mais au moins 2 à 3 documents d’exemple par variante sont requis.

Utiliser des jeux de documents distincts

Vous pouvez utiliser un jeu de documents distinct pour entraîner votre activité Deep Learning. Pour ce faire, sélectionnez l’activité Deep Learning dans la liste déroulante située à côté du nom de la compétence. Ensuite, dans la liste déroulante à gauche du bouton Téléverser, sélectionnez le jeu de documents requis ou cliquez sur Créer un jeu… pour en créer un nouveau. Vous pouvez téléverser, supprimer et faire pivoter des documents dans cet onglet, comme décrit dans la section Documents.

Langues prises en charge

Langues prises en charge : anglais, français, allemand, japonais, russe, espagnol, italien, portugais (standard) et néerlandais.

Configurer une activité Deep Learning

Ajouter l’activité

Dans l’onglet Activités, ajoutez une activité Deep Learning au flux de traitement des documents. Notez que votre activité Deep Learning doit être placée après l’activité qui extraira le champ servant de source à votre activité Deep Learning.

Sélectionner le champ source

Dans le volet Propriétés de l’activité, utilisez la liste déroulante Field pour sélectionner le champ source correspondant au fragment de texte non structuré à partir duquel les champs doivent être extraits.

Sélectionner les champs de sortie

Sélectionnez les champs à extraire du champ source. Vous pouvez sélectionner des champs situés au même niveau d’imbrication que le champ source ou un niveau en dessous.

Annoter les documents

Cliquez sur Éditeur d’activité et accédez à l’onglet Fields pour annoter vos documents en définissant les régions des champs à extraire du champ source. Le processus d’annotation dans l’Éditeur d’activité est identique au processus habituel d’annotation des documents, à une exception près : les champs à extraire par l’activité Deep Learning doivent se trouver dans la région du champ source.Utilisez les recommandations suivantes pour déterminer la taille du jeu de documents :

L’activité Deep Learning pour le NLP peut être démarrée avec un seul document d’exemple, mais au moins 2 à 3 documents d’exemple par variante sont requis.
Si le jeu d’entraînement contient entre 1 et 150 documents, vous pouvez lancer l’entraînement de votre activité, mais Advanced Designer affichera un avertissement indiquant : « Nous recommandons d’ajouter au moins 150 documents ».
Si le jeu d’entraînement contient entre 150 et 10 000 documents, vous pouvez lancer immédiatement l’entraînement de votre activité. C’est le nombre de documents recommandé pour votre jeu d’entraînement.
Si le jeu d’entraînement contient plus de 10 000 documents, Advanced Designer affichera un avertissement indiquant que la compétence peut devenir instable.

Entraîner l’activité

Cliquez sur Train Activity pour entraîner l’activité.

Examiner les résultats

Une fois l’activité entraînée, son test démarre automatiquement. Une fois le test terminé, accédez à l’onglet Results et analysez les résultats d’extraction des champs de votre activité. Les statistiques affichées dans l’onglet Results sont identiques aux statistiques générales de la compétence affichées dans l’onglet Results. Si nécessaire, apportez les modifications requises à votre annotation, puis entraînez de nouveau l’activité.

L’activité ne peut être entraînée et testée qu’avec des documents dont l’annotation a été confirmée. Les documents ont une annotation non confirmée si l’annotation de référence a été générée automatiquement à partir de l’annotation prédite, sauf si vous copiez l’annotation prédite vers l’annotation de référence à l’aide de l’option correspondante dans le menu contextuel du document. Vous pouvez vérifier l’état de l’annotation de chaque document dans l’onglet Documents. Pour confirmer l’annotation d’un document, vous devez l’examiner dans l’onglet Fields.

​Exigences d’entraînement

​Utiliser des jeux de documents distincts

​Langues prises en charge

​Configurer une activité Deep Learning

Exigences d’entraînement

Utiliser des jeux de documents distincts

Langues prises en charge

Configurer une activité Deep Learning