Configurer une activité Segmentation

Vous pouvez utiliser un jeu de documents distinct pour entraîner votre activité Segmentation. Pour ce faire, sélectionnez l’activité Segmentation dans la liste déroulante à côté du nom de la compétence. Ensuite, dans la liste déroulante à gauche du bouton Upload, sélectionnez le jeu de documents requis ou cliquez sur Create Set… pour en créer un nouveau. Vous pouvez téléverser, supprimer et faire pivoter des documents dans cet onglet, comme décrit dans la section Documents.

Ajouter l’activité

Dans l’onglet Activities, ajoutez une activité Segmentation au flux de traitement des documents. Veuillez noter que votre activité Segmentation doit précéder l’activité qui extraira les champs à partir des segments de texte.

Sélectionner les champs

Dans le volet Activity Properties, sélectionnez tous les champs correspondant aux segments à extraire.

Seuls les champs de type Text dont le type de données est défini sur Text sont pris en charge.

Ouvrir Activity Editor

Cliquez sur Activity Editor. Apportez, si nécessaire, d’autres modifications à l’étiquetage des documents dans l’onglet Fields.

Entraîner l’activité

Cliquez sur Train Activity. L’entraînement peut être effectué en mode Fast ou Thorough.

Le mode Fast est sélectionné par défaut. Ce mode fonctionne même avec de petits jeux de documents et l’activité sera entraînée rapidement.
Si vous n’êtes pas satisfait des résultats obtenus en mode Fast, envisagez de passer en mode Thorough, qui entraîne un modèle de Deep Learning. Ce mode nécessite davantage de documents dans le jeu d’entraînement et prend plus de temps, mais il peut offrir de meilleures performances sur une grande variété de documents. Le jeu de documents doit contenir au moins 50 documents étiquetés, mais nous recommandons d’en avoir au moins 150. Pour passer en mode Thorough, utilisez le menu déroulant à côté du bouton Train Activity.
Vous pouvez tester les deux modes et choisir celui qui convient le mieux à vos documents.

Le mode Thorough ne fonctionne qu’avec des documents en anglais.

Examiner les résultats

Une fois l’activité entraînée, les tests démarrent automatiquement. Après la fin des tests, accédez à l’onglet Results et analysez les résultats d’extraction des champs pour votre activité. Les statistiques affichées dans l’onglet Results sont identiques aux statistiques générales de la compétence affichées dans l’onglet Results. Si nécessaire, apportez les modifications requises à votre étiquetage et réentraînez l’activité.

L’activité ne peut être entraînée et testée qu’avec des documents dont l’étiquetage est confirmé. Les documents ont un étiquetage non confirmé si l’étiquetage de référence a été généré automatiquement à partir de l’étiquetage prédit, à moins que vous ne copiez l’étiquetage prédit vers la référence à l’aide de l’option correspondante dans le menu contextuel du document. Vous pouvez vérifier l’état de l’étiquetage pour chaque document dans l’onglet Documents. Pour confirmer l’étiquetage d’un document, vous devez le passer en revue dans l’onglet Fields.

Langues prises en charge : anglais, russe, allemand, français, espagnol, italien, portugais (standard), japonais et néerlandais.

activité Segmentation

Activité Deep Learning pour le NLP

⌘I