Passer au contenu principal
Vous pouvez utiliser un ensemble de documents distinct pour entraîner votre activité de segmentation. Pour ce faire, sélectionnez l’activité de segmentation dans la liste déroulante à côté du nom de la compétence. Ensuite, dans la liste déroulante à gauche du bouton Upload, sélectionnez l’ensemble de documents souhaité ou cliquez sur Create Set… pour en créer un nouveau. Vous pouvez téléverser, supprimer et faire pivoter des documents dans cet onglet, comme décrit dans la section Documents. Pour configurer une activité de segmentation :
  1. Dans l’onglet Activities, ajoutez une activité de segmentation au flux de traitement des documents. Notez que votre activité de segmentation doit précéder l’activité qui extraira les champs à partir des segments de texte.
  2. Dans le volet Activity Properties, sélectionnez tous les champs correspondant aux segments à extraire.
Note: Seuls les champs de type Text dont le type de données est défini sur Text sont pris en charge.
  1. Cliquez sur Activity Editor. Apportez, si nécessaire, des modifications supplémentaires à l’annotation du document dans l’onglet Fields.
  2. Cliquez sur Train Activity. L’entraînement peut être effectué en mode Fast ou Thorough.
    • Le mode Fast est sélectionné par défaut. Ce mode fonctionne même avec de petits ensembles de documents et l’activité sera entraînée rapidement.
    • Si vous n’êtes pas satisfait des résultats obtenus en mode Fast, envisagez de passer en mode Thorough, qui entraîne un modèle d’apprentissage profond (Deep Learning). Ce mode nécessite davantage de documents dans l’ensemble d’entraînement et prend plus de temps, mais il peut offrir de meilleures performances sur une grande variété de documents. L’ensemble de documents doit contenir au moins 50 documents annotés, mais nous recommandons d’en avoir au moins 150. Pour passer en mode Thorough, utilisez le menu déroulant à côté du bouton Train Activity.
    • Vous pouvez tester les deux modes et choisir celui qui fonctionne le mieux pour vos documents.
Note: Le mode Thorough ne fonctionne qu’avec des documents en anglais.
  1. Une fois l’activité entraînée, les tests démarrent automatiquement. À l’issue des tests, accédez à l’onglet Results et analysez les résultats d’extraction des champs pour votre activité. Les statistiques affichées dans l’onglet Results sont identiques aux statistiques générales de la compétence affichées dans l’onglet Results. Si nécessaire, modifiez votre annotation et réentraînez l’activité.
Note: L’activité ne peut être entraînée et testée qu’avec des documents dont l’annotation est confirmée. Les documents ont une annotation non confirmée si l’annotation de référence a été générée automatiquement à partir de l’annotation prédite, sauf si vous copiez l’annotation prédite vers la référence à l’aide de l’option correspondante dans le menu contextuel du document. Vous pouvez vérifier l’état de l’annotation pour chaque document dans l’onglet Documents. Pour confirmer l’annotation d’un document, vous devez la revoir dans l’onglet Fields.
Langues prises en charge : anglais, russe, allemand, français, espagnol, italien, portugais (standard), japonais et néerlandais.