Passer au contenu principal
Pour entraîner un classificateur, vous aurez besoin d’un jeu d’entraînement contenant des documents déjà attribués à une classe de référence (la classe que vous avez définie comme vérité terrain pour l’entraînement).

Prérequis

Créer un jeu d’entraînement

1

Ouvrez l’onglet Documents

Dans le Skill de classification, ouvrez l’onglet Documents.
2

Créez les classes appropriées

Utilisez la commande Create Class dans le volet Actions, ou cliquez sur Create class au-dessus de la liste des classes dans la partie gauche de l’écran.
Pour renommer une classe existante, cliquez sur l’icône à côté de son nom et sélectionnez Rename class.
3

Téléversez des documents dans chaque classe

Sélectionnez une classe dans la liste des classes, puis téléversez des documents à l’aide de l’une des options suivantes :
  • Upload documents au centre de l’écran du Skill de classification
  • Le bouton Upload dans la barre d’outils
  • Upload Documents dans le volet Actions
Pendant l’import des documents, un indicateur de progression s’affiche en haut du Skill Designer, à droite des signets. Son info-bulle indique le nombre de documents restant à importer et à traiter.Documents qui ont été importés dans le groupe No class ne sont pas utilisés pour l’entraînement ni pour les tests du classificateur. Si le téléversement d’un fichier échoue — par exemple, parce qu’il est dans un format non pris en charge — son nom s’affiche en rouge.

Taille du jeu d’entraînement

Pour chaque classe, le nombre de documents qu’elle contient s’affiche. Respectez les recommandations suivantes :
  • Si votre jeu de documents contient très peu de classes, ou si les classes diffèrent nettement les unes des autres, un petit nombre de documents par classe peut suffire.
  • Si vous avez de nombreuses classes, ou si les différences entre elles sont subtiles, téléversez entre 10 et 100 documents pour chaque classe. Sinon, vous risquez d’obtenir des erreurs de classification.
  • Ne téléversez pas plus de 1 000 documents pour une même classe.
  • Pour optimiser la précision, incluez un document d’exemple pour chaque variante courante de chaque classe.

Afficher et prévisualiser les documents

Par défaut, les documents téléversés s’affichent sous forme de liste, ce qui facilite la navigation si les fichiers portent des noms parlants. Vous pouvez aussi passer à l’affichage en miniatures, qui peut être préférable pour des documents visuellement distincts. Utilisez les boutons de la barre d’outils pour basculer entre Vue liste et Vue miniatures. Si plus de 50 documents sont téléversés, ils s’affichent sur plusieurs pages. Pour afficher l’aperçu d’un document, cliquez sur le bouton situé à gauche de son nom. Faites glisser le bord gauche de la fenêtre d’aperçu pour la redimensionner.

Faire pivoter les pages d’un document

Pour faire pivoter les pages d’un document :
  • Cliquez sur Rotate dans la barre d’outils pour effectuer une rotation de 90° dans le sens inverse des aiguilles d’une montre.
  • Ou sélectionnez Rotate Left, Rotate Right ou Rotate 180° dans la liste déroulante.
  • Vous pouvez également faire pivoter un seul document depuis sa fenêtre d’aperçu.

Modifier la classe attribuée à un document

  1. Sélectionnez un ou plusieurs documents en cochant la case à gauche de leur nom.
  2. Dans le volet Actions, sélectionnez la classe appropriée et cliquez sur Assign. Si la classe voulue n’apparaît pas dans la liste, saisissez un nouveau nom dans le champ Search for class et cliquez sur Create.

Supprimer des documents de l’ensemble

Vous pouvez supprimer des documents de l’une des manières suivantes :
  • Sélectionnez un ou plusieurs documents en cochant la case à gauche de leur nom. Vous pouvez sélectionner tous les documents d’une classe donnée en cochant la case à côté du nom de la classe au-dessus de la liste des documents (si la classe s’étend sur plusieurs pages, seuls les documents de la page active sont sélectionnés). Cliquez sur l’icône située à côté de l’un des documents sélectionnés, puis sur Delete. Confirmez votre choix dans la boîte de dialogue.
  • Cliquez sur l’icône située à côté du nom d’une classe dans la liste des classes, puis sur Delete All Documents. Confirmez votre choix. Cette action supprime tous les documents de la classe sélectionnée. Vous pouvez également cliquer sur Delete Class with All Documents pour supprimer la classe elle-même ainsi que tous ses documents.
Vous pouvez supprimer un document sans le sélectionner au préalable : cliquez sur l’icône à côté de son nom.

Entraîner le classificateur

L’jeu d’entraînement doit contenir au moins deux classes différentes et non vides. Tant que ce n’est pas le cas, le bouton Entraîner reste désactivé.
Pour entraîner un classificateur à l’aide d’un jeu d’entraînement préparé, cliquez sur le bouton Entraîner dans le volet Actions. Une fois l’entraînement terminé, l’icône Terminé s’affiche à côté du bouton Entraîner. La liste des classes dans l’onglet Documents est également mise à jour : en plus du nombre de documents téléversés par classe, elle affiche le nombre de documents dont la classe prédite diffère de la classe de référence.
Liste des classes après l'entraînement, avec le nombre de documents par classe et les prédictions erronées.
Pour arrêter l’entraînement, cliquez sur Annuler sous le bouton Entraîner dans le volet Actions.

Dépannage

Si le classificateur entraîné donne de mauvais résultats, ouvrez l’onglet Result et vérifiez la précision de chaque classe. Voici les causes les plus courantes et comment y remédier :
  • Classes de référence attribuées de manière incorrecte. Réaffectez les documents concernés à la bonne classe, puis relancez l’entraînement.
  • Pas assez de documents d’entraînement, ou une répartition inégale entre les classes. Ajoutez davantage d’exemples — visez entre 100 et 1 000 par classe, avec environ un document pour chaque variante courante.
  • Classes confondues qui ne se distinguent pas suffisamment par leurs paramètres. Fusionnez-les en une seule classe et, si nécessaire, séparez les documents plus tard dans le pipeline en fonction des données extraites.
Pour la procédure complète, voir Analyser les résultats de classification.

Analyser les résultats de classification

Passez en revue la précision pour chaque classe dans l’onglet Result et corrigez les erreurs courantes du jeu d’entraînement.

Guide pas à pas du support ABBYY

Article du support ABBYY proposant un guide pas à pas sur la création et l’entraînement d’un Skill de classification dans Vantage.