Passer au contenu principal
Pendant l’entraînement d’un classificateur, des statistiques sur les résultats de classification sont collectées. L’analyse de ces statistiques aide à déterminer comment améliorer la qualité d’un classificateur. Les statistiques de classification se trouvent dans l’onglet Result du Skill Designer de Classification et sont mises à jour automatiquement à chaque entraînement du classificateur. Onglets d’analyse du Skill de classification Cet onglet contient les informations suivantes :
  • Précision globale de la classification. Pourcentage de documents correctement classés par rapport au nombre total de documents de l’ensemble.
  • Précision de classification pour chaque classe. Pourcentage de documents correctement classés pour une classe donnée.
  • Nombre de documents correctement classés et de documents mal classés pour chaque classe.
  • Date et heure du dernier entraînement du classificateur.
Le tableau des résultats contient toutes les classes utilisateur non vides (à l’exception de No class). Les classes du tableau sont triées d’abord par précision du classificateur (de la pire à la meilleure), puis par le nombre de documents dans la classe, et enfin par ordre alphabétique du nom. Si toutes les lignes du tableau ne peuvent pas être affichées à l’écran simultanément, une barre de défilement apparaît. Un clic sur une ligne du tableau des résultats ouvre la classe correspondante dans l’onglet Documents. La modification du nom d’une classe dans l’onglet Documents le met également à jour dans l’onglet Result. Si vous supprimez une classe après l’entraînement du classificateur correspondant, le nom de cette classe sera grisé dans l’onglet Result. La ligne contenant cette classe n’est supprimée du tableau des résultats que lors du prochain entraînement du classificateur.

Erreurs de classification

La plupart des erreurs de classification proviennent de problèmes survenus lors de la création de l’ensemble d’apprentissage (par exemple, des classes de référence mal attribuées ou un nombre insuffisant de pages spécifiques dans un jeu de documents).

Classes de référence attribuées de manière incorrecte

Pour corriger ce type d’erreur, affectez la classe correcte au document du jeu d’entraînement concerné, puis réentraînez le classificateur comme suit :
  1. Accédez à l’onglet Documents en cliquant sur Review Prediction in Document Set dans le volet Actions. Vous pouvez aussi cliquer sur la ligne correspondant à la classe appropriée dans le tableau des résultats.
  2. Sélectionnez un document auquel une classe de référence a été attribuée de manière incorrecte.
  3. Cliquez sur le nom de la classe correcte dans le volet Actions.
  4. Répétez les étapes 2 et 3 pour chaque document auquel une classe de référence a été attribuée de manière incorrecte.
  5. Cliquez sur le bouton Train dans le volet Actions.

Nombre insuffisant de pages dans l’ensemble de documents

Une qualité de classifieur insuffisante peut être due aux raisons suivantes :
  • Un nombre insuffisant de documents importés
  • Une répartition sensiblement inégale des documents entre les classes
  • Un nombre insuffisant d’exemples des variantes de documents les plus courantes pour la classe donnée
Dans ce cas, la qualité du classifieur peut être améliorée en ajoutant les documents manquants à l’ensemble d’entraînement. Nous vous recommandons d’importer entre 100 et 1000 documents pour chaque classe. Nous suggérons également que votre ensemble de documents inclue des exemples correspondant aux variantes de documents les plus courantes de chaque classe, dans un rapport approximatif de un pour un. Après avoir ajouté vos nouveaux documents à l’ensemble d’entraînement, attribuez une classe à chacun et réentraînez le classifieur.

Classes confondues

Les erreurs de classification peuvent également être dues à des classes dont les paramètres ne diffèrent pas sensiblement. Dans ce cas, revoyez le nombre de classes et, si nécessaire, regroupez les classes confondues en une seule. Par exemple, une classe pour les factures de moins de 10 000 USD et une classe pour les factures de plus de 10 000 USD peuvent être confondues si leur seule différence significative est le Total dû. Dans ce cas, ces classes doivent être regroupées en une seule classe pour le Skill de classification, et les factures ne devraient être séparées qu’à une étape ultérieure si nécessaire (par exemple, lorsque le Total dû a déjà été extrait de la facture).

Voir aussi