Analyser les résultats de classification

Après l’entraînement d’un Skill de classification, ouvrez l’onglet Result dans le Classification Skill Designer pour voir avec quelle précision le classificateur attribue une étiquette à chaque classe et pour diagnostiquer les erreurs dans le jeu d’entraînement. Les statistiques sont mises à jour automatiquement à chaque entraînement du classificateur. Si la précision est faible, consultez Erreurs de classification pour connaître les causes les plus courantes et savoir comment les corriger.

Prérequis

Un Skill de classification qui a été entraîné au moins une fois.

Ce qu’affiche l’onglet Result

Précision globale de la classification — pourcentage de documents correctement classés sur l’ensemble du lot.
Précision par classe — pourcentage de documents correctement classés pour chaque classe.
Nombre de documents par classe — nombre de documents correctement et incorrectement classés pour chaque classe.
Dernier entraînement — date et heure de la session d’entraînement la plus récente.

Tableau des résultats

Le tableau des résultats contient toutes les classes utilisateur non vides (à l’exception de Aucune classe). Les classes sont triées d’abord par précision (de la moins bonne à la meilleure), puis par nombre de documents, et enfin par ordre alphabétique de nom. Une barre de défilement apparaît si toutes les lignes ne tiennent pas à l’écran. Un clic sur une ligne ouvre la classe correspondante dans l’onglet Documents. Si vous renommez une classe dans l’onglet Documents, son nom est automatiquement mis à jour dans l’onglet Result. Si vous supprimez une classe après l’entraînement, son nom apparaît en grisé dans l’onglet Result ; la ligne n’est supprimée qu’au prochain entraînement du classificateur.

Quand arrêter d’itérer

Il n’existe pas de seuil de précision fixe pour un Skill de classification : le bon objectif dépend de votre tolérance aux documents mal orientés en aval et du niveau de relecture manuelle acceptable. En pratique, visez une précision élevée pour chaque classe (et pas seulement une bonne précision globale), continuez d’itérer sur les causes décrites ci-dessous tant que l’écart se réduit, puis arrêtez dès qu’une classe atteint votre exigence métier ou qu’elle a clairement plafonné malgré des données d’entraînement propres et rééquilibrées. Si une classe plafonne nettement en dessous des autres, considérez qu’elle n’est pas suffisamment distincte et fusionnez-la avec la classe la plus proche. Une fois la compétence en production, continuez à suivre Document Classifier Accuracy dans le Tableau de bord Analytics au fil du temps, et envisagez l’Online learning pour une amélioration continue.

Erreurs de classification

La plupart des erreurs de classification proviennent d’erreurs dans le jeu d’entraînement — par exemple, des classes de référence mal attribuées ou un nombre insuffisant de documents pour une classe donnée.

Classes de référence mal attribuées

Pour corriger ce problème, réattribuez les documents concernés et réentraînez le classificateur :

Ouvrez la classe concernée dans l’onglet Documents

Cliquez sur Review Prediction in Document Set dans le volet Actions, ou sur la ligne correspondante dans le tableau des résultats.

Sélectionnez un document mal classé

Sélectionnez un document auquel une classe de référence erronée a été attribuée.

Attribuez la classe correcte

Cliquez sur le nom de la classe correcte dans le volet Actions.

Répétez l’opération pour chaque document concerné

Répétez les deux étapes précédentes pour chaque document auquel une classe de référence erronée a été attribuée.

Réentraînez le classificateur

Cliquez sur le bouton Train dans le volet Actions.

Données d’entraînement insuffisantes ou déséquilibrées

Une qualité de classificateur insuffisante peut être due aux raisons suivantes :

Un nombre insuffisant de documents importés
Une répartition sensiblement inégale des documents entre les classes
Un nombre insuffisant d’exemples des variantes de documents les plus courantes pour la classe donnée

Améliorez la qualité du classificateur en ajoutant les documents manquants au jeu d’entraînement. Visez entre 100 et 1 000 documents par classe, et incluez des exemples correspondant aux variantes de documents les plus courantes de chaque classe, dans un rapport approximatif de un pour un. Après avoir ajouté vos nouveaux documents au jeu d’entraînement, attribuez une classe à chacun et réentraînez le classificateur.

Classes confondues

Si deux classes sont systématiquement confondues parce qu’elles ne diffèrent pas de manière significative par leur forme, leur mise en page ou leur texte, fusionnez-les en une seule classe. Séparez ensuite les documents plus loin dans le pipeline à l’aide des valeurs des champs extraits, si la distinction reste importante.

Par exemple, une classe pour les factures inférieures à 10 000

et une classe pour les factures supérieures à 10 000

seront probablement confondues, puisque la seule différence entre elles est le montant total dû. Fusionnez-les en une seule classe Invoice, puis distinguez-les en aval selon le montant — après extraction du total.

​Prérequis

​Ce qu’affiche l’onglet Result

​Tableau des résultats

​Quand arrêter d’itérer

​Erreurs de classification

​Classes de référence mal attribuées

​Données d’entraînement insuffisantes ou déséquilibrées

​Classes confondues

​Rubriques connexes