Examinez la précision de classification pour chaque classe dans l’onglet Result et corrigez les problèmes courants du jeu d’entraînement qui entraînent des erreurs de classification.
Use this file to discover all available pages before exploring further.
Après l’entraînement d’un Skill de classification, ouvrez l’onglet Result dans le Classification Skill Designer pour voir avec quelle précision le classificateur attribue une étiquette à chaque classe et pour diagnostiquer les erreurs dans le jeu d’entraînement. Les statistiques sont mises à jour automatiquement à chaque entraînement du classificateur. Si la précision est faible, consultez Erreurs de classification pour connaître les causes les plus courantes et savoir comment les corriger.
Le tableau des résultats contient toutes les classes utilisateur non vides (à l’exception de Aucune classe). Les classes sont triées d’abord par précision (de la moins bonne à la meilleure), puis par nombre de documents, et enfin par ordre alphabétique de nom. Une barre de défilement apparaît si toutes les lignes ne tiennent pas à l’écran.Un clic sur une ligne ouvre la classe correspondante dans l’onglet Documents. Si vous renommez une classe dans l’onglet Documents, son nom est automatiquement mis à jour dans l’onglet Result. Si vous supprimez une classe après l’entraînement, son nom apparaît en grisé dans l’onglet Result ; la ligne n’est supprimée qu’au prochain entraînement du classificateur.
Il n’existe pas de seuil de précision fixe pour un Skill de classification : le bon objectif dépend de votre tolérance aux documents mal orientés en aval et du niveau de relecture manuelle acceptable. En pratique, visez une précision élevée pour chaque classe (et pas seulement une bonne précision globale), continuez d’itérer sur les causes décrites ci-dessous tant que l’écart se réduit, puis arrêtez dès qu’une classe atteint votre exigence métier ou qu’elle a clairement plafonné malgré des données d’entraînement propres et rééquilibrées. Si une classe plafonne nettement en dessous des autres, considérez qu’elle n’est pas suffisamment distincte et fusionnez-la avec la classe la plus proche.Une fois la compétence en production, continuez à suivre Document Classifier Accuracy dans le Tableau de bord Analytics au fil du temps, et envisagez l’Online learning pour une amélioration continue.
La plupart des erreurs de classification proviennent d’erreurs dans le jeu d’entraînement — par exemple, des classes de référence mal attribuées ou un nombre insuffisant de documents pour une classe donnée.
Données d’entraînement insuffisantes ou déséquilibrées
Une qualité de classificateur insuffisante peut être due aux raisons suivantes :
Un nombre insuffisant de documents importés
Une répartition sensiblement inégale des documents entre les classes
Un nombre insuffisant d’exemples des variantes de documents les plus courantes pour la classe donnée
Améliorez la qualité du classificateur en ajoutant les documents manquants au jeu d’entraînement. Visez entre 100 et 1 000 documents par classe, et incluez des exemples correspondant aux variantes de documents les plus courantes de chaque classe, dans un rapport approximatif de un pour un.Après avoir ajouté vos nouveaux documents au jeu d’entraînement, attribuez une classe à chacun et réentraînez le classificateur.
Si deux classes sont systématiquement confondues parce qu’elles ne diffèrent pas de manière significative par leur forme, leur mise en page ou leur texte, fusionnez-les en une seule classe. Séparez ensuite les documents plus loin dans le pipeline à l’aide des valeurs des champs extraits, si la distinction reste importante.
Par exemple, une classe pour les factures inférieures à 10 000 etuneclassepourlesfacturessupeˊrieuresaˋ10 000 seront probablement confondues, puisque la seule différence entre elles est le montant total dû. Fusionnez-les en une seule
classe Invoice, puis distinguez-les en aval selon le montant — après extraction du total.