Améliorez la précision du classificateur dans ABBYY FlexiCapture : ajustez les profils ainsi que le rappel et la précision, corrigez les erreurs de classe de référence et trouvez des pages similaires dans le lot.
Si vous n’êtes pas satisfait des résultats obtenus avec votre classificateur, essayez les solutions suivantes :
Vérifiez que le profil de classification sélectionné est adapté.
Ajustez le rapport rappel/précision.
Vérifiez que les classes de référence ont été correctement attribuées.
Utilisez davantage de documents d’exemple. Assurez-vous que votre lot d’entraînement inclut autant de variantes de document que possible. Plus le lot d’entraînement est vaste et varié, plus le classificateur détectera de variantes de document au sein d’une même classe.
Les sections de la Document Definition mises en correspondance avec les classes de documents sont associées à leurs sections de document avec un certain niveau de confiance. Les noms des sections à faible confiance sont indiqués en rouge. Si l’option Automatically confirm section type when matched est activée et que la section de la Document Definition mise en correspondance avec la classe de document sélectionnée a été correctement associée, le nom de la section n’est pas mis en évidence en rouge. Dans ce cas, la classe est confirmée lors de la mise en correspondance de la Document Definition, même si elle a d’abord été déterminée avec une faible confiance.
En savoir plus sur l’option "Automatically confirm section type when matched"
L’option Automatically confirm section type when matched se trouve dans l’onglet General des propriétés de la section de la Document Definition. L’activation de cette option accélère la vérification manuelle, mais elle doit uniquement être utilisée pour les sections qui ne peuvent être associées qu’à des documents pour lesquels une Document Definition donnée a été créée. Il peut s’agir d’une Document Definition fixed pour une section fixed avec des identifiants, ou d’une section FlexiLayout contenant des éléments requis. Les opérateurs n’auront pas besoin de confirmer manuellement de telles correspondances. Nous ne recommandons pas d’activer cette option pour les Document Definitions qui peuvent être associées à n’importe quel document.
Si une Document Definition a été associée à une page ou à un document avec une faible confiance, vous disposez des options suivantes :
Cliquez sur la commande Confirm Document Definition dans le menu contextuel de la page ou du document.
Modifiez la page à faible confiance (par exemple, en changeant le type de section ou en déplaçant la page vers un autre document).
Changez la Document Definition sélectionnée pour la page ou le document.
Une fois que l’opérateur a corrigé toutes les erreurs et qu’il n’existe plus de sections avec des Document Definitions associées de manière incertaine, l’erreur « low-confidence » est supprimée automatiquement.
Dans le volet des erreurs, une erreur d’assemblage est signalée pour les documents ayant des Document Definitions à faible confiance. Tous les documents qui présentent d’autres erreurs en plus de Document Definitions à faible confiance sont envoyés à l’étape de vérification de l’assemblage. Tout document ne présentant pas d’autres erreurs qu’une classification à faible confiance est envoyé à l’étape de vérification.
Détection des erreurs dans le lot d’entraînement du classificateur
Les erreurs de classification sont principalement dues à des classes de référence mal attribuées ou à un nombre insuffisant de pages d’exemple dans le lot d’entraînement. Pour détecter ce type d’erreurs, vous pouvez demander au programme de rechercher des pages similaires à une page mal classée. Pour cela, cliquez avec le bouton droit sur une page mal classée, puis cliquez sur l’une des trois commandes suivantes dans le menu contextuel (ces commandes sont également accessibles via le menu Classification Training en haut) :
Show Similar Pages recherche des pages similaires dans l’ensemble du lot, quelle que soit la classe de référence ou la classe de résultat de la page sélectionnée.
Show Similar Pages from Reference Class recherche des pages similaires ayant la même classe de référence que la page sélectionnée.
Show Similar Pages from Result Class recherche des pages similaires ayant la même classe de référence que la classe de résultat de la page sélectionnée.
Le programme recherchera des pages similaires dans tous les documents, quel que soit leur état, qu’ils soient marqués comme For Training, For Testing ou Unused.
Les pages similaires seront affichées par ordre décroissant, de la plus similaire à la moins similaire :
Supposons que vous repériez une page mal classée dans la matrice de confusion et que cette page ait ID comme classe de référence et Invoice comme classe de résultat.Ouvrez la page mal classée en cliquant sur sa cellule dans la matrice de confusion.Cliquez avec le bouton droit sur la page, puis sélectionnez la commande Show Similar Pages from Result Class dans le menu contextuel (cette commande est également accessible depuis le menu Classification Training en haut). Toutes les pages du lot du classificateur similaires à la page ID, mais ayant Invoice comme classe de référence, s’affichent alors. Les pages sont affichées par ordre décroissant, de la plus similaire à la moins similaire.Vous pourrez alors identifier les pages auxquelles des classes de référence incorrectes ont été attribuées et qui ont conduit à classer la page ID comme une facture. Modifiez la classe de référence lorsque nécessaire, puis réentraînez le classificateur.Cliquer sur la commande Show Similar Pages from Reference Class permet de vérifier si une page est unique. Par exemple, cette commande peut être utilisée pour vérifier s’il existe, dans le lot d’entraînement, des pages ID similaires ayant ID comme classe de référence. Si aucune page ID similaire n’est trouvée, ajoutez la page isolée au lot d’entraînement et réentraînez le classificateur.Cliquer sur la commande Show Similar Pages affiche toutes les pages similaires, quelle que soit leur classe de référence ou de résultat. Cela affiche toutes les pages du lot du classificateur similaires à la page de passeport, mais pour lesquelles des classes de référence autres que ID ont été spécifiées. Modifiez la classe de référence lorsque nécessaire, puis réentraînez le classificateur.