Passer au contenu principal
Il peut être difficile de définir les propriétés d’extraction de champs lorsqu’une seule Compétence de document doit traiter des documents dont l’emplacement des champs varie considérablement (bien qu’ils soient du même type). Par exemple, la même compétence peut être utilisée pour traiter des factures de différents Fournisseurs, où les mêmes champs peuvent se trouver à des emplacements différents selon le fournisseur. Pour améliorer la qualité d’extraction de telles compétences, vous pouvez classer les documents en classes, c’est‑à‑dire des sous‑groupes de documents (aux propriétés communes) pour un type de document donné, et configurer des activités d’extraction distinctes pour chacune. Le classement des documents en classes peut également être nécessaire lorsque vous devez améliorer la qualité d’extraction pour l’une des classes. Par exemple, une seule compétence peut être utilisée pour traiter des relevés bancaires émis par différentes banques. Un type de relevé peut présenter une qualité d’extraction inférieure à celle des autres. Pour améliorer la qualité d’extraction de cette compétence, vous pouvez trier les relevés en classes et configurer une activité Règles d’extraction pour la classe dont la qualité d’extraction est insatisfaisante. L’activité Classer par Texte et Image est conçue pour trier les documents d’une compétence en classes qui nécessitent la création et la configuration de leurs propres activités d’extraction.

Présentation de la configuration

Pour créer et configurer une activité Classify By Text and Image, procédez comme suit :
  1. Créez une activité Classify By Text and Image dans le flux de traitement de documents.
  2. Importez des images, créez des classes et attribuez les classes attendues aux documents.
  3. Entraînez l’activité et analysez les résultats de l’entraînement.
  4. Modifiez les propriétés si les résultats de classification doivent être améliorés.

Création et configuration à l’aide de l’onglet Activities

Créez une activité Classify By Text and Image dans le workflow. Lors de sa création, un champ destiné à enregistrer les résultats de classification est ajouté à la structure de la compétence. La valeur de ce champ sera utilisée pour classer les documents. Ce champ apparaîtra dans la structure des champs de la compétence, mais il sera marqué comme masqué et ne sera pas modifiable.
Remarque : Une activité Classify By Text and Image ne renvoie pas de score de confiance pour une classe ; elle renvoie uniquement son nom.
Pour ouvrir l’éditeur d’activités, cliquez sur Activity Editor ou double-cliquez sur le bloc d’activité.

Configuration à l’aide de l’éditeur d’activités

Étape 1 : Importer des documents

Importez les documents qui serviront à configurer l’activité en cliquant sur Upload dans la barre d’outils, puis en sélectionnant une méthode d’import : a. Upload Documents… Utilisez la boîte de dialogue qui s’ouvre pour sélectionner les documents appropriés. Les documents sélectionnés s’affichent dans la liste No Class. b. Upload Folder Like Classes… Utilisez la boîte de dialogue qui s’ouvre pour sélectionner un dossier contenant des sous-dossiers d’images. Chaque sous-dossier doit contenir des images d’une seule classe. L’import de documents de cette manière crée automatiquement des classes correspondant aux sous-dossiers, et les documents présents dans ces sous-dossiers sont classés dans la classe correspondante. Ainsi, vous n’aurez pas besoin de créer manuellement des classes dans l’Activity Editor.

Étape 2 : Créer des classes

Créez des classes correspondant aux différents types de documents à traiter en cliquant soit sur Create Class dans la barre d’outils, soit sur Create dans le volet Assign class. Si vos documents ont été envoyés à l’aide de Upload folder like classes, assurez-vous que toutes les classes requises ont été créées.

Étape 3 : Classer les documents

Classez vos documents à l’aide de l’une des méthodes suivantes :
  • Sélectionnez tous les documents d’une même classe dans la liste, puis cliquez sur le nom de la classe appropriée dans le volet Attribuer une classe.
  • Si aucune classe appropriée n’a encore été créée, sélectionnez tous les documents concernés dans la liste et créez une classe en cliquant sur Créer une classe dans la barre d’outils ou sur Créer dans le volet Attribuer une classe.
  • Sélectionnez tous les documents d’une même classe et faites-les glisser vers la liste correspondant à cette classe.

Options supplémentaires

Si nécessaire, vous pouvez modifier l’orientation des pages du document à l’aide de la liste déroulante Rotate dans la barre d’outils. Vous pouvez sélectionner l’une des options suivantes : Rotate All Pages Left, Rotate All Pages Right ou Rotate All Pages 180º. Pour changer de mode d’affichage, utilisez les boutons suivants dans la barre d’outils :
  • Vue en liste. Affiche les documents sous forme de liste
  • Vue en vignettes. Affiche les documents sous forme de vignettes
Pour afficher l’image complète d’un document présenté en vue Vignettes, utilisez le bouton d’aperçu.

Entraîner un classificateur et afficher les résultats de classification

Une fois les documents classés, entraînez votre activité à l’aide du bouton Train Activity. Une fois l’entraînement terminé, des statistiques sur les résultats de classification s’affichent dans l’onglet Results. L’analyse de ces statistiques aide à identifier les classes problématiques et à évaluer la qualité globale du classificateur.

Statistiques générales

Le volet supérieur affiche des statistiques générales pour tous les documents et classes de l’activité. Ces statistiques aident à évaluer la qualité globale de votre classifieur :
  • accuracy. Le pourcentage de documents dont la classe attendue correspond à la classe attribuée par le programme.
  • F-Measure. À utiliser pour évaluer la précision et l’exhaustivité de la classification.
  • Recall. La proportion de documents correctement classés dans une classe donnée par rapport à l’ensemble des documents de cette classe.
  • Precision. La proportion de documents correctement classés dans une classe donnée par rapport à l’ensemble des documents classés dans cette classe (correctement ou incorrectement).

Statistiques par classe

Dans le volet Classes, vous pouvez consulter les statistiques pour chaque classe. Pour chacune d’elles, le pourcentage de documents dont la classe attendue correspond à la classe attribuée par le programme est affiché, ainsi que le nombre de documents correctement et incorrectement classés. Pour afficher les documents classés de manière incorrecte, sélectionnez la classe concernée dans le volet Classes et développez la liste des documents incorrectement classés (affichée en rouge). L’analyse de ces documents devrait vous aider à comprendre pourquoi le programme a attribué à un document spécifique une classe différente de la classe attendue. Cela peut souvent se produire si la classe attendue a été mal attribuée dès le départ, par exemple lorsque des documents de classes différentes sont trop similaires.

Correction des erreurs de classification

Classes attendues incorrectes

Une cause possible d’une classification erronée est l’attribution incorrecte des classes attendues. Pour corriger ce type d’erreur, assignez simplement la classe attendue appropriée à un document. Dans l’onglet Results, sélectionnez une classe qui a été attribuée de manière incorrecte à un document. Développez la liste des documents dont les classes ont été attribuées de façon incorrecte, sélectionnez tous les documents de cette classe, puis assignez-leur la classe attendue appropriée à partir de la liste dans le panneau Assign class.

Documents similaires dans des classes différentes

Une autre cause possible d’erreurs de classification est la présence de documents très similaires répartis dans des classes différentes. Si le classificateur confond les classes pour deux variantes de document similaires, il est fort probable que ces variantes doivent appartenir à une seule et même classe avec une seule activité d’extraction. Dans ce cas, revoyez le nombre de classes et regroupez les classes confondues en une seule. Leurs différences devront ensuite être décrites à l’aide de règles dans une activité Extraction Rules.

Données d’entraînement insuffisantes

Une autre cause possible d’erreurs de classification est un nombre insuffisant de documents dans un ensemble de classes. Dans ce cas, vous pouvez améliorer la qualité du classificateur en ajoutant davantage de documents à l’ensemble. Après avoir ajouté de nouveaux documents ou modifié les classes, vous devrez réentraîner votre classificateur.