Passer au contenu principal
Une Compétence de document vous permet d’extraire des valeurs de champ à partir de documents structurés et semi-structurés d’un seul type. Les documents du même type possèdent exactement le même ensemble de champs et de règles de validation, ainsi que la même structure ; par exemple, les factures, les contrats et les listes d’expédition sont trois types de documents. Les documents structurés sont des formulaires où l’emplacement des champs est identique pour chaque instance de document. Parmi les exemples de documents structurés figurent les questionnaires, les formulaires de demande et les déclarations fiscales.
Conseil : Vous pouvez également créer et modifier des compétences pour des documents structurés dans Advanced Designer lorsque vous devez combiner le traitement de documents structurés avec d’autres technologies Vantage.
Les documents semi-structurés ont un ensemble spécifique de champs dont l’étiquetage, le nombre et l’emplacement varient d’un document à l’autre du même type. Un exemple typique de document semi-structuré est la facture émise par différentes entreprises, qui peut varier par le nombre et le formatage des lignes d’articles. Chaque facture comportera un numéro de facture et un montant total imprimés, mais l’emplacement exact de ces informations variera d’une facture à l’autre. Pour commencer l’entraînement de votre Compétence de document, annotez les champs sur un document. Au fur et à mesure que vous entraînez votre compétence, le programme commencera à suggérer automatiquement des emplacements de champ pour faciliter le processus d’annotation des champs.
Remarque : Actuellement, un seul fichier peut être traité par une Compétence de document dans le cadre d’une seule transaction. Si vous devez traiter plusieurs fichiers, utilisez l’activité Extract de la Compétence de processus.

Variantes de type de document

Les documents d’un même type présentent presque toujours des ensembles de champs, des règles de validation et une structure identiques. Les variantes d’un même type de document peuvent toutefois différer légèrement, par exemple selon l’année de délivrance du document. Les documents d’un même type peuvent être traités par une seule Compétence de document entraînée avec différentes variantes de ce type. Vantage et Advanced Designer peuvent gérer un nombre quelconque de variantes au sein d’un même type de document :
  • Pour des centaines de variantes, les compétences entraînées avec l’apprentissage en ligne dans Vantage pourront extraire les données presque sans erreur.
  • Pour des milliers de variantes, les compétences entraînées avec l’activité Deep Learning pourront extraire les données avec une précision d’environ 80 % à 90 %, selon la complexité des types de documents.
  • Pour les variantes les plus importantes d’un type de document, les compétences entraînées avec les activités Fast Learning et/ou Extraction Rules assureront une extraction précise des données à partir de documents complexes.
  • Pour les documents structurés, qui contiennent toujours le même type d’informations aux mêmes emplacements exacts, nous recommandons d’utiliser jusqu’à 10 variantes. Si un formulaire fixe comporte de nombreuses variantes, nous recommandons de les traiter comme des types de document distincts.
Lors de l’entraînement et des tests d’une compétence, nous recommandons ce qui suit :
  • Lors de l’entraînement d’une compétence, utilisez un jeu de documents représentatif contenant au moins 2 à 3 documents pour chaque variante. S’il y a beaucoup de variantes et que le jeu ne contient pas au moins un document de chaque variante, vous pouvez utiliser l’activité Deep Learning. Elle reconnaît les motifs d’image, la structure spatiale des documents, le contenu des champs et les libellés environnants, et peut traiter des variantes qui n’ont pas été utilisées pour l’entraînement.
  • Lors du test d’une compétence, utilisez une distribution de documents similaire à celle du flux réel en production : le pourcentage de documents d’une variante spécifique dans l’ensemble d’entraînement doit être représentatif de la fréquence d’apparition de cette variante dans votre flux documentaire. Cela garantira la validité de l’estimation de précision. Pour ce faire, testez les compétences à l’aide d’un échantillon aléatoire de documents issus du flux réel en production.
  • Un échantillon d’une variante vaut mieux que pas d’échantillon.