Passer au contenu principal
Une Compétence de document vous permet d’extraire des valeurs de champ à partir de documents structurés et semi-structurés d’un seul type. Les documents du même type possèdent exactement le même ensemble de champs et de règles de validation, ainsi que la même structure ; par exemple, les factures, les contrats et les listes d’expédition sont trois types de documents. Les documents structurés sont des formulaires où l’emplacement des champs est identique pour chaque instance de document. Parmi les exemples de documents structurés figurent les questionnaires, les formulaires de demande et les déclarations fiscales. Vous pouvez également créer et modifier des compétences pour des documents structurés dans Advanced Designer lorsque vous devez combiner le traitement de documents structurés avec d’autres technologies Vantage. Les documents semi-structurés ont un ensemble spécifique de champs dont l’étiquetage, le nombre et l’emplacement varient d’un document à l’autre du même type. Un exemple typique de document semi-structuré est la facture émise par différentes entreprises, qui peut varier par le nombre et le formatage des lignes d’articles. Chaque facture comportera un numéro de facture et un montant total imprimés, mais l’emplacement exact de ces informations variera d’une facture à l’autre. Pour commencer l’entraînement de votre Compétence de document, annotez les champs sur un document. Au fur et à mesure que vous entraînez votre compétence, le programme commencera à suggérer automatiquement des emplacements de champ pour faciliter le processus d’annotation des champs. Actuellement, un seul fichier peut être traité par une Compétence de document dans le cadre d’une seule transaction. Si vous devez traiter plusieurs fichiers, utilisez l’activité Extract de la Compétence de processus.

Variantes de type de document

Les documents d’un même type présentent presque toujours des ensembles identiques de champs, de règles de validation et une structure similaire. Les variantes d’un même type de document peuvent différer légèrement, en fonction, par exemple, de l’année de délivrance du document. Les documents d’un même type peuvent être traités par une seule Compétence de document entraînée à l’aide de différentes variantes de ce type de document. Vantage et Advanced Designer peuvent gérer un nombre quelconque de variantes au sein d’un même type de document :
  • Pour des centaines de variantes, les compétences entraînées à l’aide de l’activité Online Learning dans Vantage pourront extraire les données avec une précision presque parfaite.
  • Pour des milliers de variantes, les compétences entraînées à l’aide de l’activité Deep Learning pourront extraire les données avec une précision d’environ 80 % à 90 %, selon la complexité des types de documents.
  • Pour les variantes les plus importantes d’un type de document, les compétences entraînées à l’aide des activités Fast Learning et/ou Extraction Rules garantiront une extraction précise des données à partir de documents complexes.
  • Pour les documents structurés, qui contiennent toujours le même type d’informations aux mêmes emplacements exacts, nous recommandons d’utiliser jusqu’à 10 variantes. Si un formulaire fixe comporte de nombreuses variantes, nous vous recommandons de les traiter toutes comme des types de document distincts.
Lors de l’entraînement et des tests d’une compétence, nous recommandons ce qui suit :
  • Lors de l’entraînement d’une compétence, utilisez un ensemble représentatif de documents contenant au moins 2 à 3 documents de chaque variante. S’il y a beaucoup de variantes et que l’ensemble ne contient pas au moins un document de chaque variante, vous pouvez alors utiliser l’activité Deep Learning. Elle reconnaît les motifs visuels, la structure spatiale des documents, le contenu des champs et les libellés environnants, et peut traiter des variantes qui n’ont pas été utilisées pour l’entraînement.
  • Lors des tests d’une compétence, utilisez une distribution de documents similaire à celle du flux réel de documents en production : le pourcentage de documents d’une variante spécifique dans l’ensemble d’entraînement doit être représentatif de la fréquence à laquelle cette variante apparaît dans votre flux de documents. Cela garantira la validité de l’estimation de précision. Pour ce faire, testez les compétences à l’aide d’un échantillon aléatoire de documents provenant du flux réel de documents en production.
  • Un échantillon d’une variante vaut mieux qu’aucun échantillon.