Conseil : Vous pouvez également créer et modifier des compétences pour des documents structurés dans Advanced Designer lorsque vous devez combiner le traitement de documents structurés avec d’autres technologies Vantage.Les documents semi-structurés ont un ensemble spécifique de champs dont l’étiquetage, le nombre et l’emplacement varient d’un document à l’autre du même type. Un exemple typique de document semi-structuré est la facture émise par différentes entreprises, qui peut varier par le nombre et le formatage des lignes d’articles. Chaque facture comportera un numéro de facture et un montant total imprimés, mais l’emplacement exact de ces informations variera d’une facture à l’autre. Pour commencer l’entraînement de votre Compétence de document, annotez les champs sur un document. Au fur et à mesure que vous entraînez votre compétence, le programme commencera à suggérer automatiquement des emplacements de champ pour faciliter le processus d’annotation des champs.
Remarque : Actuellement, un seul fichier peut être traité par une Compétence de document dans le cadre d’une seule transaction. Si vous devez traiter plusieurs fichiers, utilisez l’activité Extract de la Compétence de processus.
Variantes de type de document
- Pour des centaines de variantes, les compétences entraînées avec l’apprentissage en ligne dans Vantage pourront extraire les données presque sans erreur.
- Pour des milliers de variantes, les compétences entraînées avec l’activité Deep Learning pourront extraire les données avec une précision d’environ 80 % à 90 %, selon la complexité des types de documents.
- Pour les variantes les plus importantes d’un type de document, les compétences entraînées avec les activités Fast Learning et/ou Extraction Rules assureront une extraction précise des données à partir de documents complexes.
- Pour les documents structurés, qui contiennent toujours le même type d’informations aux mêmes emplacements exacts, nous recommandons d’utiliser jusqu’à 10 variantes. Si un formulaire fixe comporte de nombreuses variantes, nous recommandons de les traiter comme des types de document distincts.
- Lors de l’entraînement d’une compétence, utilisez un jeu de documents représentatif contenant au moins 2 à 3 documents pour chaque variante. S’il y a beaucoup de variantes et que le jeu ne contient pas au moins un document de chaque variante, vous pouvez utiliser l’activité Deep Learning. Elle reconnaît les motifs d’image, la structure spatiale des documents, le contenu des champs et les libellés environnants, et peut traiter des variantes qui n’ont pas été utilisées pour l’entraînement.
- Lors du test d’une compétence, utilisez une distribution de documents similaire à celle du flux réel en production : le pourcentage de documents d’une variante spécifique dans l’ensemble d’entraînement doit être représentatif de la fréquence d’apparition de cette variante dans votre flux documentaire. Cela garantira la validité de l’estimation de précision. Pour ce faire, testez les compétences à l’aide d’un échantillon aléatoire de documents issus du flux réel en production.
- Un échantillon d’une variante vaut mieux que pas d’échantillon.
