Variantes de type de document
- Pour des centaines de variantes, les compétences entraînées à l’aide de l’activité Online Learning dans Vantage pourront extraire les données avec une précision presque parfaite.
- Pour des milliers de variantes, les compétences entraînées à l’aide de l’activité Deep Learning pourront extraire les données avec une précision d’environ 80 % à 90 %, selon la complexité des types de documents.
- Pour les variantes les plus importantes d’un type de document, les compétences entraînées à l’aide des activités Fast Learning et/ou Extraction Rules garantiront une extraction précise des données à partir de documents complexes.
- Pour les documents structurés, qui contiennent toujours le même type d’informations aux mêmes emplacements exacts, nous recommandons d’utiliser jusqu’à 10 variantes. Si un formulaire fixe comporte de nombreuses variantes, nous vous recommandons de les traiter toutes comme des types de document distincts.
- Lors de l’entraînement d’une compétence, utilisez un ensemble représentatif de documents contenant au moins 2 à 3 documents de chaque variante. S’il y a beaucoup de variantes et que l’ensemble ne contient pas au moins un document de chaque variante, vous pouvez alors utiliser l’activité Deep Learning. Elle reconnaît les motifs visuels, la structure spatiale des documents, le contenu des champs et les libellés environnants, et peut traiter des variantes qui n’ont pas été utilisées pour l’entraînement.
- Lors des tests d’une compétence, utilisez une distribution de documents similaire à celle du flux réel de documents en production : le pourcentage de documents d’une variante spécifique dans l’ensemble d’entraînement doit être représentatif de la fréquence à laquelle cette variante apparaît dans votre flux de documents. Cela garantira la validité de l’estimation de précision. Pour ce faire, testez les compétences à l’aide d’un échantillon aléatoire de documents provenant du flux réel de documents en production.
- Un échantillon d’une variante vaut mieux qu’aucun échantillon.
