Passer au contenu principal
L’activité Deep Learning pour les documents semi-structurés est conçue pour créer des Skills cognitifs de qualité adaptée à la production afin d’extraire des champs à partir de documents semi-structurés à l’aide de réseaux neuronaux.
Remarque : Cette activité ne peut pas extraire des structures complexes (par exemple, des tableaux imbriqués, qui sont des structures répétitives à l’intérieur d’autres tableaux) ni des champs d’un type autre que Text. Pour extraire de telles structures, utilisez l’activité Extraction Rules.

Cas d’utilisation

Ajoutez cette activité à votre flux de traitement de documents lorsque :
  • Votre Skill sera utilisé pour traiter plusieurs variantes d’un type de document donné.
  • Vous prévoyez de traiter des variantes de documents sur lesquelles votre Skill n’a pas encore été entraîné. Par exemple, vous pouvez disposer d’une Compétence de document avec une activité Fast Learning entraînée à extraire des champs à partir de contrats de prêt (avec différentes structures de champs) provenant de plusieurs banques. Si vous décidez d’utiliser ce Skill existant pour traiter des contrats de prêt d’une nouvelle banque encore inconnue de ce Skill, la qualité d’extraction risque d’être insuffisante. Pour améliorer la qualité de l’extraction, vous pouvez utiliser une activité Deep Learning au lieu d’une activité Fast Learning.

Fonctionnement

Le Deep Learning combine des réseaux de neurones convolutifs (CNN), des réseaux de neurones récurrents (RNN) et des jetons pour le traitement du langage naturel (NLP). Grâce à cette combinaison, le Deep Learning comprend les motifs visuels, la structure des documents, le contenu des champs et les libellés environnants. Il nécessite un grand nombre de documents pour l’entraînement, mais se généralise à de nouvelles mises en page de documents qu’il n’a encore jamais rencontrées, offrant une véritable approche d’extraction sans modèle prédéfini, qui est la seule manière de traiter des documents pour lesquels aucun ensemble exhaustif de mises en page n’est disponible lors de l’entraînement.

Exigences en matière d’entraînement

Pour obtenir les meilleurs résultats, il est essentiel d’annoter correctement autant de documents que possible. Le nombre de documents d’exemple utilisés pour l’entraînement influe de manière significative sur la qualité de l’extraction des champs. Le nombre recommandé de documents d’exemple est le suivant :
  • Pour les documents à forte variabilité : au moins 200 à 300 documents d’exemple (2 à 3 documents d’exemple par variante) sont nécessaires.
  • Pour les documents à faible variabilité : au moins 10 documents d’exemple sont nécessaires (2 à 3 documents d’exemple par variante).
La quantité minimale requise est de 10, mais il est recommandé de disposer de plus de 500 documents annotés, en veillant à ce que votre ensemble d’entraînement contienne un nombre approximativement équivalent pour toutes les variantes de document que vous souhaitez traiter (idéalement, au moins quelques exemples de chaque variante). Il n’est pas nécessaire de fournir toutes les variantes possibles, mais la technologie doit voir suffisamment de documents variés pour en dégager des modèles et généraliser à des variantes qu’elle n’a pas encore rencontrées. Par exemple, dans le cas des factures, on s’attend à ce que la technologie généralise bien à de nouveaux fournisseurs lorsque l’ensemble d’entraînement contient de 500 à 1 000 fournisseurs différents, avec deux à trois documents d’exemple pour chacun d’eux dans l’ensemble d’entraînement. Même si l’apprentissage profond généralise bien, il est utile d’inclure dans l’ensemble d’entraînement les variantes les plus courantes du document, par exemple les fournisseurs émettant le plus grand nombre de factures.

Caractéristiques de l’entraînement

Contrairement à l’activité Fast Learning, qui est entraînée sur un ensemble de documents plus restreint et conçue pour des ensembles de documents plus simples, l’entraînement de l’activité Deep Learning est beaucoup plus long et nécessite davantage de ressources système (actuellement 16 cœurs CPU et 64 Go de RAM). L’entraînement du réseau de neurones est un processus itératif. Chaque itération est appelée une epoch. Au début d’une epoch, l’ensemble de documents est divisé en un sous-ensemble d’entraînement et un sous-ensemble de validation. Pendant une epoch, tous les documents du sous-ensemble d’entraînement sont traités par un algorithme d’entraînement. Ensuite, les performances du réseau de neurones sont évaluées à l’aide du sous-ensemble de validation, et les indicateurs pour chaque champ et pour l’ensemble de l’ensemble de documents sont mis à jour. Pour plus d’informations, consultez Configuration d’une activité Deep Learning.