Passer au contenu principal
Les compétences de document servent à extraire des valeurs de champ à partir de différents types de documents : documents structurés (par exemple des formulaires fiscaux ou des formulaires de demande), documents semi-structurés (comme des factures, des bons de commande ou des lettres de transport aérien) et documents non structurés (tels que des contrats, des baux ou des messages électroniques). Les compétences de document peuvent être créées dans ABBYY Vantage ou dans Advanced Designer. Ce dernier est l’outil à privilégier si vous devez créer des compétences de document complexes pour des documents non standard présentant des mises en page et des structures de champs variables. Advanced Designer permet également de combiner différentes technologies au sein de vos compétences de document, d’ajouter du NLP pour le traitement de documents non structurés, ou de définir des conditions pour le traitement de différents types de document (voir Cas d’utilisation pour un aperçu des scénarios typiques).

Variantes de type de document

Les documents d’un même type présentent presque toujours des ensembles identiques de champs, de règles de validation et une structure similaire. Les variantes d’un même type de document peuvent différer légèrement, par exemple selon l’année de délivrance du document. Les documents d’un même type peuvent être traités par une Compétence de document entraînée sur différentes variantes de ce type de document. Vantage et Advanced Designer peuvent gérer un nombre quelconque de variantes au sein d’un type de document :
  • Pour des centaines de variantes, les compétences entraînées à l’aide de l’Apprentissage en ligne dans Vantage pourront extraire les données avec une quasi‑perfection.
  • Pour des milliers de variantes, les compétences entraînées à l’aide de l’activité Deep Learning pourront extraire les données avec une précision d’environ 80 % à 90 %, selon la complexité des types de documents.
  • Pour les variantes les plus importantes d’un type de document, les compétences entraînées à l’aide des activités Fast Learning et/ou Extraction Rules garantiront une extraction précise des données à partir de documents complexes.
  • Pour les documents structurés, qui contiennent toujours les mêmes types d’informations exactement aux mêmes emplacements, nous recommandons d’utiliser jusqu’à 10 variantes. Si un formulaire fixe présente de nombreuses variantes, nous recommandons de les traiter toutes comme des types de documents différents. Pour plus d’informations, voir Processing structured documents.

Entraînement et test d’une Compétence de document

Pour obtenir les meilleurs résultats d’extraction, nous recommandons d’entraîner et de tester une Compétence de document à l’aide de trois ensembles de documents distincts :
  • Ensemble d’entraînement
  • Ensemble de test
  • Ensemble à l’aveugle (un ensemble de test supplémentaire contenant des documents d’exemple non inclus dans l’un des deux ensembles ci-dessus)

Exigences relatives à l’ensemble d’entraînement

Pour un ensemble d’entraînement, utilisez un ensemble de documents représentatif contenant au moins 2 à 3 documents d’exemple pour chaque variante. S’il existe de nombreuses variantes et que l’ensemble ne contient pas au moins un document d’exemple pour chacune, envisagez d’utiliser l’activité Deep Learning. Cette activité reconnaît les motifs d’image, la structure des documents, le contenu des champs et les libellés environnants, et peut traiter des variantes qui n’ont pas été utilisées lors de l’entraînement. Le nombre de documents d’exemple requis par les activités dépend des technologies utilisées dans votre Compétence de document :
  • Deep Learning activity for semi-structured documents :
    • Pour les documents à forte variabilité, au moins 200 à 300 documents d’exemple (2 à 3 par variante) sont nécessaires. De manière générale, nous recommandons d’avoir environ 1 000 documents dans l’ensemble.
    • Pour les documents à faible variabilité, 100 documents d’exemple suffisent généralement.
  • Segmentation activity :
    • Pour les documents à forte variabilité, nous recommandons d’avoir au moins 100 documents d’exemple.
    • Pour les documents à faible variabilité, nous recommandons d’avoir au moins 20 documents d’exemple.
  • Deep Learning for NLP activity :
    • Pour les documents à forte variabilité, nous recommandons d’avoir au moins 300 documents d’exemple (2 à 3 par variante).
    • Pour les documents à faible variabilité, nous recommandons d’avoir au moins 50 documents d’exemple.
Remarque : Même si vous n’avez pas le nombre recommandé de documents d’exemple, disposer d’un document d’exemple par variante est préférable à rien du tout.

Exigences pour l’ensemble de test

Pour un ensemble de test, la répartition des documents échantillons doit être similaire à celle du flux réel de documents en production. Cela garantira la validité de l’estimation de la précision. Par exemple, si les factures d’un Fournisseur donné représentent 30 % du flux de documents en production, environ 30 % des documents échantillons de l’ensemble de test devraient provenir de ce Fournisseur. Vous pouvez également atteindre le ratio requis en testant votre Skill sur des échantillons aléatoires de documents issus du flux de documents en production.

Exigences relatives au jeu en aveugle

Pour un jeu en aveugle, veillez à utiliser des documents qui n’ont pas déjà été utilisés pour entraîner ou tester votre Skill. Les résultats d’extraction obtenus sur un jeu en aveugle vous aideront à évaluer la qualité de votre Skill.
Remarque : Veillez à utiliser des documents différents pour l’entraînement et le test de votre Skill.

Configuration d’une Compétence de document

Après avoir créé une Compétence de document sur la page d’accueil, suivez ces étapes pour configurer votre compétence :
  1. Cliquez sur le bouton Paramètres à côté du nom de la compétence pour afficher et ajuster ses paramètres.
  2. Dans l’onglet Documents, importez quelques documents.
  3. Dans l’onglet Fields, annotez les champs de données dont les valeurs seront extraites, en précisant leurs emplacements.
  4. Dans l’onglet Activities, configurez le flux de traitement du document.
  5. Dans l’onglet Results, testez votre compétence pour évaluer ses performances sur des documents d’exemple.
  6. Dans l’onglet Publish, publiez votre compétence.
Après avoir configuré et publié votre Compétence de document, elle sera disponible dans le Skill Catalog d’ABBYY Vantage. Dans le Skill Catalog, vous pouvez afficher et gérer vos compétences, y compris les compétences intégrées, en lecture seule et dérivées.