Passer au contenu principal

Document

Un jeu comprenant une ou plusieurs images de la page ainsi que les données qui en sont extraites.

Définition de document

Une définition de document définit les principes à appliquer pour identifier et traiter un type particulier de document. Une définition de document définit :
  • La structure du document, c’est-à-dire l’ordre autorisé des pages dans les documents de ce type (ces informations seront utilisées pour assembler correctement les pages en documents)
  • Les sections du document
  • Les règles auxquelles les données des champs doivent satisfaire
  • L’emplacement des champs et de leurs légendes dans le formulaire de données
  • Les paramètres d’export du document
  • Les paramètres de traitement du document

Type de document

Documents qui présentent certaines caractéristiques communes et sont donc traités de manière uniforme dans un processus métier. Les factures, les contrats et les passeports sont des exemples de types de documents.

Entité

Un champ ou un groupe de champs contenant des informations devant être extraites à l’aide de la technologie NLP. Exemples d’entités : les personnes, les entreprises, les lieux, les montants et les dates.

Field

Élément d’un document destiné à l’extraction de données. Les champs peuvent être simples ou complexes. Un exemple de champ complexe est un champ de type “Tableau”, où chaque cellule peut être considérée comme un champ enfant distinct.

N

NER (reconnaissance d’entités nommées) Tâche d’extraction d’informations consistant à repérer et à classer les mentions d’entités nommées dans des textes non structurés. NLP (traitement automatique du langage naturel) Sous-domaine de l’intelligence artificielle et de la linguistique computationnelle, le NLP étudie l’analyse et la synthèse des langues naturelles par ordinateur. L’extraction d’informations en est l’une des applications. Parmi les autres usages du NLP figurent la traduction automatique, les chatbots, la classification de documents et l’analyse des sentiments.

Modèle NLP

Mécanisme qui détermine quelles entités et quels segments extraire dans les textes, ainsi que la manière de le faire. Le domaine d’application et l’algorithme d’extraction sont sélectionnés lors de l’entraînement d’un modèle NLP.

S

Segment Fragment de texte composé d’un ou de plusieurs paragraphes contenant des données à extraire. Un segment peut également être un champ à extraire (par exemple, des conditions de résiliation d’un contrat). Segmentation Processus d’identification des segments. La segmentation précède l’extraction d’informations et s’avère utile dans le cas de documents volumineux, car elle limite la recherche d’entités à des fragments de texte précis.