Passer au contenu principal
Pour extraire des données à partir de documents, créez une Compétence de document. Le scénario et les technologies utilisées (disponibles sous forme d’activités) dépendent largement de la structure des documents que vous allez traiter. En général, les documents peuvent être classés dans les catégories suivantes :

Types de documents

Documents structurés

Les documents structurés (également appelés formulaires fixes) contiennent toujours les mêmes informations et présentent soit la même mise en page, soit un nombre très limité de mises en page. Parmi les documents structurés, on peut citer les formulaires, les questionnaires et les sondages. Exemple de document structuré

Documents semi-structurés

Les documents semi-structurés contiennent généralement les mêmes informations, mais l’emplacement, la taille et le nombre de champs peuvent varier d’un document à l’autre, ce qui complique l’extraction des données. Vantage s’appuie sur les relations spatiales et logiques entre certains éléments et champs pour localiser et extraire les données requises. Parmi les documents semi-structurés, on peut citer les factures, les ordres de paiement et les connaissements. Exemple de document semi-structuré Si votre jeu de documents se compose de documents structurés ou semi-structurés, consultez les scénarios dans les sections Traitement des documents structurés et Traitement des documents semi-structurés.

Documents non structurés

Les documents non structurés sont constitués de texte libre, organisé en paragraphes et en phrases contenant des données à extraire. Dans certains documents non structurés, un champ peut se poursuivre sur la page suivante. Des exemples de documents non structurés incluent des contrats, des e-mails et des articles de recherche. Exemple de document non structuré Si votre jeu de documents est composé de documents non structurés, consultez les scénarios de la section Traitement des documents non structurés.

Jeux de documents mixtes

Si votre jeu de documents contient à la fois des documents semi-structurés et non structurés, ou si vos documents peuvent comporter à la fois du contenu semi-structuré et non structuré (par exemple, des paragraphes de texte en clair alternant avec des tableaux), consultez les scénarios de la section Traitement des jeux de documents mixtes et des documents à structure mixte.