Créer des Compétences de document pour extraire des données à partir de documents structurés, semi-structurés et non structurés
Pour extraire des données à partir de documents, créez une Compétence de document.Le scénario et les technologies utilisées (disponibles sous forme d’activités) dépendent largement de la structure des documents que vous allez traiter. En général, les documents peuvent être classés dans les catégories suivantes :
Les documents structurés (également appelés formulaires fixes) contiennent toujours les mêmes informations et présentent soit la même mise en page, soit un nombre très limité de mises en page. Parmi les documents structurés, on peut citer les formulaires, les questionnaires et les sondages.
Les documents semi-structurés contiennent généralement les mêmes informations, mais l’emplacement, la taille et le nombre de champs peuvent varier d’un document à l’autre, ce qui complique l’extraction des données. Vantage s’appuie sur les relations spatiales et logiques entre certains éléments et champs pour localiser et extraire les données requises. Parmi les documents semi-structurés, on peut citer les factures, les ordres de paiement et les connaissements.Si votre jeu de documents se compose de documents structurés ou semi-structurés, consultez les scénarios dans les sections Traitement des documents structurés et Traitement des documents semi-structurés.
Les documents non structurés sont constitués de texte libre, organisé en paragraphes et en phrases contenant des données à extraire. Dans certains documents non structurés, un champ peut se poursuivre sur la page suivante. Des exemples de documents non structurés incluent des contrats, des e-mails et des articles de recherche.Si votre jeu de documents est composé de documents non structurés, consultez les scénarios de la section Traitement des documents non structurés.
Si votre jeu de documents contient à la fois des documents semi-structurés et non structurés, ou si vos documents peuvent comporter à la fois du contenu semi-structuré et non structuré (par exemple, des paragraphes de texte en clair alternant avec des tableaux), consultez les scénarios de la section Traitement des jeux de documents mixtes et des documents à structure mixte.