Extraction de données à partir d’un ensemble de documents mixtes (semi-structurés et non structurés)

Étapes pour créer une Compétence de document
- Ouvrez Advanced Designer. Créez une nouvelle compétence en cliquant sur Create Document Skill sur la page d’accueil.
- Utilisez l’onglet Documents qui s’ouvre pour téléverser les documents qui serviront à configurer votre compétence. Pour vous assurer que votre jeu de documents est suffisant pour configurer un classificateur, ajoutez un nombre à peu près égal de documents pour chaque variante.
- Une fois vos images téléversées, accédez à l’onglet Fields et définissez une structure de champ pour la compétence en créant et configurant les champs qui seront extraits à l’aide de la compétence. Étiquetez les documents dans la section Reference.
- Accédez à l’onglet Activities et ajoutez une activité Classify au flux de traitement des documents.
- Ouvrez l’Activity Editor et configurez l’activité Classify. Pour cela, créez une classe correspondante pour chaque variante, assignez ces classes à vos documents et entraînez l’activité.
- Revenez à l’onglet Activities et configurez un branchement conditionnel pour le flux de traitement en ajoutant une activité IF, ainsi que des activités distinctes pour traiter chaque variante de document.
- Configurez et entraînez les activités que vous avez créées.
- Testez votre compétence en cliquant sur Test Skill Using Selected Documents et analysez les résultats obtenus.
- Lorsque les résultats des tests sont suffisamment satisfaisants, publiez votre compétence.
Extraction de texte à partir de cellules de tableau dans des documents semi-structurés

Étapes pour créer une Compétence de document
- Ouvrez Advanced Designer. Créez une nouvelle compétence en cliquant sur Create Document Skill sur la page d’accueil.
- Utilisez l’onglet Documents qui s’ouvre pour téléverser les documents qui seront utilisés pour configurer votre compétence.
- Une fois vos images téléversées, accédez à l’onglet Fields et définissez une structure de champ pour la compétence en créant et en configurant des champs qui seront extraits à l’aide de la compétence. Annotez les documents dans la section Reference.
- Accédez à l’onglet Activities, créez une activité Fast Learning et spécifiez les champs qui seront extraits par cette activité.
- Ouvrez l’Activity Editor, configurez et entraînez l’activité Fast Learning.
- Revenez à l’onglet Activities, créez une activité Named Entities (NER) et spécifiez un champ source, ainsi que les champs qui seront utilisés pour stocker les entités nommées extraites. Faites correspondre les entités nommées aux champs sélectionnés.
- Si vous avez un champ contenant une adresse et que vous souhaitez scinder l’adresse en composants, créez une activité Address Parsing et spécifiez un champ source, ainsi que les champs qui seront utilisés pour stocker les composants d’adresse extraits. Faites correspondre les composants d’adresse aux champs sélectionnés.
- Testez votre compétence en cliquant sur Test Skill Using Selected Documents et analysez les résultats obtenus.
- Une fois les résultats des tests satisfaisants, publiez votre compétence.

Étapes pour créer une Compétence de document
- Ouvrez Advanced Designer. Créez une nouvelle compétence en cliquant sur Create Document Skill sur la page d’accueil.
- Utilisez l’onglet Documents qui s’ouvre pour importer les documents qui serviront à configurer votre compétence.
- Une fois vos images importées, accédez à l’onglet Fields et définissez une structure de champ pour la compétence en créant et en configurant les champs qui seront extraits par la compétence. Étiquetez les documents dans la section Reference.
- Accédez à l’onglet Activities, créez une activité Segmentation et spécifiez les champs qui seront utilisés pour stocker des paragraphes de texte brut.
- Ouvrez l’Activity Editor, configurez et entraînez l’activité Segmentation.
- Revenez à l’onglet Activities, créez une activité Extraction Rules et spécifiez les champs qui seront utilisés pour stocker les données provenant de fragments semi-structurés du document.
- Ouvrez l’Activity Editor, configurez et testez l’activité Extraction Rules.
- Testez votre compétence en cliquant sur Test Skill Using Selected Documents et analysez les résultats obtenus.
- Lorsque les résultats des tests sont satisfaisants, publiez votre compétence.
