Passer au contenu principal

Extraction de données à partir d’un ensemble de documents mixtes (semi-structurés et non structurés)

Supposons qu’une seule Compétence de document doive traiter à la fois des documents semi-structurés et non structurés. Dans ce cas, commencez par classer les documents dans les types correspondants à l’aide de l’activité Classify By Text and Image, qui combine des caractéristiques textuelles et géométriques et permet de classer même des images de moindre qualité ainsi que des documents de classes différentes qui ne peuvent être distingués que par des objets graphiques, tels que des signatures ou des cachets. Utilisez une activité IF pour créer des embranchements dans le flux de traitement des documents et séparer les documents non structurés de ceux semi-structurés. Chaque branche peut être traitée à l’aide de l’un des scénarios présentés dans les sections Processing semi-structured documents et Processing unstructured documents. Par exemple, les documents semi-structurés peuvent être traités par une activité Fast Learning, tandis que les documents non structurés peuvent être traités par une combinaison d’une activité Segmentation et d’une activité Deep Learning pour le NLP. Comme les documents décrits appartiennent tous au même type, ils auront le même ensemble de champs de sortie. Flux de traitement de documents mixtes

Étapes pour créer une Compétence de document

  1. Ouvrez Advanced Designer. Créez une nouvelle compétence en cliquant sur Create Document Skill sur la page d’accueil.
  2. Utilisez l’onglet Documents qui s’ouvre pour téléverser les documents qui serviront à configurer votre compétence. Pour vous assurer que votre jeu de documents est suffisant pour configurer un classificateur, ajoutez un nombre à peu près égal de documents pour chaque variante.
  3. Une fois vos images téléversées, accédez à l’onglet Fields et définissez une structure de champ pour la compétence en créant et configurant les champs qui seront extraits à l’aide de la compétence. Étiquetez les documents dans la section Reference.
  4. Accédez à l’onglet Activities et ajoutez une activité Classify au flux de traitement des documents.
  5. Ouvrez l’Activity Editor et configurez l’activité Classify. Pour cela, créez une classe correspondante pour chaque variante, assignez ces classes à vos documents et entraînez l’activité.
  6. Revenez à l’onglet Activities et configurez un branchement conditionnel pour le flux de traitement en ajoutant une activité IF, ainsi que des activités distinctes pour traiter chaque variante de document.
  7. Configurez et entraînez les activités que vous avez créées.
  8. Testez votre compétence en cliquant sur Test Skill Using Selected Documents et analysez les résultats obtenus.
  9. Lorsque les résultats des tests sont suffisamment satisfaisants, publiez votre compétence.

Extraction de texte à partir de cellules de tableau dans des documents semi-structurés

Supposons que vous extrayiez des données de documents semi-structurés contenant des tableaux et que vous deviez extraire non seulement le texte de chaque cellule, mais aussi des valeurs numériques spécifiques intégrées dans le texte d’une cellule. Par exemple, si vous devez extraire des informations sur un emprunteur à partir d’un document de type Closing Disclosure, vous pouvez utiliser une activité Fast Learning, conçue pour les documents semi-structurés, afin d’extraire l’intégralité du texte de la cellule de tableau ciblée, puis utiliser une activité pour documents non structurés (Named Entities, NER, et Address Parsing dans ce cas) pour extraire le nom de l’emprunteur et une partie de son adresse à partir de la cellule ciblée. Fast Learning avec NER et Address Parsing

Étapes pour créer une Compétence de document

  1. Ouvrez Advanced Designer. Créez une nouvelle compétence en cliquant sur Create Document Skill sur la page d’accueil.
  2. Utilisez l’onglet Documents qui s’ouvre pour téléverser les documents qui seront utilisés pour configurer votre compétence.
  3. Une fois vos images téléversées, accédez à l’onglet Fields et définissez une structure de champ pour la compétence en créant et en configurant des champs qui seront extraits à l’aide de la compétence. Annotez les documents dans la section Reference.
  4. Accédez à l’onglet Activities, créez une activité Fast Learning et spécifiez les champs qui seront extraits par cette activité.
  5. Ouvrez l’Activity Editor, configurez et entraînez l’activité Fast Learning.
  6. Revenez à l’onglet Activities, créez une activité Named Entities (NER) et spécifiez un champ source, ainsi que les champs qui seront utilisés pour stocker les entités nommées extraites. Faites correspondre les entités nommées aux champs sélectionnés.
  7. Si vous avez un champ contenant une adresse et que vous souhaitez scinder l’adresse en composants, créez une activité Address Parsing et spécifiez un champ source, ainsi que les champs qui seront utilisés pour stocker les composants d’adresse extraits. Faites correspondre les composants d’adresse aux champs sélectionnés.
  8. Testez votre compétence en cliquant sur Test Skill Using Selected Documents et analysez les résultats obtenus.
  9. Une fois les résultats des tests satisfaisants, publiez votre compétence.

Extraction de données à partir de documents non structurés comportant des tableaux, des titres, des en-têtes et des pieds de page

Supposons que vous deviez extraire des données de documents non structurés (p. ex. des contrats) comportant des tableaux, des titres, des en-têtes ou des pieds de page. Exemple de document mixte Dans ce cas, configurez une activité Segmentation pour détecter des paragraphes de texte continus et une activité Extraction Rules pour détecter des éléments semi-structurés. Une fois le fragment de document requis détecté, utilisez les activités appropriées pour extraire des champs à partir de ces fragments.

Étapes pour créer une Compétence de document

  1. Ouvrez Advanced Designer. Créez une nouvelle compétence en cliquant sur Create Document Skill sur la page d’accueil.
  2. Utilisez l’onglet Documents qui s’ouvre pour importer les documents qui serviront à configurer votre compétence.
  3. Une fois vos images importées, accédez à l’onglet Fields et définissez une structure de champ pour la compétence en créant et en configurant les champs qui seront extraits par la compétence. Étiquetez les documents dans la section Reference.
  4. Accédez à l’onglet Activities, créez une activité Segmentation et spécifiez les champs qui seront utilisés pour stocker des paragraphes de texte brut.
  5. Ouvrez l’Activity Editor, configurez et entraînez l’activité Segmentation.
  6. Revenez à l’onglet Activities, créez une activité Extraction Rules et spécifiez les champs qui seront utilisés pour stocker les données provenant de fragments semi-structurés du document.
  7. Ouvrez l’Activity Editor, configurez et testez l’activité Extraction Rules.
  8. Testez votre compétence en cliquant sur Test Skill Using Selected Documents et analysez les résultats obtenus.
  9. Lorsque les résultats des tests sont satisfaisants, publiez votre compétence.