Traiter des ensembles de documents mixtes dans Advanced Designer

Un ensemble de documents « mixte » peut désigner deux choses dans Advanced Designer :

Un même ensemble qui contient à la fois des documents semi-structurés et non structurés (différents types de documents).
Un seul document qui présente une structure mixte — par exemple, un contrat non structuré avec des tableaux intégrés, des titres, des en-têtes ou des pieds de page.

Choisissez un scénario

Scénario	Quand l’utiliser	Activités clés
Documents semi-structurés et non structurés dans un même ensemble	Les deux relèvent d’un même type logique avec des champs de sortie communs	Classify + IF + Fast Learning + Segmentation + Deep Learning for NLP
Cellules de tableau contenant des champs	Extraire des valeurs à l’intérieur de cellules de tableau (p. ex., des noms dans un Closing Disclosure)	Fast Learning + NER (+ Address Parsing)
Documents non structurés avec tableaux/titres/en-têtes/pieds de page intégrés	Principalement des documents non structurés avec des fragments semi-structurés	Segmentation + Extraction Rules

Chaque scénario ci-dessous suit une structure commune ; seules les activités que vous ajoutez au flux de traitement diffèrent.

Workflow type

Créer une compétence de document

Ouvrez Advanced Designer et cliquez sur Créer une compétence de document dans la page d’accueil.

Téléverser des documents

Dans l’onglet Documents, téléversez les documents que vous utiliserez pour configurer la compétence.

Définir les champs et étiqueter les documents

Dans l’onglet Fields, créez et configurez les champs que la compétence extraira. Étiquetez les documents dans la section Reference.

Ajouter et configurer des activités

Dans l’onglet Activities, ajoutez les activités adaptées à votre scénario (décrit ci-dessous). Ouvrez chaque activité dans l’Éditeur d’activité pour la configurer et l’entraîner.

Tester et publier

Cliquez sur Test Skill Using Selected Documents pour évaluer les résultats. Lorsque ceux-ci sont suffisamment bons, publier la compétence.

Documents semi-structurés et non structurés dans un même ensemble

Utilisez ce scénario lorsqu’une Compétence de document doit traiter à la fois des documents semi-structurés et non structurés — ils appartiennent au même type logique et partagent le même ensemble de champs de sortie. Classez chaque document avec une activité Classify By Text and Image, qui combine le texte et la géométrie pour prendre en charge les images de mauvaise qualité et les documents qui ne se distinguent que par des éléments graphiques (signatures, sceaux). Pour obtenir les meilleurs résultats, téléversez un nombre à peu près équivalent de documents pour chaque variante, afin que le classificateur dispose de données d’entraînement équilibrées. Ensuite, créez un branchement dans le flux à l’aide d’une activité IF :

Traitez les documents semi-structurés avec une activité Fast Learning.
Traitez les documents non structurés avec une activité Segmentation, suivie d’une activité Deep Learning for NLP.

Flux de traitement des documents avec Classify et branchement IF vers Fast Learning et Segmentation + Deep Learning for NLP

Cellules de tableau avec des champs intégrés au texte de la cellule

Utilisez ce scénario lorsque vous devez extraire des valeurs spécifiques à l’intérieur de cellules de tableau dans des documents semi-structurés — par exemple, le nom d’un emprunteur et une partie de son adresse intégrés dans une cellule de Closing Disclosure. Extrayez la cellule comme un bloc de texte unique avec une activité Fast Learning, puis exécutez des activités NLP sur ce bloc pour en extraire les champs intégrés :

activité Named Entities (NER) pour les entités telles que les noms et les organisations.
activité Address Parsing pour décomposer les adresses en éléments.

Flux de traitement des documents avec Fast Learning alimentant les activités Named Entities (NER) et Address Parsing

Documents non structurés avec des tableaux, des titres, des en-têtes ou des pieds de page

Utilisez ce scénario pour des documents essentiellement non structurés (par exemple, des contrats) qui contiennent toutefois des fragments semi-structurés imbriqués, comme des tableaux, des titres, des en-têtes ou des pieds de page. Détectez les paragraphes de texte brut avec une activité Segmentation et les fragments semi-structurés avec une activité Extraction Rules. Une fois chaque fragment isolé, utilisez l’activité appropriée pour en extraire les champs.

Exemple de document avec des paragraphes de texte non structuré à côté d’un tableau semi-structuré

​Choisissez un scénario

​Workflow type

​Documents semi-structurés et non structurés dans un même ensemble

​Cellules de tableau avec des champs intégrés au texte de la cellule

​Documents non structurés avec des tableaux, des titres, des en-têtes ou des pieds de page

​Activités connexes

Choisissez un scénario

Workflow type

Documents semi-structurés et non structurés dans un même ensemble

Cellules de tableau avec des champs intégrés au texte de la cellule

Documents non structurés avec des tableaux, des titres, des en-têtes ou des pieds de page

Activités connexes