Traiter des documents non structurés dans Advanced Designer

Les compétences de traitement de documents non structurés ne peuvent être créées que dans Advanced Designer ; le Skill Designer dans le cloud ne prend pas en charge ces scénarios. Elles s’appuient sur quatre activités NLP principales pour identifier des entités, segmenter le texte et extraire des champs à partir de contenu libre, comme des contrats, des lettres et des e-mails :

Chacune de ces activités prend en charge un nombre limité de langues. Consultez la page de référence de l’activité pour voir la liste des langues.

Choisissez un scénario

Scénario	Quand l’utiliser	Activités clés
Entités nommées pré-entraînées (document entier)	Les entités peuvent apparaître n’importe où — configuration minimale requise	NER (+ Address Parsing)
Entités nommées pré-entraînées (paragraphes spécifiques)	L’entité se trouve toujours dans un paragraphe identifié	Segmentation + NER (ou Address Parsing)
Entités nommées personnalisées (Deep Learning for NLP)	Les modèles préentraînés ne peuvent pas lever l’ambiguïté, ou votre type d’entité n’est pas couvert	Segmentation + Deep Learning for NLP

Chaque scénario ci-dessous suit un schéma commun ; seules les activités ajoutées au flux de traitement diffèrent.

Workflow type

Créer une compétence de document

Ouvrez Advanced Designer et cliquez sur Create Document Skill sur la page d’accueil.

Téléverser des documents

Dans l’onglet Documents, téléversez les documents que vous utiliserez pour configurer la compétence.

Définir les champs et annoter

Dans l’onglet Fields, créez et configurez les champs que la compétence extraira. Annotez les documents dans la section Reference.

Ajouter et configurer les activités NLP

Dans l’onglet Activities, ajoutez les activités correspondant à votre scénario (décrit ci-dessous). Ouvrez chaque activité dans l’Éditeur d’activité pour la configurer et l’entraîner.

Tester et publier

Cliquez sur Test Skill Using Selected Documents pour évaluer les résultats. Lorsque les résultats sont satisfaisants, publiez la compétence.

Entités nommées pré-entraînées (document entier)

Utilisez ce scénario lorsque les entités dont vous avez besoin peuvent apparaître n’importe où dans le document — par exemple, des noms d’entreprise et des adresses dans une lettre. Ajoutez une activité Named Entities (NER) et associez chaque entité nommée à un champ. Si vous devez également décomposer une adresse en composants (rue, ville, état, pays, code postal), ajoutez une activité Address Parsing et associez les composants à des champs.

Flux de traitement des documents avec une activité Named Entities (NER)

Entités nommées pré-entraînées (paragraphes spécifiques)

Utilisez ce scénario lorsque l’entité se trouve toujours dans le même paragraphe — par exemple, un montant d’achat dans la clause de prix d’un contrat de vente. Isolez d’abord le paragraphe à l’aide d’une activité Segmentation, puis exécutez une activité Named Entities (NER) ou Address Parsing sur le champ segmenté. Vous pouvez également isoler le paragraphe à l’aide d’une activité Fast Learning ou NLP Extraction Rules au lieu de Segmentation, puis exécuter NER ou Address Parsing sur le résultat.

Les activités pré-entraînées sont faciles à configurer et ne nécessitent aucun entraînement, mais un réseau neuronal entraîné sur vos documents peut extraire les données avec une meilleure précision. Si vous disposez d’un grand ensemble de documents, essayez aussi le scénario entités nommées personnalisées ci-dessous et choisissez celui qui donne les meilleurs résultats.

Flux de traitement des documents où Segmentation alimente Named Entities (NER) et Address Parsing

Entités nommées personnalisées (Deep Learning for NLP)

Utilisez ce scénario lorsque les activités pré-entraînées ne parviennent pas à distinguer les entités dont vous avez besoin — par exemple, pour extraire le nom d’une seule organisation à partir d’un paragraphe qui mentionne les deux parties à un accord, ou pour extraire un type d’entité que le NER ne couvre pas (comme une adresse e-mail). Associez une activité Segmentation à une activité Deep Learning for NLP : Segmentation isole le paragraphe et Deep Learning extrait les champs ciblés.

L’entraînement d’une activité Deep Learning for NLP nécessite au moins 50 documents (150 recommandés). Pour obtenir les meilleurs résultats, essayez également l’activité pré-entraînée Named Entities (NER) et retenez celle qui offre la meilleure précision sur vos documents.

Flux de traitement des documents où Segmentation alimente une activité Deep Learning for NLP

​Choisissez un scénario

​Workflow type

​Entités nommées pré-entraînées (document entier)

​Entités nommées pré-entraînées (paragraphes spécifiques)

​Entités nommées personnalisées (Deep Learning for NLP)

​Activités associées

Choisissez un scénario

Workflow type

Entités nommées pré-entraînées (document entier)

Entités nommées pré-entraînées (paragraphes spécifiques)

Entités nommées personnalisées (Deep Learning for NLP)

Activités associées