Passer au contenu principal
L’activité Entités nommées (NER) est conçue pour utiliser le traitement du langage naturel (NLP) afin d’extraire des entités nommées à partir de documents non structurés, tels que des contrats, des lettres, des commandes, des communiqués de presse et d’autres documents sans structure spécifique pouvant être décrite à l’aide de règles. Pour traiter ces documents à l’aide d’une activité Entités nommées (NER), vous devez faire correspondre les entités nommées aux champs de la compétence dans lesquels les valeurs des entités seront extraites. Cette activité analysera ensuite le document et extraira les entités nommées dans leurs champs correspondants. Vous pouvez également configurer l’extraction d’entités nommées pour les champs extraits par d’autres activités. Supposons que vous sachiez que les noms d’organisation et les adresses à extraire se trouvent dans le premier paragraphe de chaque contrat. Vous pouvez extraire le premier paragraphe à l’aide d’une activité Segmentation, puis extraire les noms d’entreprise et les adresses à partir de ce paragraphe à l’aide d’une activité Entités nommées (NER). Cette approche est plus fiable que d’extraire des entités nommées à partir de l’ensemble du document, car vous pouvez contrôler précisément la zone d’où ces entités sont extraites.
Remarque : L’activité prend uniquement en charge les champs de type Text dont le type de données est défini sur Text, Date ou Money.

Configuration d’une activité d’entités nommées (NER)

Pour configurer une activité d’entités nommées (NER) :
  1. Dans l’onglet Activities, ajoutez une activité d’entités nommées (NER) au flux de traitement des documents.
  2. Dans le volet Activity Properties, utilisez la liste déroulante Source pour sélectionner la source que l’activité utilisera pour extraire les entités nommées — soit l’ensemble du document, soit un champ unique extrait par une autre activité.
  3. Dans Output field, sélectionnez les champs dans lesquels les entités nommées seront écrites.
Remarque : Les champs de sortie doivent se trouver soit au même niveau d’imbrication que le champ source, soit à un niveau inférieur.
  1. Cliquez sur Create Mapping. Dans la boîte de dialogue qui s’ouvre, sélectionnez, dans la liste Entity to extract, les entités nommées à extraire pour chaque champ. Cliquez sur Save. Vous pouvez modifier la correspondance à tout moment en cliquant sur Edit Mapping.
  2. Cliquez sur Test Skill pour tester votre compétence et analyser les résultats d’extraction d’entités nommées dans l’onglet Results.

Entités nommées prises en charge

Nom de l’entitéDescriptionExempleTypes de données pris en chargeLangues prises en charge
PersonNoms de personnesJohn Doe, Jane SmithTextEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
LocationNoms de lieuxAnytown, Corporate PlaceTextEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
OrganizationNoms d’organisationsABBYY, Acme Corp.TextEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
AddressAdresses123 Main Str., Anytown AB 45678, 950 Acacia Avenue 50, Anytown, AB 12345, USATextEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
MoneyMontants d’argent$2670.00, 199 dollars 99 centsText, Amount of moneyEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
DateDatesNovember 14, 2009, 11/14/2009Text, DateEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch
DurationDuréesTwelve (12) months, 4 daysTextEnglish, Russian, German, French, Spanish, Japanese, Italian, Portuguese (Standard), Dutch