Passer au contenu principal
L’activité Règles d’extraction fonctionne avec le texte reconnu de documents non structurés. Les règles utilisent des entités nommées, des mots-clés et des expressions régulières pour définir les conditions des champs à extraire.

Cas d’usage

Ajoutez cette activité à votre flux de traitement de documents dans les cas suivants :
  • Si vous avez extrait plusieurs objets du même type à l’aide d’une activité Named Entities (NER) et que vous devez maintenant trouver une occurrence particulière. Par exemple, plusieurs entités Organization peuvent être extraites d’un contrat de bail. Vous pouvez utiliser une activité Extraction Rules pour déterminer le bailleur et le locataire.
  • Si vous n’avez pas assez de documents pour utiliser une activité Deep Learning. Dans ce cas, vous pouvez créer une activité Extraction Rules et extraire les objets requis à l’aide de mots-clés, d’expressions régulières ou d’autres règles métier.
  • Si vous devez extraire un objet d’un type non standard. Par exemple, vous pouvez vouloir extraire une combinaison de date et d’heure plutôt que la seule date.
  • Si vous devez regrouper plusieurs champs liés au même objet. Par exemple, vous pouvez utiliser une activité Extraction Rules pour regrouper le nom, la date de naissance et l’adresse de chaque personne. Une activité Named Entities (NER) peut également extraire les noms et les adresses, mais elle ne vous permettra pas d’associer les adresses à leurs noms respectifs.

Fonctionnement

Cette activité utilise le traitement du langage naturel (NLP) pour identifier des éléments de recherche dans le texte. Les éléments de recherche comprennent des entités nommées ainsi que des mots ou expressions correspondant à des mots-clés ou à des expressions régulières. Associés aux champs extraits par d’autres activités, les éléments de recherche peuvent ensuite servir de blocs de base pour des règles d’extraction, qui précisent la position des champs par rapport à d’autres textes. Les règles d’extraction peuvent être facilement créées via l’interface utilisateur, puis affinées à l’aide d’un langage dédié. Les éléments de recherche peuvent être associés à des champs, afin que le texte reconnu dans la zone d’un élément de recherche soit utilisé pour renseigner le champ qui lui est associé. Pour plus d’informations, voir Configuration d’une activité Extraction Rules.