Utilisation du NLP pour traiter des documents non structurés

Le traitement automatique du langage naturel (NLP) est un sous-domaine de l’intelligence artificielle et de la linguistique informatique. Le NLP porte sur l’analyse et la synthèse informatiques des langues naturelles. L’une de ses applications pratiques consiste à extraire des données pertinentes à partir d’un texte. La manière dont un document est traité dépend de sa structure. Dans ce contexte, on peut distinguer trois types de documents : les documents structurés, semi-structurés et non structurés.

Les documents structurés contiennent un ensemble de champs de données bien définis dont la conception, le nombre et l’emplacement ne changent pas d’un document à l’autre. Les formulaires, les questionnaires et les demandes en sont des exemples.
Les documents semi-structurés contiennent un ensemble de champs de données dont la conception, le nombre et l’emplacement peuvent varier considérablement d’un document à l’autre. On les appelle aussi parfois « documents flexibles ». Les factures constituent un exemple de documents semi-structurés, car le nombre d’éléments et la mise en forme dépendent souvent de l’entreprise émettrice.
Les documents non structurés contiennent des informations qui ne sont structurées d’aucune manière. Ils ne contiennent pas non plus de champs de données explicites. Les contrats, les lettres et les commandes en sont des exemples.

Pour plus d’informations sur les types de documents, voir Types of documents processed using ABBYY FlexiCapture. La technologie NLP doit être utilisée pour traiter les documents non structurés. Par exemple, le NLP peut servir à extraire d’un contrat les types de données suivants : numéros de référence, noms des parties, dates importantes (date de signature, date d’effet, durée et date de résiliation), prix du contrat, frais, conditions de paiement, etc. Pour extraire des informations à partir de tableaux, de documents structurés et de documents semi-structurés, il convient d’utiliser d’autres méthodes (par exemple, FlexiLayouts). Extraction d’informations à partir de textes Les produits logiciels ABBYY utilisent des modèles NLP pour extraire des informations à partir de textes non structurés. Un modèle NLP indique au programme quelles entités doivent être extraites d’un document. Lorsque vous entraînez un modèle NLP sur des exemples de documents, le domaine de vos textes et l’algorithme d’extraction approprié sont déterminés afin que les informations dont vous avez besoin puissent être extraites plus efficacement. L’effort nécessaire pour créer un modèle NLP dépend de la variété de vos documents, du contexte dont dispose le programme, ainsi que de la complexité et de la quantité des informations à extraire. L’extraction de données à partir de textes non structurés nécessite une grande puissance de calcul. Les textes plus longs prennent plus de temps à analyser. Cependant, les informations nécessaires peuvent souvent se trouver sur une page précise ou dans un paragraphe précis d’un très long texte. Le processus qui consiste à repérer ces parties utiles du texte s’appelle la segmentation. Ce processus nécessite beaucoup moins de temps et de ressources de calcul que l’extraction d’entités. Il peut donc parfois être utile de segmenter un document avant d’en extraire des informations. Pour plus d’informations sur l’identification des segments utiles, voir Creating a segmentation NLP model. Pour traiter des documents non structurés à l’aide du NLP, suivez les étapes ci-dessous :

Installez le module NLP.
Créez une Document Definition.
Créez et entraînez un modèle NLP.
Vous pouvez également charger un modèle NLP existant dans votre Document Definition.