- Vous devez extraire des entités à partir d’un tableau.
- Vous ne disposez pas de suffisamment de documents d’exemple pour entraîner votre modèle NLP.
- La qualité de l’extraction n’est pas satisfaisante pour certains champs.
-
Identifier des segments de texte correspondant
- à certaines expressions régulières
- à certains mots ou expressions issus de dictionnaires utilisateur, apparaissant sous n’importe quelle forme fléchie dans le texte
- à l’un des objets NER intégrés suivants :
-
Personnes (NerPerson)
- Organisations (NerOrg)
- Lieux (NerGeo)
- Adresses (NerAddress)
- Montants d’argent (NerMoney)
- Dates (NerDate)
-
Durée (NerDuration, disponible uniquement pour les textes en russe et en anglais)
- Numéros de compte (NERAccountNumber, disponible uniquement pour les textes en russe) Remarque : Les objets NerMoney, NerDate, NerDuration et NERAccountNumber sont utilisés uniquement dans les scripts d’extraction.
- Exécuter des requêtes sur le texte et sur les segments de texte dans lesquels des mots et expressions de recherche peuvent apparaître sous n’importe quelle forme fléchie.
- Enregistrer tous les segments de texte identifiés dans les champs du document.
-
Extraire des adresses et les composants d’adresse suivants à partir des documents :
- Code postal (NerZipCode)
- Pays (NerCountry)
- État (NerState)
- Ville (NerCity)
- Rue (NerStreet)
- Ouvrez l’éditeur de Document Definition.
- Sélectionnez une section du document, cliquez dessus avec le bouton droit, puis cliquez sur Properties… dans le menu contextuel.
- Cliquez sur l’onglet NLP.
- Sous Extraction Scripts, cliquez sur Create…
- Dans la boîte de dialogue Extraction Script,
- Cliquez sur le bouton Load… pour charger un dictionnaire utilisateur, ou
- Cliquez sur le bouton Edit… pour ouvrir l’éditeur de script.
Les dictionnaires utilisateur doivent être encodés en UTF-8 avec BOM ou en ANSI.
Extraction des composants d’adresse d’un document
- Spécifiez la zone du document qui contient l’adresse.
- Le nom de la collection au format [resultCollectionNamePrefix]_[NerTypeOfComponent].
- Le préfixe resultCollectionNamePrefix.
- Le type de l’objet NER.
Actuellement, vous pouvez uniquement extraire des composants d’adresses allemandes et US.
