Quand utiliser les scripts d'extraction

Les résultats d’extraction peuvent parfois être améliorés en utilisant des scripts d’extraction en complément d’un modèle NLP. Vous pouvez avoir intérêt à utiliser des scripts d’extraction si :

Vous devez extraire des entités à partir d’un tableau.
Vous ne disposez pas de suffisamment de documents d’exemple pour entraîner votre modèle NLP.
La qualité de l’extraction n’est pas satisfaisante pour certains champs.

Les scripts d’extraction vous permettent de

Identifier des segments de texte correspondant
- à certaines expressions régulières
- à certains mots ou expressions issus de dictionnaires utilisateur, apparaissant sous n’importe quelle forme fléchie dans le texte
- à l’un des objets NER intégrés suivants :
Personnes (NerPerson)
- Organisations (NerOrg)
- Lieux (NerGeo)
- Adresses (NerAddress)
- Montants d’argent (NerMoney)
- Dates (NerDate)
Durée (NerDuration, disponible uniquement pour les textes en russe et en anglais)
- Numéros de compte (NERAccountNumber, disponible uniquement pour les textes en russe) Remarque : Les objets NerMoney, NerDate, NerDuration et NERAccountNumber sont utilisés uniquement dans les scripts d’extraction.
Exécuter des requêtes sur le texte et sur les segments de texte dans lesquels des mots et expressions de recherche peuvent apparaître sous n’importe quelle forme fléchie.
Enregistrer tous les segments de texte identifiés dans les champs du document.
Extraire des adresses et les composants d’adresse suivants à partir des documents :
- Code postal (NerZipCode)
- Pays (NerCountry)
- État (NerState)
- Ville (NerCity)
- Rue (NerStreet)

Pour créer un script d’extraction ou sélectionner les dictionnaires utilisateur à utiliser, procédez comme suit :

Ouvrez l’éditeur de Document Definition.
Sélectionnez une section du document, cliquez dessus avec le bouton droit, puis cliquez sur Properties… dans le menu contextuel.
Cliquez sur l’onglet NLP.
Sous Extraction Scripts, cliquez sur Create…
Dans la boîte de dialogue Extraction Script.
- Cliquez sur le bouton Load… pour charger un dictionnaire utilisateur, ou
- Cliquez sur le bouton Edit… pour ouvrir l’éditeur de script.

Les dictionnaires utilisateur doivent être encodés en UTF-8 avec BOM ou en ANSI.

Extraction des composants d’adresse d’un document

Pour extraire les composants d’une adresse, procédez comme suit :

Spécifiez la zone du document qui contient l’adresse.

Nous vous recommandons de limiter la zone de recherche à l’aide d’un champ FlexiLayout, puis d’utiliser cette zone comme source pour un script d’extraction. Pour plus d’informations, consultez Contraintes de recherche. Une adresse ne peut contenir qu’une seule occurrence de chacun des composants suivants : code postal, pays, État, ville et rue. Toutefois, un script d’extraction peut renvoyer plusieurs occurrences d’un composant. Plus vous définissez précisément la zone de recherche d’une adresse, moins d’occurrences seront renvoyées. 2. Appliquez le script d’extraction approprié. Vous pouvez rechercher des composants d’adresse dans l’ensemble du champ ou dans une partie du champ. Lorsque vous utilisez les méthodes ParseAddressInPosition( resultCollectionNamePrefix : string, startPos : int, endPos : int ) et ParseAddressInSpan( resultCollectionNamePrefix : string, span : IInterval ) pour analyser une adresse, chaque mot des composants détectés reçoit les attributs suivants lors de l’indexation, qui peuvent ensuite être utilisés dans des requêtes XML :

Le nom de la collection au format [resultCollectionNamePrefix]_[NerTypeOfComponent].
Le préfixe resultCollectionNamePrefix.
Le type de l’objet NER.

Voir ci-dessous un exemple de requête XML d’extraction d’adresse.

Actuellement, vous pouvez uniquement extraire des composants d’adresses allemandes et US.

​Extraction des composants d’adresse d’un document

Extraction des composants d’adresse d’un document