Passer au contenu principal
Vantage peut normaliser les données extraites afin d’assurer l’uniformité de leur représentation. Les types de données suivants peuvent être normalisés : Pour normaliser les données extraites d’un champ, vous devez spécifier son type de données. Pour ce faire :
  1. Dans le formulaire de données, cliquez sur le bouton à côté du champ.
  2. Dans la boîte de dialogue Field options, sélectionnez le type de données souhaité dans la liste déroulante.
Pour que la normalisation fonctionne, veillez à sélectionner les propriétés supplémentaires appropriées pour chaque champ, afin que toutes les données à normaliser soient extraites. Vous pouvez modifier les propriétés supplémentaires d’un champ en cliquant sur le bouton Advanced dans la boîte de dialogue Field options. Pour plus d’informations, voir Propriétés supplémentaires du champ de texte. Pour afficher une valeur normalisée, survolez son champ : Exemple de normalisation

Normalisation des dates

Les dates extraites peuvent comporter une date et une heure dans n’importe quel format. Les caractères suivants peuvent être utilisés comme séparateurs : le point (.), l’espace ( ), le tiret (-), la barre oblique inverse (), et la barre oblique (/). Lors de la normalisation des dates, Vantage convertit les dates extraites au format standardisé ISO 8601 :
  • YYYY-MM-DD pour les dates : année suivie du mois puis du jour.
  • HH:MM:SS pour l’heure : heures suivies des minutes puis des secondes.

Exemples de dates normalisées

Données extraitesDonnées normalisées
15.06.20232023-06-15
2023/06/15 22:172023-06-15 22:17:00
06-15-20232023-06-15
02/11/20222022-02-11 ou 2022-11-02
Remarque : Si les formats de date Jour-Mois-Année et Mois-Jour-Année sont tous deux activés, Vantage peut ne pas être en mesure de normaliser la date sans ambiguïté. Dans ce cas, un choix entre deux dates possibles vous sera proposé.
Saturday, December 3rd, 20222022-12-03
The second of May 20222022-05-02
Remarque : Les dates rédigées en toutes lettres ne seront normalisées que si elles sont en anglais et si l’anglais est sélectionné dans les paramètres de la Skill.
Vantage peut ne pas être en mesure de normaliser des dates pour l’une des raisons suivantes :
  • La date est incomplète, par exemple : « 4:39 am » (les valeurs d’heure ne sont normalisées que si elles sont extraites avec leur date).
  • Des adverbes de temps sont utilisés au lieu de dates exactes, par exemple : « le mois dernier », « il y a quelques jours ».
  • Des mots ou caractères supplémentaires apparaissent à côté de la date ou de l’heure, par exemple : « 2016/06/15 22 ».
  • Des formats de date peu courants sont utilisés, par exemple : « 14 Jumada Al-Awwal 1445 ».

Normalisation des nombres

Les nombres extraits peuvent contenir des chiffres, des séparateurs décimaux et le signe de pourcentage (%). Les caractères suivants peuvent servir de séparateurs décimaux : le point (.), la virgule (,), le trait d’union (-), le signe égal (=) et l’espace ( ). Les caractères suivants peuvent servir de séparateurs des milliers (millions, etc.) : le point (.), la virgule (,), l’apostrophe (’) et l’espace ( ). Les nombres utilisant les systèmes de groupement des chiffres occidental ou indien peuvent être normalisés. Le système occidental regroupe les chiffres par groupes de trois, de droite à gauche, en utilisant des virgules pour séparer les milliers et les millions. Le système indien utilise également des virgules : il regroupe d’abord les trois premiers chiffres à partir de la droite, puis regroupe les chiffres par deux pour les dizaines de milliers, les lakhs, les dizaines de lakhs, les crores, les dizaines de crores, etc. Lors de la normalisation des nombres dans l’un ou l’autre système, Vantage analyse les strings numériques extraites et les convertit en un format standardisé, comme indiqué dans le tableau ci-dessous, avec le point (.) utilisé pour séparer les parties entière et fractionnaire.

Exemples de nombres normalisés

Données extraitesDonnées normalisées
12,345,67812345678
-12,345.678-12345.678
12.000012
1.0001000 ou 1
Conseil : Si la partie après le point comporte trois chiffres, vous devrez choisir l’une des deux valeurs possibles, selon que le point sépare les milliers ou la partie entière de la partie décimale.
12,345.678 %12345.678
1,23,45,67,890 (système de numérotation indien)1234567890
twenty-first21
Remarque : Les nombres écrits en toutes lettres ne seront normalisés que s’ils sont en anglais et si l’anglais est sélectionné dans les paramètres de la compétence. Vantage peut ne pas être en mesure de normaliser les nombres pour l’une des raisons suivantes :
  • Des mots ou des caractères supplémentaires apparaissent à côté du nombre, par exemple : “EURO12,345.678” ou “5 kilos”.
  • Le nombre de chiffres entre les parties entière et décimale ou entre les parties décimale et milliers est irrégulier, par exemple : “123,456,7890”. Dans ce cas, la partie décimale doit contenir au plus 3 chiffres. En outre, si “123,456,789” est extrait, la valeur normalisée sera “123456789” et si “123,456,78” est extrait, la valeur normalisée sera “123456.78”.
  • Des représentations numériques irrégulières sont utilisées.

Normalisation des montants d’argent

Un montant d’argent peut inclure à la fois une valeur numérique et un symbole de devise. Le symbole de devise peut être placé avant ou après le montant. Lors de la normalisation des montants d’argent, Vantage analyse les chaînes monétaires extraites (symboles de devise, décimales, séparateurs de chiffres, etc.) et les convertit dans un format de devise standardisé, assurant l’uniformité des symboles de devise et des séparateurs décimaux : le symbole de devise apparaît en premier, suivi du montant normalisé en tant que nombre. Vantage peut identifier les devises de différents pays, notées de diverses manières (par exemple, l’euro peut être représenté par E, €, ou euros). La valeur normalisée de la devise correspondra exactement au symbole ou au nom figurant dans le texte extrait.

Exemples de montants d’argent normalisés

Données extraitesDonnées normalisées
12,345.678 EUROEURO 12345.678
12,345.678 ¥¥ 12345.678
13,87EE 13.87
13 euro 87euro 13.87
fifty dollarsdollars 50
₹1,23,455₹ 123455
Remarque : Les montants écrits en toutes lettres ne seront normalisés que s’ils sont en anglais et si l’anglais est sélectionné dans les paramètres de la compétence.
Vantage peut ne pas être en mesure de normaliser des montants d’argent si des mots non valides sont utilisés pour désigner une devise, par exemple : « 12 ttt ».

Voir également

Champ Text