Comment fonctionne la normalisation lors de l’extraction de données dans le programme ?
Comment fonctionne la normalisation lors de l’extraction de données dans le programme ?
FCFORINVOICES propose deux types de normalisation pour les valeurs du jeu de données.
1. Texte
- Les espaces blancs (y compris les caractères de saut de ligne et de tabulation) et les symboles de séparation sont remplacés par des espaces ordinaires.
- Les points utilisés comme séparateurs (c’est-à-dire les points placés entre les mots) sont remplacés par des espaces, et les points dans les abréviations sont supprimés.
- Normalisation des symboles de conjonction (&, +, -, /, ~) :
- Les groupes de mots qui commencent par un mot d’une seule lettre et sont séparés par le même symbole de conjonction sont fusionnés en un seul mot ; par exemple, R & D devient R&D ;
- Dans tous les autres cas, les symboles de conjonction sont remplacés par des espaces ; par exemple, Procter&Gamble devient Procter Gamble.
- Les doubles espaces sont supprimés.
- Une liste prédéfinie est utilisée pour scinder les mots. Par exemple, CoKG est scindé en Co KG.
- Les espaces dans le texte reconnu sont utilisés pour le scinder en mots distincts.
- Une liste prédéfinie est utilisée pour remplacer les suffixes dans chaque mot. Par exemple, vous pouvez remplacer le suffixe strasse par le suffixe str.
- Les suites de mots sont automatiquement remplacées selon une liste prédéfinie. Par exemple, vous pouvez remplacer le mot Limited par l’abréviation Ltd.
En savoir plus...
En savoir plus...
Le fichier Normalization.xml peut être modifié après la création du jeu de données (séparément pour chaque jeu de données). Pour modifier les paramètres de normalisation standard, procédez comme suit :
- Téléchargez le fichier de paramètres à l’aide de la commande FCAdminTools DownloadNormalizationSettings.
- Apportez les modifications nécessaires.
- Téléversez le fichier de paramètres à l’aide de la commande FCAdminTools UpdateNormalizationSettings.
Des modifications importantes pourront être apportées à l’algorithme de normalisation dans les futures versions du programme.
2. Code alphanumérique
- Lorsque cette option est activée, les valeurs normalisées sont stockées dans le jeu de données.
- Lorsque cette option est désactivée, les valeurs d’origine de la base de données externe sont copiées dans le jeu de données.
