Fonctionnement de la détection d’entreprise

Le niveau de détail et la qualité des enregistrements du catalogue de données influencent fortement la précision de la détection d’entreprise. Plus les enregistrements relatifs à l’émetteur et au destinataire d’un document correspondent au texte extrait de l’image du document, plus l’émetteur et le destinataire sont identifiés avec exactitude.

Bonnes pratiques pour une détection précise

Pour garantir des résultats de détection aussi précis que possible, assurez-vous que :

Des identifiants d’entreprise uniques sont renseignés. Le remplissage des colonnes à valeur unique (Identifiant fiscal, Identifiant fiscal national, IBAN) améliorera considérablement la probabilité d’une détection correcte, car ces valeurs sont propres à chaque entreprise.
Il n’y a pas de doublons d’entreprises. L’absence de doublons augmente la probabilité de détecter correctement l’entreprise.
Il n’y a pas d’enregistrements non pertinents. Des enregistrements obsolètes ou invalides dans le catalogue de données peuvent entraîner une détection incorrecte de l’entreprise en raison de similitudes fortuites entre différentes valeurs de champ.
Tous les champs sont renseignés pour chaque enregistrement d’entreprise. Fournissez autant d’informations exactes que possible sur les entreprises. Plus les informations sont précises, plus la probabilité de détecter correctement les entreprises est élevée.

Processus de détection d’entreprise

La détection d’entreprise comprend les étapes suivantes :

Étape 1 : Recherche d’identifiant unique

Les valeurs des champs suivants sont considérées comme des identifiants uniques de l’entreprise :

Identifiant fiscal
Identifiant fiscal national
IBAN

Une activité Classify By Company recherche dans l’image du document les valeurs des champs listés ci‑dessus à l’aide de mots-clés et d’expressions régulières. Si aucun n’est spécifié, cette étape est ignorée. Les valeurs d’Identifiant fiscal, d’Identifiant fiscal national et d’IBAN détectées sur une image de document sont utilisées pour interroger le catalogue de données. Ensuite, les valeurs d’Identifiant fiscal, d’Identifiant fiscal national et d’IBAN renvoyées par le catalogue de données sont mises en correspondance avec celles détectées sur l’image (correspondance exacte). Aux fins de la correspondance, les valeurs sont normalisées comme suit :

les lettres sont converties en majuscules
les espaces et les caractères suivants sont supprimés : ”.”, ”,”, ”—”, ”/”, ”****“

Étape 2 : recherche du nom de l’entreprise et de l’adresse

L’intégralité du texte détecté sur l’image du document est utilisée pour interroger le catalogue de données. Ensuite, les valeurs Nom, Rue, Code postal et Ville reçues du catalogue de données sont mises en correspondance avec les valeurs détectées sur l’image (une correspondance exacte est utilisée).

Pour obtenir les meilleurs résultats de recherche, assurez‑vous que les colonnes correspondantes du catalogue de données sont renseignées. Les informations sur le nom de l’entreprise et l’adresse sont particulièrement importantes lorsque l’entreprise ne peut pas être identifiée à l’aide d’un identifiant fiscal, d’un identifiant fiscal national ou d’un IBAN.

Étape 3 : générer des hypothèses

À partir des entreprises identifiées aux étapes 1 et 2, un ensemble d’hypothèses est généré. L’activité Classify By Company évalue ces hypothèses et sélectionne cinq enregistrements d’entreprise émettrice et cinq enregistrements d’entreprise destinataire correspondant le plus fiablement aux valeurs de champ détectées sur l’image du document. Ces enregistrements sont ensuite utilisés pour former 25 paires, chaque paire étant traitée comme une hypothèse distincte. Un modèle entraîné classe ensuite les hypothèses selon leur fiabilité et sélectionne la meilleure paire émetteur–destinataire.

Même si le nombre d’entreprises destinataires est très faible (par exemple, s’il n’y en a qu’une), l’utilisation d’un catalogue de données Document Receiver Companies reste recommandée, car elle évite qu’une entreprise destinataire soit détectée à tort comme entreprise émettrice.

Si le catalogue de données Document Issuer Companies indique que l’ID de l’entreprise émettrice dépend de l’ID de l’entreprise destinataire, les hypothèses sont générées en fonction de cette corrélation (voir Recherche d’une paire d’entreprises).

Résultats de la détection des entreprises émettrice et destinataire du document

À la suite de la détection des entreprises émettrice et destinataire sur un document, les identifiants suivants sont renvoyés :

L’identifiant de l’entreprise émettrice dans le catalogue de données Document Issuer Companies
L’identifiant de l’entreprise destinataire dans le catalogue de données Document Receiver Companies

Si le catalogue de données Document Issuer Companies précise que l’ID de l’entreprise émettrice dépend de l’ID de l’entreprise destinataire, le résultat de la détection de l’émetteur du document contiendra l’ID de l’entreprise émettrice correspondant à l’ID de l’entreprise destinataire. Pour plus d’informations, voir Recherche d’une paire d’entreprises.

​Bonnes pratiques pour une détection précise

​Processus de détection d’entreprise

​Étape 1 : Recherche d’identifiant unique

​Étape 2 : recherche du nom de l’entreprise et de l’adresse

​Étape 3 : générer des hypothèses

​Résultats de la détection des entreprises émettrice et destinataire du document

Bonnes pratiques pour une détection précise

Processus de détection d’entreprise

Étape 1 : Recherche d’identifiant unique

Étape 2 : recherche du nom de l’entreprise et de l’adresse

Étape 3 : générer des hypothèses

Résultats de la détection des entreprises émettrice et destinataire du document