Passer au contenu principal
Le niveau de détail et la qualité des enregistrements du catalogue de données influencent fortement la précision de la détection d’entreprise. Plus les enregistrements de l’émetteur et du destinataire d’un document correspondent au Text extrait de l’image du document, plus l’émetteur et le destinataire sont identifiés avec précision.

Bonnes pratiques pour une détection précise

Pour garantir des résultats de détection aussi précis que possible, assurez-vous que :
  • Des identifiants d’entreprise uniques sont renseignés. Le remplissage des colonnes à valeur unique (Identifiant fiscal, Identifiant fiscal national, IBAN) améliorera considérablement la probabilité d’une détection correcte, car ces valeurs sont propres à chaque entreprise.
  • Il n’y a pas de doublons d’entreprises. L’absence de doublons augmente la probabilité de détecter correctement l’entreprise.
  • Il n’y a pas d’enregistrements non pertinents. Des enregistrements obsolètes ou invalides dans le catalogue de données peuvent entraîner une détection incorrecte de l’entreprise en raison de similitudes fortuites entre différentes valeurs de champ.
  • Tous les champs sont renseignés pour chaque enregistrement d’entreprise. Fournissez autant d’informations exactes que possible sur les entreprises. Plus les informations sont précises, plus la probabilité de détecter correctement les entreprises est élevée.

Processus de détection d’entreprise

La détection d’entreprise comprend les étapes suivantes : Les valeurs des champs suivants sont considérées comme des identifiants uniques de l’entreprise :
  • Identifiant fiscal
  • Identifiant fiscal national
  • IBAN
Une activité Classify By Company recherche dans l’image du document les valeurs des champs listés ci‑dessus à l’aide de mots‑clés et d’expressions régulières. Si aucun n’est spécifié, cette étape est ignorée. Les valeurs d’Identifiant fiscal, d’Identifiant fiscal national et d’IBAN détectées sur une image de document sont utilisées pour interroger le catalogue de données. Ensuite, les valeurs d’Identifiant fiscal, d’Identifiant fiscal national et d’IBAN renvoyées par le catalogue de données sont mises en correspondance avec celles détectées sur l’image (correspondance exacte). Aux fins de la correspondance, les valeurs sont normalisées comme suit :
  • les lettres sont converties en majuscules
  • les espaces et les caractères suivants sont supprimés : ”.”, ”,”, ””, ”/”, ”****“
L’intégralité du texte détecté sur l’image du document est utilisée pour interroger le catalogue de données. Ensuite, les valeurs Nom, Rue, Code postal et Ville reçues du catalogue de données sont mises en correspondance avec les valeurs détectées sur l’image (une correspondance exacte est utilisée).
Remarque : Pour obtenir les meilleurs résultats de recherche, assurez‑vous que les colonnes correspondantes du catalogue de données sont renseignées. Les informations sur le nom de l’entreprise et l’adresse sont particulièrement importantes lorsque l’entreprise ne peut pas être identifiée à l’aide d’un identifiant fiscal, d’un identifiant fiscal national ou d’un IBAN.

Étape 3 : génération d’hypothèses

À partir des entreprises identifiées aux étapes 1 et 2, un ensemble d’hypothèses est généré. L’activité Classify By Company évalue ces hypothèses et sélectionne cinq enregistrements d’entreprise émettrice de document et cinq enregistrements d’entreprise destinataire de document correspondant le plus fiablement aux valeurs de champ détectées sur l’image du document. Ces enregistrements sont ensuite utilisés pour former 25 paires, chaque paire étant traitée comme une hypothèse distincte. Un modèle entraîné classe ensuite les hypothèses selon leur fiabilité et sélectionne la meilleure paire émetteur–destinataire.
Remarque : Même si le nombre d’entreprises destinataires de document est très faible (par exemple, s’il n’y en a qu’une), l’utilisation d’un catalogue de données Document Receiver Companies reste recommandée, car elle évite qu’une entreprise destinataire de document soit détectée à tort comme entreprise émettrice de document.
Si le catalogue de données Document Issuer Companies indique que l’ID de l’entreprise émettrice dépend de l’ID de l’entreprise destinataire, les hypothèses sont générées en fonction de cette corrélation (voir Recherche d’une paire d’entreprises).

Résultats de la détection des entreprises émettrice et destinataire du document

Suite à la détection des entreprises émettrice et destinataire dans un document, les identifiants suivants sont retournés :
  • L’identifiant de l’entreprise émettrice dans le catalogue de données Document Issuer Companies
  • L’identifiant de l’entreprise destinataire dans le catalogue de données Document Receiver Companies
Remarque : Si le catalogue de données Document Issuer Companies précise que l’ID de l’entreprise émettrice dépend de l’ID de l’entreprise destinataire (voir Recherche d’une paire d’entreprises), le résultat de la détection de l’émetteur du document contiendra l’ID de l’entreprise émettrice correspondant à l’ID de l’entreprise destinataire.