Passer au contenu principal
Quand utiliser la classification basée sur les entreprises La classification attribue chaque document à une classe donnée (voir la section Classification pour plus d’informations). Chaque entreprise émettrice de documents peut être traitée comme une classe distincte. En règle générale, les documents provenant d’une même entreprise se ressemblent et présentent les mêmes types de champs aux mêmes emplacements, ce qui facilite l’extraction des données. Les documents peuvent être classés à l’aide d’une base de données d’entreprises. Cette base de données doit être incluse dans le projet ABBYY FlexiCapture correspondant. Pour l’alimenter, vous pouvez utiliser la liste des entreprises stockée dans votre système ERP. ABBYY FlexiCapture synchronisera périodiquement la base de données d’entreprises avec les données les plus récentes de votre système ERP. Si vous ne disposez pas encore d’une base de données d’entreprises, vous pouvez la créer lors de la capture des données des documents, en ajoutant des entreprises à la base de données à l’étape de vérification des documents. Le programme recherchera les champs nécessaires uniquement sur la première et la dernière page de chaque document, car les informations sur l’entreprise se trouvent généralement sur ces pages. La classification basée sur les entreprises présente les avantages suivants par rapport aux autres méthodes de classification :
  • Il n’est pas nécessaire de collecter des images d’exemple de documents afin de créer un jeu d’entraînement, ce qui peut demander beaucoup de temps et d’efforts.
  • Les documents peuvent être classés parmi jusqu’à 100 000 classes, ce qui est bien plus que dans le cas de la classification basée sur les images et le texte.
La classification basée sur les entreprises peut être utilisée pour l’extraction de champs. Chaque entreprise aura sa propre variante de section, pour laquelle vous pouvez entraîner ou créer un FlexiLayout distinct.
Dans un projet, les éléments suivants peuvent être utilisés simultanément :
  • un classificateur de type de document au niveau du batch type ou du projet
  • un classificateur basé sur l’entreprise pour les documents du même type au niveau de Document Definition
Tout d’abord, le programme exécutera le classificateur de type de document pour déterminer la classe des documents en cours de traitement, puis il exécutera le classificateur basé sur l’entreprise pour les documents de la classe requise. Les variantes de document que le classificateur détecte à partir de la base de données d’entreprises identifient de manière unique les FlexiLayouts entraînés à utiliser pour l’entraînement. Cela signifie que l’entraînement des champs sera effectué indépendamment pour chaque entreprise. Configuration de la classification basée sur les entreprises La classification basée sur les entreprises s’effectue dans une Document Definition, c’est-à-dire pour des documents du même type. Les documents du même type possèdent des ensembles identiques de champs de données à extraire (voir la section Document Definitions pour plus d’informations). Pour classer des documents à l’aide d’une base de données d’entreprises :
  1. Cliquez avec le bouton droit sur une section de document et cliquez sur Properties ou ouvrez le Document Definition Editor et cliquez sur Document Definition → Document Definition Properties.
  2. Dans l’onglet Jeux de données, sélectionnez un jeu de données dans la liste et cliquez sur le bouton Configurer…
  3. Sélectionnez l’option Use database of companies. Par défaut, les colonnes requises et leurs types sont déjà spécifiés dans le jeu de données. (Un jeu de données est essentiellement un tableau contenant une liste de champs dans lesquels rechercher des entreprises ; les utilisateurs ne peuvent pas modifier ce tableau.)
  4. Pour connecter le jeu de données à une base de données compatible ODBC, vous devez effectuer une mise en correspondance de chaque champ du jeu de données avec son équivalent dans la base de données. Pour des instructions détaillées, voir Using vendor and business unit databases. Remarque : Le programme recherchera les entreprises dont les champs du jeu de données ont été mis en correspondance avec les champs correspondants de la base de données. Vous devez mettre en correspondance au moins un champ (par exemple, le nom de l’entreprise). Si un champ du jeu de données n’a pas de champ correspondant dans la base de données, spécifiez None lors de la mise en correspondance de ce champ. Remarque : Seuls certains champs sont utilisés pour rechercher les informations sur l’entreprise dans un document. Ces champs comportent une petite icône de cadenas à côté d’eux. Vous pouvez ajouter vos propres champs personnalisés lors de la configuration de la classification basée sur les entreprises, mais ces champs seront utilisés uniquement à des fins d’affichage.
  5. Pour rechercher des noms d’entreprise qui ont plus d’une variante, utilisez la normalisation, un processus qui ramène toutes les variantes de nom à un seul nom standard. Dans la boîte de dialogue Data Set Column Mapping, spécifiez le type de normalisation requis dans le champ Normalization (voir Normalization of values in data sets pour plus d’informations).
Parfois, le nom d’une entreprise peut être connu à l’avance — par exemple, à partir des paramètres de la source de données (c’est-à-dire le nom de l’opérateur de numérisation ou l’adresse e-mail de l’expéditeur). ABBYY FlexiCapture dispose d’une fonctionnalité qui permet de spécifier explicitement le fournisseur et la subdivision de l’entreprise avant la détection automatique. Pour spécifier explicitement les subdivisions, définissez la valeur du paramètre d’enregistrement de document fc_Predefined:PredefinedSectionVariantId sur l’identifiant (Id) de l’entrée appropriée dans le Dataset. Dans ce cas, la procédure automatique de détection d’entreprise sera quand même exécutée pour l’entrée donnée. Par conséquent, vous obtiendrez le nom de l’entreprise explicitement spécifié ainsi qu’une valeur de confiance indiquant dans quelle mesure ce nom correspond au nom extrait de l’image.
Cette méthode ne peut être utilisée que si une seule section d’un document possède plusieurs variantes.
Vérification et modification des résultats de la classification basée sur les entreprises Aucun entraînement n’est nécessaire pour classer des documents à l’aide d’une base de données d’entreprises, car le programme recherche les entreprises dans une liste prédéfinie de noms d’entreprise. Les erreurs de classification peuvent être corrigées par les opérateurs. Chaque fois que le programme attribue un document à la mauvaise entreprise, l’opérateur peut sélectionner le nom d’entreprise correct et l’enregistrer dans la base de données. Le programme utilisera ensuite ces informations correctes lors des classifications suivantes. Pour permettre à l’opérateur de corriger les erreurs de classification, vous devez afficher les résultats de classification dans le formulaire de données et ajouter un bouton qui lancera la recherche de champ. Pour ce faire, procédez comme suit :
  1. Créez un champ de service.
    • Dans le Document Definition Editor, cliquez sur Create Field → Service Field. Ensuite, dans les propriétés du champ, cliquez sur l’onglet Data Source et sélectionnez Flexible Section Variant ID dans la liste Source.
    • Créez autant de champs de service que nécessaire pour identifier l’entreprise (par ex. IBAN et ID TVA).
  2. Créez une règle de vérification de base de données :
    • Cliquez avec le bouton droit sur le groupe, cliquez sur Properties…, cliquez sur l’onglet Rules, puis sur le bouton New Rule…
    • Sélectionnez Database Check dans la liste et cliquez sur OK.
    • Dans le champ Data source, sélectionnez Jeux de données**.** Ensuite, dans le champ Jeux de données, sélectionnez le jeu de données requis.
    • Dans le champ Field where to save record ID, sélectionnez le champ de service que vous avez créé à l’étape 1.
    • Cliquez sur le bouton Add et indiquez les champs de document et de base de données requis. Si les valeurs des champs du document et de la base de données sont différentes, sélectionnez les options de recherche et de remplacement (Enter value from database → If values are different).
Désormais, tous les champs détectés par le classificateur pour la classification basée sur les entreprises auront une région.
  1. Ajoutez au formulaire de données un bouton qui ouvrira la boîte de dialogue Look up :
    • Cliquez avec le bouton droit à l’endroit du formulaire de données où vous souhaitez placer le bouton, puis cliquez sur Insert Button dans le menu contextuel.
    • Dans l’onglet Format, sélectionnez la règle de vérification de base de données que vous avez créée à l’étape 2.
    • Dans l’onglet Position, indiquez un nom pour le bouton.
Désormais, un opérateur de vérification pourra cliquer sur ce bouton dans le formulaire de données pour ouvrir la boîte de dialogue Look up. Amélioration de la classification basée sur les entreprises Spécification des mots-clés et des expressions régulières Vous pouvez spécifier des mots-clés et des expressions régulières pour améliorer la détection d’entreprise. Pour les mots-clés, utilisez des string qui identifient une entreprise de manière unique, par exemple des données provenant des champs ID TVA ou IBAN. Modification des enregistrements d’entreprise Une autre façon d’améliorer la détection d’entreprise consiste à modifier les enregistrements d’entreprise stockés par ABBYY FlexiCapture. Pour chaque entreprise, plusieurs variantes de nom et adresses peuvent être définies. Cela peut être fait par l’administrateur à l’aide du Document Definition editor ou par un opérateur de vérification. Veuillez noter que seuls les enregistrements d’entreprise stockés par ABBYY FlexiCapture seront modifiés. Même si la synchronisation avec une base de données externe (par ex. un système ERP) est activée, aucune modification apportée par l’administrateur ou les opérateurs de vérification ne sera transférée vers la base de données externe. Les opérateurs peuvent ajouter de nouveaux enregistrements et modifier les enregistrements existants si le Document Definition l’autorise. Par défaut, les opérateurs ne sont pas autorisés à ajouter ou à modifier des enregistrements. Pour autoriser les opérateurs à ajouter et à modifier des enregistrements :
  1. Dans le Document Definition editor, cliquez sur Document Definition → Document Definition Properties….
  2. Dans la boîte de dialogue qui s’ouvre, cliquez sur l’onglet Jeux de données.
  3. Sélectionnez un jeu de données dans la liste et cliquez sur le bouton Set Up…
  4. Sélectionnez les options Operators can add records et Operators can edit records.
Pour empêcher les opérateurs d’ajouter et de modifier des enregistrements, désactivez les deux options ci-dessus.