- Le mode de reconnaissance (Fast / Balanced / Normal / Accurate) détermine la vitesse de reconnaissance et la qualité du calque de texte ainsi obtenu. Pour spécifier un mode de reconnaissance, dans le Document Definition Editor, cliquez sur Document Definition → Document Definition Properties… → Recognition).
- Les langues de reconnaissance sont les langues utilisées pour la reconnaissance. Pour spécifier les langues de reconnaissance, dans le Document Definition Editor, cliquez sur Document Definition → Document Definition Properties… → Document Definition Settings, puis cliquez sur Modifier dans le groupe Pays et langues pour sélectionner les langues requises.
Dans FlexiCapture for Invoices, les langues de reconnaissance sont liées aux paramètres de pays. Lorsque vous ajoutez un pays de facturation au groupe Pays et langues, les langues correspondantes apparaissent automatiquement dans les paramètres de la définition de document. Les champs de facture sont extraits lors de la reconnaissance.
Pour détecter et extraire des champs d’une facture, le programme peut utiliser :
Utiliser un FlexiLayout
Unité commerciale et fournisseur
Unité commerciale et fournisseur
Les éléments suivants peuvent être utilisés pour déterminer le Fournisseur et l’unité commerciale :Le programme recherche des correspondances exactes dans l’image pour ces champs. Les expressions régulières peuvent également prendre en compte les erreurs de reconnaissance éventuelles. À cet effet, on utilise des expressions régulières étendues (voir Extended regular expressions).Les valeurs détectées sont normalisées comme suit :Une unité commerciale peut être détectée de manière peu fiable. Dans ce cas, le paramètre d’enregistrement du document fc_Predefined:InvoiceIsVendorSuspicious (fc_Predefined:InvoiceIsBusinessUnitSuspicious) sera défini à true.Les régions des champs suivants peuvent être identifiées grâce à la détection du fournisseur et de l’unité commerciale :Pour le fournisseur :La détection du fournisseur et de l’unité commerciale permet notamment de récupérer les informations sur leurs pays respectifs à partir du champ CountryCode des enregistrements trouvés dans le jeu de données. Ces informations sont ensuite utilisées pour sélectionner les mots-clés et les taux d’imposition, ainsi que pour capturer d’autres champs de la facture. Elles servent également de condition au déclenchement des règles de validation de la facture.
- Paramètres de définition de document : formats IBAN, VATID et NationalVATID, ainsi que les mots-clés correspondants ;
- Champs de l’enregistrement du jeu de données : IBAN, VATID, NationalVATID, Name, Street, City, ZIP.
Algorithme de détection automatique d’entreprise
Le niveau de détail et la qualité des informations renseignées dans les colonnes du jeu de données ont un impact significatif sur la qualité de la détection. Pour que les résultats de recherche soient aussi précis que possible, assurez-vous que :- Les identifiants uniques de l’entreprise sont renseignés Le fait de renseigner les colonnes contenant des valeurs uniques (VATID, NationalVATID, IBAN) améliore considérablement la probabilité d’une détection correcte, car ces valeurs sont propres à chaque entreprise.
- Il n’y a pas de doublons parmi les enregistrements d’entreprise L’absence de doublons améliorera les chances de détecter correctement l’entreprise. Pour plus d’informations sur la suppression des doublons, voir Suppression des doublons dans la base de données externe.
- Aucun enregistrement non pertinent La présence d’enregistrements obsolètes ou non valides dans le jeu de données peut entraîner une détection incorrecte de l’entreprise en raison de similitudes fortuites entre différentes valeurs des champs.
- Tous les champs sont renseignés pour chaque fiche d’entreprise Renseignez autant d’informations que possible sur les entreprises. Plus le jeu de données contient de champs renseignés, plus la probabilité de détecter correctement l’entreprise est élevée.
- Les colonnes à valeurs multiples servent à stocker une même information lorsqu’elle est représentée de différentes manières, et non des informations différentes Par exemple, si une même entreprise possède plusieurs adresses, il doit y avoir un enregistrement distinct pour chacune d’elles, même si tous les autres champs contiennent les mêmes informations. Pour plus d’informations, voir Préparation des bases de données de fournisseurs et d’unités commerciales.
- Recherche par identifiant unique
- ID TVA,
- NationalVATID,
- IBAN.
Des mots-clés et des formats d’identifiant correctement renseignés améliorent considérablement la qualité de la détection.
ABBYY FlexiCapture for Invoices propose des expressions régulières prédéfinies ; vous pouvez toutefois créer vos propres expressions régulières si nécessaire. Pour ce faire, accédez au groupe Pays et langues dans l’onglet Paramètres de définition de document, sélectionnez le pays approprié, puis cliquez sur Modifier….
- les lettres sont mises en majuscules,
- les espaces ainsi que les caractères suivants sont supprimés : ” . ”, ” , ”, ” — ”, ” / ”, ” **** ”.
- Recherche du nom de l’entreprise et de l’adresse
Pour obtenir les meilleurs résultats possibles lors de la recherche de noms et d’entreprises, assurez-vous que les colonnes correspondantes du Data set sont renseignées. Le nom de l’entreprise et les informations d’adresse sont particulièrement importants lorsque l’entreprise ne peut pas être identifiée à l’aide de VATID, NationalVATID ou IBAN.
- Génération d’hypothèses
Si seule la base de données des fournisseurs est connectée, la qualité de l’évaluation des paires fournisseur-BU peut être négativement affectée. Il est recommandé de connecter une base de données d’unités commerciales même si la détection des unités commerciales n’est pas nécessaire. Pour plus d’informations, voir Connexion des bases de données.
Si le nombre d’unités commerciales est très faible (par exemple 1), la connexion d’une telle base de données n’aura pas d’impact significatif sur l’évaluation. Toutefois, cette opération peut améliorer la qualité de détection dans les cas où une unité commerciale est incorrectement détectée comme un fournisseur.
Filtrage des hypothèses
Les hypothèses sont réparties comme suit en fonction de la fiabilité de la correspondance (enregistrement du jeu de données et valeur du champ d’image du document) :- correspondant de manière fiable à l’image du document ;
- correspondant de manière peu fiable à l’image du document.
- true — le filtrage est activé et l’hypothèse finale sera sélectionnée exclusivement parmi les hypothèses fiables (valeur par défaut) ;
- false — le filtrage est désactivé et l’hypothèse finale sera sélectionnée parmi toutes les hypothèses, sans tenir compte de leur fiabilité ;
- Lors de la détection des fournisseurs, aucune hypothèse non fiable relative aux fournisseurs ne sera prise en compte. S’il n’y a aucune hypothèse fiable, aucun fournisseur ne sera détecté.
- Lors de la détection des unités commerciales :
- si au moins une hypothèse fiable a été trouvée, aucune hypothèse peu fiable ne sera prise en compte ;
- si l’ensemble des hypothèses obtenues aux étapes 1 à 3 ne contient aucune hypothèse fiable, la valeur de l’indicateur sera ignorée. L’hypothèse finale sera alors sélectionnée parmi les hypothèses peu fiables.
- Il y a généralement nettement moins d’enregistrements d’unités commerciales de l’entreprise que d’enregistrements de fournisseurs. De plus, ils changent beaucoup moins fréquemment, ce qui les rend plus faciles à maintenir à jour. Par conséquent, la détection d’une hypothèse fiable augmente la probabilité que l’hypothèse finale soit correcte. Cependant, la détection d’une unité commerciale reste importante même si aucune hypothèse fiable n’a été trouvée, puisque le facteur le plus important pour la fiabilité du résultat de détection est l’évaluation de la fiabilité des paires fournisseur-BU.
- Il y a généralement beaucoup plus d’enregistrements de fournisseur, et le jeu de données contient davantage de colonnes, car les fournisseurs indiquent plus d’informations sur leur propre entreprise dans leurs factures (contrairement à l’unité commerciale). Les enregistrements peuvent également contenir des informations obsolètes, si bien que la fiabilité du filtrage des hypothèses dépendra à la fois de la qualité du jeu de données et du type de scénario de vérification.
Pour améliorer la probabilité de détecter des hypothèses fiables, maintenez les jeux de données à jour et incluez autant d’informations que possible sur les fournisseurs et les unités commerciales.
Résultats de la détection du fournisseur et de l’unité commerciale
Les principaux résultats de la détection du fournisseur et de l’unité commerciale sur la facture sont :- l’identifiant de l’enregistrement du fournisseur dans le jeu de données Vendors
- l’identifiant de l’enregistrement d’unité commerciale dans le jeu de données BusinessUnits
Si le jeu de données Vendors indique que l’Id dépend du BusinessUnitId (voir Jeu de données Vendors), le résultat de la détection du fournisseur contiendra l’Id correspondant au BusinessUnitId.
- Name
- ID TVA
- NationalVatID
- IBAN
- Street
- Code postal
- Ville
- Name
- ID TVA
- Rue
- Code postal
- City
Si les valeurs des champs IBAN et VATID sont absentes du jeu de données Vendors, les mots-clés et le format peuvent être utilisés pour détecter les valeurs appropriées, de la même façon que les coordonnées bancaires sont détectées (si le fournisseur correspondant a été trouvé).
La recherche de toute région de champ peut être modifiée par entraînement ou en appliquant un FlexiLayout supplémentaire (voir Capture de champs de facture supplémentaires). Cela n’aura aucun effet sur la détection du fournisseur et de l’unité commerciale, mais peut affecter l’emplacement des régions des champs dans ces groupes de champs après la mise en correspondance de la Document Definition avec les factures.
Comment modifier la méthode de détection du fournisseur ou de l’unité commerciale par le programme
Plus un enregistrement de fournisseur ou d’unité commerciale dans le jeu de données correspond au texte extrait d’une image de facture, plus le programme identifie avec précision le fournisseur ou l’unité commerciale.Vous devez d’abord identifier les données de la base de données externe qui correspondent aux colonnes du jeu de données utilisées pour trouver la société sur une facture. La base de données externe et le jeu de données doivent être correctement connectés (voir Utilisation des bases de données de fournisseurs et d’unités commerciales).Si une même entreprise figure à la fois dans la liste des Vendors et dans la liste des unités commerciales, vous devez indiquer le même VATID pour les enregistrements correspondants dans les deux jeux de données (même en l’absence de VATID sur les factures). Cela évitera au programme de détecter incorrectement le fournisseur et l’unité commerciale.Pour compenser les éventuelles variations des valeurs des champs sur les images, utilisez :- normalisation des colonnes des jeux de données (voir Normalisation des valeurs dans les jeux de données),
- colonnes de jeu de données à valeurs multiples (voir Colonnes à valeurs multiples dans un jeu de données).
Utilisation de valeurs prédéfinies de fournisseur et d’unité commerciale avec les valeurs extraites
Groupe de champs En-tête de facture
Groupe de champs En-tête de facture
InvoiceNumber, InvoiceDate
L’en-tête d’une facture comprend notamment les champs InvoiceNumber et InvoiceDate.Ces champs sont détectés à l’aide de mots-clés spécifiés dans les propriétés de langue de la Document Definition. Le fournisseur et l’unité commerciale sont détectés en premier, ce qui fournit des informations sur leurs pays respectifs. Les pays déterminent ensuite les langues (les langues correspondant à un pays sont spécifiées dans la Document Definition). Le jeu de mots-clés utilisé pour trouver les champs est défini à partir des pays du fournisseur et de l’unité commerciale.Vous pouvez modifier la manière dont le programme recherche les régions des champs en modifiant les mots-clés (voir Mots-clés) et en utilisant l’entraînement (voir Entraînement).Comment le programme détermine-t-il qu’un document est une facture ?
FC détermine si un document est une facture lors de l’application du FlexiLayout.Les conditions ci-dessous indiquent qu’un document est une facture. Elles n’ont pas toutes besoin d’être remplies, mais chacune a un certain poids.- Les champs InvoiceNumber et InvoiceDate ont été détectés.
- Des mots-clés de l’élément localisé InvoiceIdentifiers ont été détectés (voir Mots-clés).
- Un fournisseur ou une unité commerciale a été détecté sur le document.
Groupe de champs Montants
Groupe de champs Montants
FCFORINVOICES extrait les champs suivants d’une facture :
Les informations de la Document Definition sont utilisées pour repérer les montants et les taux d’imposition :
Le montant total de la facture (Total) et la devise de la facture (Currency) | Oui | Oui |
Taxes :
| Oui | Oui |
| Non | Oui |
Taxe supplémentaire (AdditionalCosts) | Oui | Oui |
- Les taux de taxes applicables dans le pays du fournisseur (vous pouvez les spécifier dans l’onglet Tax Rates des propriétés du pays ; voir Country and language settings)
- Les mots-clés des taux d’imposition (vous pouvez les spécifier dans l’onglet Keywords des propriétés de la langue. Voir aussi Keywords).
- AmountTotalHighConfidenceLabels : mots-clés qui apparaissent uniquement à proximité du champ Total, comme “Pay this amount.”
- AmountTotalLowConfidenceLabels : mots-clés qui peuvent apparaître à proximité du champ Total, mais aussi près d’autres champs. Par exemple, le mot-clé “Total” peut apparaître près du champ Total, mais aussi près d’un champ contenant le poids total de tous les articles d’une facture.
- Des nombres qui apparaissent deux ou trois fois sur la même ligne ou dans la même colonne de l’image. Ces nombres peuvent correspondre au Total sur des factures pour lesquelles aucune taxe n’est spécifiée.
- Des nombres qui sont la somme des nombres situés au-dessus d’eux dans la même colonne.
- Les plus grands nombres (en valeur absolue) situés à la fin du document.
Groupe de champs Commande d’achat
Groupe de champs Commande d’achat
FCFORINVOICES peut extraire tous les numéros de commande d’achat et les montants correspondants de la facture.Cette fonctionnalité est désactivée par défaut (voir mise en correspondance des commandes d’achat).Pour extraire les numéros de commande d’achat, vous aurez besoin d’un jeu de données contenant une liste des numéros de commande d’achat possibles et de leurs montants (voir jeu de données PurchaseOrders).Le champ Commande d’achat peut être extrait à l’aide de :Pour en savoir plus sur les fichiers de configuration XML, voir Modification des paramètres de traitement des factures dans des fichiers XML.
- une expression régulière ;
- un jeu de données contenant des numéros de commande d’achat possibles (voir jeu de données PurchaseOrders).
- Utilisez la colonne VendorId du jeu de données. Dans ce cas, le programme utilisera uniquement les numéros de commande d’achat du fournisseur de la facture.
- Filtrez les commandes d’achat pour lesquelles une facture a déjà été reçue et ajoutez uniquement au jeu de données les numéros des commandes d’achat pour lesquelles aucune facture n’a encore été reçue.
Groupe de champs Lignes d’articles
Groupe de champs Lignes d’articles
FCFORINVOICES peut extraire les lignes d’articles des factures à partir des images.L’extraction des lignes d’articles des factures est désactivée par défaut (voir Champs supplémentaires).Pour obtenir la liste des champs que le programme extrait automatiquement, voir Champs capturés.FCFORINVOICES recherche d’abord un tableau dans l’image. Pendant cette recherche, il utilise les mots-clés des en-têtes de colonnes spécifiés pour chaque langue dans les propriétés de la Document Definition. Les mots-clés des colonnes des lignes d’articles sont également utilisés pour classer les éléments, c’est-à-dire pour déterminer le type de chaque colonne de ligne d’article.Ensuite, le programme utilise les informations sur les colonnes détectées et les expressions mathématiques pour trouver les lignes d’articles dans le tableau de la facture.Enfin, le programme recherche les champs dans les lignes d’articles à partir des colonnes.L’entraînement peut être utilisé pour améliorer la qualité de l’extraction automatique des lignes d’articles.
Utilisation des réseaux neuronaux
L’un des principaux avantages des réseaux neuronaux est leur capacité d’auto-apprentissage : ils peuvent détecter des dépendances complexes entre les données d’entrée et en tirer des généralisations utiles. Le programme comprend deux réseaux neuronaux qui peuvent être utilisés pour extraire les champs suivants :- InvoiceNumber
- InvoiceDate
- Total
- Fournisseur \ Nom
- Fournisseur \ Adresse
- Unité commerciale \ Nom
- Unité commerciale \ Adresse
- Commandes d’achat \ Numéro de commande
- LineItems:
- OrderNumber
- OrderDate
- Position
- ArticleNumber
- Description
- Quantité
- Unité de mesure
- Prix unitaire
- Prix total net
- VATPercentage
Désactivation des réseaux neuronaux
- Ouvrez le Document Definition Editor.
- Cliquez sur Propriétés de Document Definition… → Paramètres de Document Definition → Champs et fonctionnalités supplémentaires.
- Désactivez l’option Extraction approfondie des lignes d’articles de la facture.
- Ouvrez le Document Definition Editor.
- Cliquez sur Propriétés de Document Definition… → Paramètres de Document Definition → Champs et fonctionnalités supplémentaires.
- Désactivez l’option Extraction approfondie des champs de l’en-tête de facture.
Combinaison des résultats de détection des champs
La manière dont le programme combine les résultats de détection des champs ou sélectionne le meilleur résultat dépend du champ concerné. En règle générale, la priorité est donnée aux résultats obtenus par le réseau neuronal correspondant. Les exceptions à cette règle sont les recherches basées sur des jeux de données et les recherches utilisant des expressions régulières créées pour des documents client spécifiques. Groupe de champs de l’en-tête de facture Les résultats obtenus par le réseau neuronal auront toujours la priorité pour les champs suivants :- Numéro de facture
- Date de la facture
- Total
- Nom
- VATID (ABN)
- Adresse
