Comprendre vos résultats - ABBYY Documentation

Après le traitement d’un document — que ce soit via l’API ou l’interface web — Vantage renvoie des données structurées contenant les valeurs des champs extraits, les scores de confiance et les indicateurs de vérification. Cette page explique comment interpréter cette sortie.

Vue d’ensemble de la structure de Result

Chaque résultat suit la même hiérarchie :

ExtractedDataTransaction
├── SkillName, SkillId
├── Documents[]
│   ├── ExtractedData
│   │   ├── DocumentDefinition    ← schéma de champ (ce qui peut être extrait)
│   │   └── RootObject            ← valeurs de champ (ce qui a été extrait)
│   │       └── Fields[]
│   │           ├── Name
│   │           └── List[]
│   │               ├── Value
│   │               ├── Annotation (Confidence, RawValue, ...)
│   │               ├── NeedVerification
│   │               └── isVerified
│   └── ClassificationResult      ← type de document (si la classification a été appliquée)
└── SourceFiles[]

Dans la plupart des cas d’utilisation, il vous suffit d’accéder à Documents[0].ExtractedData.RootObject.Fields pour obtenir les valeurs extraites.

Lecture des champs extraits

Voici un exemple simplifié issu d’une facture traitée avec la compétence ABBYY Invoice :

{
  "SkillName": "ABBYY Invoice",
  "SkillId": "a1b2c3d4-...",
  "Documents": [
    {
      "ExtractedData": {
        "RootObject": {
          "Fields": [
            {
              "Name": "InvoiceNumber",
              "List": [
                {
                  "Value": "INV-2024-0042",
                  "Annotation": {
                    "Confidence": 97,
                    "RawValue": "INV-2024-0042",
                    "Source": "Text"
                  },
                  "NeedVerification": false,
                  "isVerified": false
                }
              ]
            },
            {
              "Name": "InvoiceDate",
              "List": [
                {
                  "Value": "2024-03-15",
                  "Annotation": {
                    "Confidence": 94,
                    "RawValue": "March 15, 2024",
                    "Source": "Text"
                  },
                  "NeedVerification": false,
                  "isVerified": false
                }
              ]
            },
            {
              "Name": "TotalAmount",
              "List": [
                {
                  "Value": "1,250.00",
                  "Annotation": {
                    "Confidence": 62,
                    "RawValue": "1.250,00",
                    "Source": "Image"
                  },
                  "NeedVerification": true,
                  "isVerified": false
                }
              ]
            }
          ]
        }
      }
    }
  ]
}

Chaque champ contient :

Property	Ce que cela signifie
`Name`	Le nom du champ défini par la compétence (par ex. “InvoiceNumber”, “VendorName”)
`Value`	La valeur extraite après normalisation — les dates sont converties au format ISO, les nombres sont standardisés
`Annotation.Confidence`	Un entier de 0 à 100 indiquant le niveau de certitude de Vantage quant à l’extraction
`Annotation.RawValue`	Le texte d’origine tel qu’il a été reconnu par l’OCR, avant toute normalisation
`Annotation.Source`	Indique si la valeur provient du calque `Text` du document ou a été lue depuis l’`Image`
`NeedVerification`	`true` si le champ a été signalé pour une relecture manuelle (par ex. faible confiance ou échec d’une règle de validation)
`isVerified`	`true` si un opérateur humain a déjà confirmé la valeur dans la relecture manuelle

Notez que TotalAmount ci-dessus a Confidence: 62 et NeedVerification: true. La valeur brute 1.250,00 (format européen) a été normalisée en 1,250.00, mais ce faible niveau de confiance suggère que Vantage n’était pas totalement certain du résultat de l’OCR. C’est exactement le type de champ qu’un opérateur humain devrait vérifier.

Champs de tableau (lignes d’articles)

Les Skills qui extraient des tableaux — comme les lignes d’articles d’une facture — les représentent sous forme de champs contenant des groupes répétitifs. Chaque ligne apparaît comme un ExtractedObject dans le tableau List du champ, avec ses propres sous-champs :

{
  "Name": "LineItems",
  "List": [
    {
      "Fields": [
        { "Name": "Description", "List": [{ "Value": "Consulting services", ... }] },
        { "Name": "Quantity",    "List": [{ "Value": "10", ... }] },
        { "Name": "UnitPrice",   "List": [{ "Value": "100.00", ... }] },
        { "Name": "Amount",      "List": [{ "Value": "1,000.00", ... }] }
      ]
    },
    {
      "Fields": [
        { "Name": "Description", "List": [{ "Value": "Travel expenses", ... }] },
        { "Name": "Quantity",    "List": [{ "Value": "1", ... }] },
        { "Name": "UnitPrice",   "List": [{ "Value": "250.00", ... }] },
        { "Name": "Amount",      "List": [{ "Value": "250.00", ... }] }
      ]
    }
  ]
}

Chaque ligne présente la même structure de champ, ce qui permet de les parcourir facilement dans le code.

Scores de confiance en pratique

Les scores de confiance reflètent le degré de certitude de Vantage concernant une valeur extraite. Plusieurs facteurs influencent ce niveau de confiance :

Qualité du document — les numérisations floues, les images de faible résolution ou le texte manuscrit produisent des scores plus faibles
Complexité de la mise en page — des tableaux à la mise en page inhabituelle ou des champs qui se chevauchent peuvent réduire la précision
Correspondance avec les données d’entraînement — les valeurs qui correspondent étroitement aux motifs sur lesquels la compétence a été entraînée obtiennent des scores plus élevés

Comment exploiter la confiance par programmation :

Confiance élevée (90–100) — acceptez automatiquement la valeur
Confiance moyenne (70–89) — acceptez-la avec prudence, ou envoyez-la en relecture pour les champs critiques
Confiance faible (inférieure à 70) — envoyez-la en relecture manuelle pour vérification humaine

Les champs avec NeedVerification: true ont déjà été signalés par Vantage en fonction des seuils de confiance et des règles de validation configurés dans la compétence.

Noms de champs courants par compétence

Chaque compétence définit son propre ensemble de noms de champs. Voici les champs les plus courants pour les compétences les plus utilisées :

Compétence	Champs principaux
Facture	`InvoiceNumber`, `InvoiceDate`, `VendorName`, `TotalAmount`, `TaxAmount`, `LineItems`
Reçu	`ReceiptNumber`, `Date`, `VendorName`, `Total`, `Tax`, `PaymentMethod`, `LineItems`
Commande d’achat	`PONumber`, `OrderDate`, `BuyerName`, `SupplierName`, `TotalAmount`, `LineItems`
Pièce d’identité	`FirstName`, `LastName`, `DateOfBirth`, `DocumentNumber`, `ExpirationDate`, `Nationality`

Il s’agit des champs les plus courants. Chaque compétence peut inclure des champs supplémentaires. Consultez le Skill Catalog pour voir la liste complète des champs de n’importe quelle compétence.

Prochaines étapes

Schéma JSON complet

Référence complète de tous les objets et de toutes les propriétés de la sortie JSON.

Sortie XML

Autre format de sortie contenant les mêmes données extraites, sous forme de structure XML.

Relecture manuelle

Configurez une vérification avec intervention humaine pour les champs extraits.

À découvrir ensuite

Choisissez votre parcours dans la documentation Vantage en fonction de vos objectifs.

​Vue d’ensemble de la structure de Result

​Lecture des champs extraits

​Champs de tableau (lignes d’articles)

​Scores de confiance en pratique

​Noms de champs courants par compétence

​Prochaines étapes

Schéma JSON complet

Sortie XML

Relecture manuelle

À découvrir ensuite

Vue d’ensemble de la structure de Result

Lecture des champs extraits

Champs de tableau (lignes d’articles)

Scores de confiance en pratique

Noms de champs courants par compétence

Prochaines étapes