Cómo interpretar sus resultados - ABBYY Documentation

Después de procesar un documento, ya sea mediante la API o la interfaz web, Vantage devuelve datos estructurados que incluyen valores de campos extraídos, puntuaciones de confianza e indicadores de verificación. Esta página explica cómo interpretar esa información.

Estructura del resultado de un vistazo

Todos los resultados siguen la misma jerarquía:

ExtractedDataTransaction
├── SkillName, SkillId
├── Documents[]
│   ├── ExtractedData
│   │   ├── DocumentDefinition    ← esquema de campo (qué se puede extraer)
│   │   └── RootObject            ← valores de campo (qué se extrajo)
│   │       └── Fields[]
│   │           ├── Name
│   │           └── List[]
│   │               ├── Value
│   │               ├── Annotation (Confidence, RawValue, ...)
│   │               ├── NeedVerification
│   │               └── isVerified
│   └── ClassificationResult      ← tipo de documento (si se aplicó clasificación)
└── SourceFiles[]

En la mayoría de los casos de uso, solo necesita ir a Documents[0].ExtractedData.RootObject.Fields para acceder a los valores extraídos.

Leer campos extraídos

Aquí tienes un ejemplo simplificado de una factura procesada con el skill ABBYY Invoice:

{
  "SkillName": "ABBYY Invoice",
  "SkillId": "a1b2c3d4-...",
  "Documents": [
    {
      "ExtractedData": {
        "RootObject": {
          "Fields": [
            {
              "Name": "InvoiceNumber",
              "List": [
                {
                  "Value": "INV-2024-0042",
                  "Annotation": {
                    "Confidence": 97,
                    "RawValue": "INV-2024-0042",
                    "Source": "Text"
                  },
                  "NeedVerification": false,
                  "isVerified": false
                }
              ]
            },
            {
              "Name": "InvoiceDate",
              "List": [
                {
                  "Value": "2024-03-15",
                  "Annotation": {
                    "Confidence": 94,
                    "RawValue": "March 15, 2024",
                    "Source": "Text"
                  },
                  "NeedVerification": false,
                  "isVerified": false
                }
              ]
            },
            {
              "Name": "TotalAmount",
              "List": [
                {
                  "Value": "1,250.00",
                  "Annotation": {
                    "Confidence": 62,
                    "RawValue": "1.250,00",
                    "Source": "Image"
                  },
                  "NeedVerification": true,
                  "isVerified": false
                }
              ]
            }
          ]
        }
      }
    }
  ]
}

Cada campo contiene:

Propiedad	Qué significa
`Name`	El nombre del campo definido por la skill (p. ej., “InvoiceNumber”, “VendorName”)
`Value`	El valor extraído tras la normalización: las fechas se convierten al formato ISO y los números se estandarizan
`Annotation.Confidence`	Un número entero de 0 a 100 que indica cuán segura está Vantage de la extracción
`Annotation.RawValue`	El texto original reconocido por OCR, antes de cualquier normalización
`Annotation.Source`	Si el valor proviene de la capa `Text` del documento o se leyó de la `Image`
`NeedVerification`	`true` si el campo se marcó para revisión humana (p. ej., baja confianza o incumplimiento de una regla de validación)
`isVerified`	`true` si un operador humano ya confirmó el valor en la revisión manual

Observe que TotalAmount de arriba tiene Confidence: 62 y NeedVerification: true. El valor original 1.250,00 (formato europeo) se normalizó a 1,250.00, pero la baja confianza sugiere que Vantage no estaba del todo seguro del resultado del OCR. Este es exactamente el tipo de campo que revisaría una persona.

Campos de tabla (partidas)

Las Habilidades que extraen tablas —como las partidas de una factura— las representan como campos que contienen grupos repetidos. Cada fila aparece como un ExtractedObject dentro de la matriz List del campo, con sus propios subcampos:

{
  "Name": "LineItems",
  "List": [
    {
      "Fields": [
        { "Name": "Description", "List": [{ "Value": "Consulting services", ... }] },
        { "Name": "Quantity",    "List": [{ "Value": "10", ... }] },
        { "Name": "UnitPrice",   "List": [{ "Value": "100.00", ... }] },
        { "Name": "Amount",      "List": [{ "Value": "1,000.00", ... }] }
      ]
    },
    {
      "Fields": [
        { "Name": "Description", "List": [{ "Value": "Travel expenses", ... }] },
        { "Name": "Quantity",    "List": [{ "Value": "1", ... }] },
        { "Name": "UnitPrice",   "List": [{ "Value": "250.00", ... }] },
        { "Name": "Amount",      "List": [{ "Value": "250.00", ... }] }
      ]
    }
  ]
}

Cada fila tiene la misma estructura de campos, lo que facilita iterar en el código.

Puntuaciones de confianza en la práctica

Las puntuaciones de confianza reflejan el grado de certeza que Vantage tiene sobre un valor extraído. Hay varios factores que afectan a la confianza:

Calidad del documento — los escaneos borrosos, las imágenes de baja resolución o el texto manuscrito generan puntuaciones más bajas
Complejidad del diseño — los diseños de tabla poco habituales o los campos superpuestos pueden reducir la precisión
Coincidencia con los datos de entrenamiento — los valores que se ajustan estrechamente a los patrones con los que se entrenó la skill obtienen puntuaciones más altas

Cómo usar la confianza mediante programación:

Confianza alta (90–100) — acepta el valor automáticamente
Confianza media (70–89) — acéptalo con precaución o envíalo a revisión en el caso de campos críticos
Confianza baja (por debajo de 70) — envíalo a revisión manual para su verificación por una persona

Los campos con NeedVerification: true ya han sido marcados por Vantage en función de los umbrales de confianza y las reglas de validación configuradas en la skill.

Nombres de campos comunes por skill

Cada skill define su propio conjunto de nombres de campos. Estos son los campos más comunes en las skills que se usan con más frecuencia:

Habilidad	Campos clave
Factura	`InvoiceNumber`, `InvoiceDate`, `VendorName`, `TotalAmount`, `TaxAmount`, `LineItems`
Recibo	`ReceiptNumber`, `Date`, `VendorName`, `Total`, `Tax`, `PaymentMethod`, `LineItems`
Orden de compra	`PONumber`, `OrderDate`, `BuyerName`, `SupplierName`, `TotalAmount`, `LineItems`
Documento de identidad	`FirstName`, `LastName`, `DateOfBirth`, `DocumentNumber`, `ExpirationDate`, `Nationality`

Estos son los campos más comunes. Cada skill puede incluir campos adicionales. Consulte el Skill Catalog para ver la lista completa de campos de cualquier skill.

Próximos pasos

Esquema JSON completo

Referencia completa de todos los objects y Propiedades de la salida JSON.

Salida XML

Formato de salida alternativo con los mismos datos extraídos en formato XML.

Revisión manual

Configure la verificación con intervención humana para los campos extraídos.

Qué aprender a continuación

Elija su recorrido por la documentación de Vantage según sus objetivos.

​Estructura del resultado de un vistazo

​Leer campos extraídos

​Campos de tabla (partidas)

​Puntuaciones de confianza en la práctica

​Nombres de campos comunes por skill

​Próximos pasos

Esquema JSON completo

Salida XML

Revisión manual

Qué aprender a continuación

Estructura del resultado de un vistazo

Leer campos extraídos

Campos de tabla (partidas)

Puntuaciones de confianza en la práctica

Nombres de campos comunes por skill

Próximos pasos