Entendendo seus resultados

Após processar um documento — seja pela API ou pela interface web — o Vantage retorna dados estruturados com valores de campos extraídos, escores de confiança e indicadores de verificação. Esta página explica como interpretar essa saída.

Visão geral da estrutura do resultado

Todo resultado segue a mesma hierarquia:

ExtractedDataTransaction
├── SkillName, SkillId
├── Documents[]
│   ├── ExtractedData
│   │   ├── DocumentDefinition    ← esquema de campo (o que pode ser extraído)
│   │   └── RootObject            ← valores de campo (o que foi extraído)
│   │       └── Fields[]
│   │           ├── Name
│   │           └── List[]
│   │               ├── Value
│   │               ├── Annotation (Confidence, RawValue, ...)
│   │               ├── NeedVerification
│   │               └── isVerified
│   └── ClassificationResult      ← tipo de documento (se a classificação foi aplicada)
└── SourceFiles[]

Na maioria dos casos de uso, basta navegar até Documents[0].ExtractedData.RootObject.Fields para acessar os valores extraídos.

Leitura dos campos extraídos

Veja um exemplo simplificado de uma fatura processada com a skill ABBYY Invoice:

{
  "SkillName": "ABBYY Invoice",
  "SkillId": "a1b2c3d4-...",
  "Documents": [
    {
      "ExtractedData": {
        "RootObject": {
          "Fields": [
            {
              "Name": "InvoiceNumber",
              "List": [
                {
                  "Value": "INV-2024-0042",
                  "Annotation": {
                    "Confidence": 97,
                    "RawValue": "INV-2024-0042",
                    "Source": "Text"
                  },
                  "NeedVerification": false,
                  "isVerified": false
                }
              ]
            },
            {
              "Name": "InvoiceDate",
              "List": [
                {
                  "Value": "2024-03-15",
                  "Annotation": {
                    "Confidence": 94,
                    "RawValue": "March 15, 2024",
                    "Source": "Text"
                  },
                  "NeedVerification": false,
                  "isVerified": false
                }
              ]
            },
            {
              "Name": "TotalAmount",
              "List": [
                {
                  "Value": "1,250.00",
                  "Annotation": {
                    "Confidence": 62,
                    "RawValue": "1.250,00",
                    "Source": "Image"
                  },
                  "NeedVerification": true,
                  "isVerified": false
                }
              ]
            }
          ]
        }
      }
    }
  ]
}

Cada campo contém:

Property	O que significa
`Name`	O nome do campo definido pelo skill (por exemplo, “InvoiceNumber”, “VendorName”)
`Value`	O valor extraído após a normalização — datas passam para o formato ISO, e números são padronizados
`Annotation.Confidence`	Um número inteiro de 0 a 100 que indica o grau de confiança do Vantage na extração
`Annotation.RawValue`	O texto original reconhecido pelo OCR, antes de qualquer normalização
`Annotation.Source`	Se o valor veio da camada `Text` do documento ou foi lido da `Image`
`NeedVerification`	`true` se o campo foi sinalizado para revisão manual (por exemplo, baixa confiança ou falha em uma regra de validação)
`isVerified`	`true` se um operador humano já confirmou o valor na revisão manual

Observe que TotalAmount acima tem Confidence: 62 e NeedVerification: true. O valor bruto 1.250,00 (formato europeu) foi normalizado para 1,250.00, mas a baixa confiança sugere que o Vantage não tinha total certeza sobre o resultado do OCR. Esse é exatamente o tipo de campo que um revisor humano verificaria.

Campos de tabela (Itens)

Skills que extraem tabelas — como os itens de faturas — as representam como campos que contêm grupos repetidos. Cada linha aparece como um ExtractedObject dentro do array List do campo, com seus próprios subcampos:

{
  "Name": "LineItems",
  "List": [
    {
      "Fields": [
        { "Name": "Description", "List": [{ "Value": "Consulting services", ... }] },
        { "Name": "Quantity",    "List": [{ "Value": "10", ... }] },
        { "Name": "UnitPrice",   "List": [{ "Value": "100.00", ... }] },
        { "Name": "Amount",      "List": [{ "Value": "1,000.00", ... }] }
      ]
    },
    {
      "Fields": [
        { "Name": "Description", "List": [{ "Value": "Travel expenses", ... }] },
        { "Name": "Quantity",    "List": [{ "Value": "1", ... }] },
        { "Name": "UnitPrice",   "List": [{ "Value": "250.00", ... }] },
        { "Name": "Amount",      "List": [{ "Value": "250.00", ... }] }
      ]
    }
  ]
}

Cada linha tem a mesma estrutura de campos, o que facilita a iteração no código.

Escores de confiança na prática

Os escores de confiança refletem o quanto o Vantage está certo sobre um valor extraído. Vários fatores afetam a confiança:

Qualidade do documento — digitalizações desfocadas, imagens de baixa resolução ou texto manuscrito geram escores mais baixos
Complexidade do layout — layouts de tabela incomuns ou campos sobrepostos podem reduzir a precisão
Correspondência com os dados de treinamento — valores que correspondem de perto aos padrões com os quais a skill foi treinada recebem escores mais altos

Como usar a confiança programaticamente:

Alta confiança (90–100) — aceite o valor automaticamente
Confiança média (70–89) — aceite com cautela ou encaminhe para revisão no caso de campos críticos
Baixa confiança (abaixo de 70) — encaminhe para Revisão manual para verificação humana

Os campos com NeedVerification: true já foram sinalizados pelo Vantage com base nos limiares de confiança e nas Regras de validação configuradas na skill.

Nomes comuns de campos por skill

Cada skill define seu próprio conjunto de nomes de campos. Aqui estão os campos mais comuns dos skills usados com mais frequência:

Skill	Campos principais
Invoice	`InvoiceNumber`, `InvoiceDate`, `VendorName`, `TotalAmount`, `TaxAmount`, `LineItems`
Receipt	`ReceiptNumber`, `Date`, `VendorName`, `Total`, `Tax`, `PaymentMethod`, `LineItems`
Pedido de Compra	`PONumber`, `OrderDate`, `BuyerName`, `SupplierName`, `TotalAmount`, `LineItems`
ID Document	`FirstName`, `LastName`, `DateOfBirth`, `DocumentNumber`, `ExpirationDate`, `Nationality`

Estes são os campos mais comuns. Cada skill pode incluir campos adicionais. Consulte o Skill Catalog para ver a lista completa de campos de qualquer skill.

Próximas etapas

Esquema JSON completo

Referência completa de todos os objetos e propriedades da saída JSON.

Saída XML

Formato de saída alternativo com os mesmos dados extraídos na estrutura XML.

Revisão manual

Configure a verificação humana dos campos extraídos.

O que aprender a seguir

Escolha seu caminho na documentação do Vantage com base nos seus objetivos.

Primeiros passos

Aprofunde-se

Visão geral da estrutura do resultado

Leitura dos campos extraídos

Campos de tabela (Itens)

Escores de confiança na prática

Nomes comuns de campos por skill

Próximas etapas

Esquema JSON completo

Saída XML

Revisão manual

O que aprender a seguir

Primeiros passos

Aprofunde-se

​Visão geral da estrutura do resultado

​Leitura dos campos extraídos

​Campos de tabela (Itens)

​Escores de confiança na prática

​Nomes comuns de campos por skill

​Próximas etapas

Esquema JSON completo

Saída XML

Revisão manual

O que aprender a seguir

Visão geral da estrutura do resultado

Leitura dos campos extraídos

Campos de tabela (Itens)

Escores de confiança na prática

Nomes comuns de campos por skill

Próximas etapas