Ihre Ergebnisse verstehen - ABBYY Documentation

Nach der Verarbeitung eines Dokuments — entweder über die API oder die Web-UI — gibt Vantage strukturierte Daten mit extrahierten Feldwerten, Konfidenzwerten und Verifizierungs-Flags zurück. Auf dieser Seite wird erläutert, wie Sie diese Ausgabe interpretieren.

Ergebnisstruktur im Überblick

Alle Ergebnisse folgen derselben Hierarchie:

ExtractedDataTransaction
├── SkillName, SkillId
├── Documents[]
│   ├── ExtractedData
│   │   ├── DocumentDefinition    ← Feld-Schema (was extrahiert werden kann)
│   │   └── RootObject            ← Feldwerte (was extrahiert wurde)
│   │       └── Fields[]
│   │           ├── Name
│   │           └── List[]
│   │               ├── Value
│   │               ├── Annotation (Confidence, RawValue, ...)
│   │               ├── NeedVerification
│   │               └── isVerified
│   └── ClassificationResult      ← Dokumenttyp (falls Klassifizierung angewendet wurde)
└── SourceFiles[]

In den meisten Anwendungsfällen müssen Sie nur zu Documents[0].ExtractedData.RootObject.Fields navigieren, um auf die extrahierten Werte zuzugreifen.

Extrahierte Felder lesen

Hier ist ein vereinfachtes Beispiel für eine mit dem ABBYY Invoice Skill verarbeitete Rechnung:

{
  "SkillName": "ABBYY Invoice",
  "SkillId": "a1b2c3d4-...",
  "Documents": [
    {
      "ExtractedData": {
        "RootObject": {
          "Fields": [
            {
              "Name": "InvoiceNumber",
              "List": [
                {
                  "Value": "INV-2024-0042",
                  "Annotation": {
                    "Confidence": 97,
                    "RawValue": "INV-2024-0042",
                    "Source": "Text"
                  },
                  "NeedVerification": false,
                  "isVerified": false
                }
              ]
            },
            {
              "Name": "InvoiceDate",
              "List": [
                {
                  "Value": "2024-03-15",
                  "Annotation": {
                    "Confidence": 94,
                    "RawValue": "March 15, 2024",
                    "Source": "Text"
                  },
                  "NeedVerification": false,
                  "isVerified": false
                }
              ]
            },
            {
              "Name": "TotalAmount",
              "List": [
                {
                  "Value": "1,250.00",
                  "Annotation": {
                    "Confidence": 62,
                    "RawValue": "1.250,00",
                    "Source": "Image"
                  },
                  "NeedVerification": true,
                  "isVerified": false
                }
              ]
            }
          ]
        }
      }
    }
  ]
}

Jedes Feld enthält:

Eigenschaft	Bedeutung
`Name`	Der vom Skill definierte Feldname (z. B. “InvoiceNumber”, “VendorName”)
`Value`	Der extrahierte Wert nach der Normalisierung – Datumsangaben werden ins ISO-Format umgewandelt, Zahlen standardisiert
`Annotation.Confidence`	Ein ganzzahliger Wert von 0 bis 100, der angibt, wie sicher Vantage bei der Extraktion ist
`Annotation.RawValue`	Der ursprüngliche Text, wie er durch Optical Character Recognition (OCR) erkannt wurde, vor jeglicher Normalisierung
`Annotation.Source`	Gibt an, ob der Wert aus der `Text`-Ebene des Dokuments stammt oder aus dem `Image` ausgelesen wurde
`NeedVerification`	`true`, wenn das Feld zur manuellen Überprüfung markiert wurde (z. B. bei geringer Konfidenz oder fehlgeschlagener Validierungsregel)
`isVerified`	`true`, wenn ein menschlicher Bearbeiter den Wert in der Manuellen Überprüfung bereits bestätigt hat

Beachten Sie, dass TotalAmount oben Confidence: 62 und NeedVerification: true aufweist. Der Rohwert 1.250,00 (europäisches Format) wurde zu 1,250.00 normalisiert, die geringe Konfidenz deutet jedoch darauf hin, dass Vantage beim OCR-Ergebnis nicht vollständig sicher war. Genau solche Felder würde ein menschlicher Prüfer kontrollieren.

Tabellenfelder (Positionen)

Skills, die Tabellen extrahieren — wie Rechnungspositionen — werden als Felder mit wiederholbaren Gruppen dargestellt. Jede Zeile erscheint als ExtractedObject innerhalb des List-Arrays des Feldes mit eigenen Unterfeldern:

{
  "Name": "LineItems",
  "List": [
    {
      "Fields": [
        { "Name": "Description", "List": [{ "Value": "Consulting services", ... }] },
        { "Name": "Quantity",    "List": [{ "Value": "10", ... }] },
        { "Name": "UnitPrice",   "List": [{ "Value": "100.00", ... }] },
        { "Name": "Amount",      "List": [{ "Value": "1,000.00", ... }] }
      ]
    },
    {
      "Fields": [
        { "Name": "Description", "List": [{ "Value": "Travel expenses", ... }] },
        { "Name": "Quantity",    "List": [{ "Value": "1", ... }] },
        { "Name": "UnitPrice",   "List": [{ "Value": "250.00", ... }] },
        { "Name": "Amount",      "List": [{ "Value": "250.00", ... }] }
      ]
    }
  ]
}

Jede Zeile hat dieselbe Feldstruktur, sodass man im Code einfach darüber iterieren kann.

Konfidenzwerte in der Praxis

Konfidenzwerte zeigen, wie sicher Vantage bei einem extrahierten Wert ist. Mehrere Faktoren beeinflussen die Konfidenz:

Dokumentqualität — unscharfe Scans, Bilder mit niedriger Auflösung oder handschriftlicher Text führen zu niedrigeren Werten
Layoutkomplexität — ungewöhnliche Tabellenlayouts oder sich überlappende Felder können die Genauigkeit verringern
Übereinstimmung mit den Trainingsdaten — Werte, die den Mustern, auf denen der Skill trainiert wurde, stark entsprechen, erzielen höhere Werte

So nutzen Sie Konfidenz programmgesteuert:

Hohe Konfidenz (90–100) — den Wert automatisch akzeptieren
Mittlere Konfidenz (70–89) — mit Vorsicht akzeptieren oder bei kritischen Feldern zur Überprüfung weiterleiten
Niedrige Konfidenz (unter 70) — zur Manuellen Überprüfung zur manuellen Prüfung weiterleiten

Felder mit NeedVerification: true wurden von Vantage bereits anhand der im Skill konfigurierten Konfidenzschwellen und Validierungsregeln markiert.

Häufige Feldnamen pro Skill

Jeder Skill definiert eigene Feldnamen. Hier sind die häufigsten Felder für oft verwendete Skills:

Skill	Wichtige Felder
Rechnung	`InvoiceNumber`, `InvoiceDate`, `VendorName`, `TotalAmount`, `TaxAmount`, `LineItems`
Kassenbon	`ReceiptNumber`, `Date`, `VendorName`, `Total`, `Tax`, `PaymentMethod`, `LineItems`
Bestellung	`PONumber`, `OrderDate`, `BuyerName`, `SupplierName`, `TotalAmount`, `LineItems`
Ausweisdokument	`FirstName`, `LastName`, `DateOfBirth`, `DocumentNumber`, `ExpirationDate`, `Nationality`

Dies sind die häufigsten Felder. Jeder Skill kann zusätzliche Felder enthalten. Im Skill Catalog finden Sie die vollständige Feldliste für jeden Skill.

Nächste Schritte

Vollständiges JSON-Schema

Vollständige Referenz für alle Objekte und Eigenschaften in der JSON-Ausgabe.

XML-Ausgabe

Alternatives Ausgabeformat mit denselben extrahierten Daten in einer XML-Struktur.

Manuelle Überprüfung

Richten Sie die Überprüfung extrahierter Felder mit menschlicher Beteiligung ein.

Was Sie als Nächstes lernen

Wählen Sie anhand Ihrer Ziele den passenden Weg durch die Vantage-Dokumentation.

Documentation Index

​Ergebnisstruktur im Überblick

​Extrahierte Felder lesen

​Tabellenfelder (Positionen)

​Konfidenzwerte in der Praxis

​Häufige Feldnamen pro Skill

​Nächste Schritte

Vollständiges JSON-Schema

XML-Ausgabe

Manuelle Überprüfung

Was Sie als Nächstes lernen

Ergebnisstruktur im Überblick

Extrahierte Felder lesen

Tabellenfelder (Positionen)

Konfidenzwerte in der Praxis

Häufige Feldnamen pro Skill

Nächste Schritte