OCR Skill JSON-Schema - ABBYY Documentation

Das in diesem Artikel beschriebene Schema legt die Struktur von JSON-Dateien mit Dokumentverarbeitungsergebnissen für eine OCR Skill fest. Diese Dateien speichern Informationen über grafische Elemente, Textelemente, Tabellen und Listen, die im Bild erkannt wurden, sowie Informationen über die ermittelten Dokumentstruktur: Der gesamte erkannte Text wird in Absätze aufgeteilt, von denen jedem eine bestimmte Funktion zugewiesen wird. Absätze werden zu logischen Abschnitten gruppiert. Alle Objekteigenschaften, ihre Datentypen und die zulässigen Werte sind im JSON-Schema aufgeführt, daher empfehlen wir Ihnen, sich damit vertraut zu machen, um die Konfiguration von Tools zur Analyse von JSON-Dateien zu erleichtern. Sie können das JSON-Schema für OCR Skills hier herunterladen. Das Wurzelobjekt beschreibt das gesamte erkannte Dokument. Allgemeine Informationen über das Dokument werden in den Objekten layout und content gespeichert. Das Objekt layout beschreibt die Bildparameter und alle erkannten grafischen Elemente und Textelemente, während das Objekt content die Datenkomponenten des Dokuments und deren Position in seiner logischen Struktur beschreibt. Die folgende Tabelle listet alle Eigenschaften des Wurzelobjekts auf:

Property	Data type	Description
`version` *	`string`	Die Version des JSON-Schema-Dokuments. Standardwert: Vantage OCR.Skill JSON output v1.0
`producer` *	`string`	Die Quelle der JSON-Datei. Standardwert: ABBYY Vantage OCR.Skill
`languages`	`string array`	Eine Liste aller im Dokument erkannten Sprachen.
layout	`object`	Physische (Layout-)Struktur des Dokuments.
content	`object`	Inhalt (logische Struktur des Dokuments).

Kennzeichnet eine erforderliche Eigenschaft.