跳转到主要内容
本文中描述的架构决定了包含 OCR 技能处理结果的 JSON 文件的结构。此类文件存储在图像上检测到的图形元素、文本元素、表格和列表的信息,以及推断出的文档结构信息:所有检测到的文本会被拆分为段落,并为每个段落指定特定的功能。段落会被分组到逻辑部分中。 所有对象属性、其数据类型及其允许值都在 JSON 架构中列出,因此我们建议先熟悉该架构,从而更方便地配置用于分析 JSON 文件的工具。您可以在此处下载用于 OCR 技能的 JSON 架构。 根对象描述整个识别出的文档。关于文档的一般信息存储在 layoutcontent 对象中。layout 对象描述图像参数以及所有检测到的图形和文本元素,而 content 对象描述文档的数据组件及其在逻辑结构中的位置。 下表列出了所有根对象属性:
PropertyData typeDescription
version *stringJSON 架构文档的版本。默认值:Vantage OCR.Skill JSON output v1.0
producer *stringJSON 文件的来源。默认值:ABBYY Vantage OCR.Skill
languagesstring array文档中检测到的所有语言的列表。
layoutobject文档的物理(版面)结构。
contentobject文档的内容(逻辑结构)。
  • 表示必需属性。