跳转到主要内容
本文所述的架构用于定义包含 OCR Skill 文档处理结果的 JSON 文件结构。这些文件存储在图像中检测到的图形元素、文本元素、表格和列表的信息,以及关于文档结构估计的信息:所有检测到的文本都会被拆分为段落,并为每个段落分配特定的功能。段落被归入逻辑部分。 所有对象属性、其数据类型及其允许值均在 JSON 架构中列出,因此建议先行熟悉,以便更轻松地配置用于分析 JSON 文件的工具。您可以在此处下载用于 OCR Skill 的 JSON 架构。 根对象描述整个识别的文档。关于该文档的一般信息存储在 layoutcontent 对象中。layout 对象描述图像参数以及所有检测到的图形与文本元素,而 content 对象描述文档的数据组件及其在逻辑结构中的位置。 下表列出了所有根对象属性:
PropertyData typeDescription
version *stringJSON 架构文档的版本。默认值:Vantage OCR.Skill JSON output v1.0
producer *stringJSON 文件的来源。默认值:ABBYY Vantage OCR.Skill
languagesstring array文档中检测到的所有语言列表。
layoutobject文档的物理(版面)结构。
contentobject文档的内容(逻辑结构)。
  • 表示必需属性。