跳转到主要内容
本文所述的架构决定了用于保存 OCR Skill 文档处理结果的 JSON 文件结构。这些文件存储有关在图像上检测到的图形元素、文本元素、表格和列表的信息,以及关于文档结构的推断信息:所有检测到的文本会被拆分为段落,每个段落会被赋予特定的功能。段落被分组到逻辑章节中。 所有对象属性、其数据类型及其允许的取值都列在 JSON 架构中,因此我们建议先熟悉该架构,以便更轻松地配置用于分析 JSON 文件的工具。您可以在此处下载 OCR Skill 的 JSON 架构。 根对象描述整个已识别的文档。有关该文档的一般信息存储在 layoutcontent 对象中。layout 对象描述图像参数以及所有检测到的图形和文本元素,而 content 对象描述文档的数据组件及其在逻辑结构中的位置。 下表列出了所有根对象属性:
PropertyData typeDescription
version *stringJSON 架构文档的版本。默认设置为:Vantage OCR.Skill JSON output v1.0
producer *stringJSON 文件的来源。默认设置为:ABBYY Vantage OCR.Skill
languagesstring array文档中检测到的所有语言列表。
layoutobject文档的物理(版式)结构。
contentobject文档的内容(逻辑结构)。
  • 表示必需属性。