跳转到主要内容
XML 文件包含已识别文本,以及通过 XML 标签描述的有关其结构、属性和识别变体的附加信息。有关可用标签的说明,请参见下表。某些标签是否出现取决于识别参数的值。例如,只有当 XMLExportParams 对象的相应属性设置为 TRUE 时,才会保存单词或字符的识别变体。 您可以在 ABBYY_Scheme_XML.xsd 文件中找到 XML 架构。 该文件位于 macOS 的 Headers 文件夹中,或位于 LinuxWindows 的 Inc 文件夹中 (Start > Programs > ABBYY FineReader Engine 12 > Installation Folders > Include Files Folder) 。 下图显示了输出 XML 文件中 Picture、Text 和 Table 块的示例。 XMLScheme

文档标签说明

Complex 类型

1

文档。

复合类型,包含一系列 block 标签

0…unbounded

document

已识别页面。

BlockType

0…unbounded

page

已识别块。

复合类型,包含一系列 rect 标签

无类型属性

1

block

块区域,由一组矩形组成。

Complex 类型

1…unbounded

region

块区域的矩形。

TextType

0…unbounded

block

已识别文本块的文本内容 (当 blockType 属性为 “Text” 时,作为 block 标签的子元素出现) 。

0…unbounded

cell

表格单元格的文本内容。

ParagraphType

0…unbounded

text

已识别文本的段落。

LineType

0…unbounded

par

段落中的行。

FormattingType

0…unbounded

line

Group of characters with uniform formatting. Attributes of characters are alternated with word’s recognition variants. The variants of recognition of the word are written before the word.

CharParamsType

0…unbounded

formatting

Attributes of a single character.

Complex Type, a sequence of charRecVariant tags

没有类型属性


charParams

Variants of a character recognition.

CharRecognitionVariant

0…unbounded

charRecVariants

Variant of a character recognition.

Complex Type, a sequence of wordRecVariant tags

没有类型属性


formatting

Variants of recognition of the next word.

WordRecognitionVariant type

0…unbounded

wordRecVariants

下一个词的识别变体。

Complex Type, a sequence of charParams tags

无类型属性

1

wordRecVariant

词。

TableRowType

无类型属性

0…unbounded

block

表格行 (当 blockType 属性为 Table 时出现) 。

Complex Type, a sequence of TextType tags

0…unbounded

row

表格单元格 (当 blockType 属性为 Table 时出现) 。

Complex Type, a sequence of separator tags

无类型属性

0…1

block

分隔符组,当 blockType 属性为 “SeparatorsBox” 时出现

SeparatorBlockType type

0…1

block

单个分隔符,当 blockType 属性为 “Separator” 时出现。

0…unbounded

separatorsBox

分隔符组中的分隔符。

复合类型,checkmark 标签的序列

没有类型属性

0…1

block

复选标记组,当 blockType 属性为 “GroupCheckmark” 时存在

CheckmarkBlockType 类型

0…1

block

单个复选标记,当 blockType 属性为 “Checkmark” 时存在。

0…unbounded

checkmarkGroup

复选标记组中的复选标记。

BarcodeInfoType 类型

0…1

block

条码信息,当 blockType 属性为 “Barcode” 时存在。

Point 类型

1

separator

分隔线的起点。

Point 类型

1

separator

分隔线的终点。

复杂类型

没有类型属性

0…1

document

文档的段落和字体样式参数。

复杂类型,由一系列 paragraphStyle 标记组成

没有类型属性

0…1

documentData

段落格式样式集合。

ParagraphStyleType 类型

0…unbounded

paragraphStyles

Formatting style of a paragraph.

FontStyleType Type

0…unbounded

paragraphStyle

The font style.

Complex Type, a sequence of section tags

无类型属性

0…1

documentData

The collection of document sections.

SectionType Type

无类型属性

0…unbounded

sections

A document section.

TextStreamType Type

0…unbounded

section

A sequence of paragraphs and blocks.

Complex Type

0…1

stream


复合类型

0…unbounded

stream

页面元素的 ID。

标签层级图

XMLSchemeDiagram

另请参见

XMLExportParams