跳轉到主要內容
XML 檔案包含已辨識的文字,並透過 XML 標籤提供其結構、屬性和辨識變體等附加資訊。可能使用的標籤說明請參閱下表。某些標籤是否出現,取決於辨識參數的值。例如,只有在 XMLExportParams 物件的對應屬性設為 TRUE 時,才會儲存單字或字元的辨識變體。 您可以在 ABBYY_Scheme_XML.xsd 檔案中找到 XML 結構描述。 此檔案位於 macOS 的 Headers 資料夾中;在 LinuxWindows 中,則位於 Inc 資料夾 (開始 > 程式集 > ABBYY FineReader Engine 12 > 安裝資料夾 > Include Files Folder) 。 下圖顯示輸出 XML 檔案中 Picture、Text 與 Table 區塊的範例。 XMLScheme

文件標籤說明

複合類型

1

no

文件。

複合類型,由一系列 block 標籤組成

0…unbounded

document

已辨識的頁面。

BlockType

0…unbounded

page

已辨識的區塊。

複合類型,由一系列 rect 標籤組成

無類型屬性

1

block

區塊區域,由一組矩形組成。

複合類型

1…unbounded

region

區塊區域的 Rectangle。

TextType

0…unbounded

block

已辨識文字區塊的文字內容 (當 blockType 屬性為 “Text” 時,以 block 標籤的子元素形式呈現) 。

0…unbounded

cell

表格儲存格的文字內容。

ParagraphType

0…unbounded

text

已辨識文字的段落。

LineType

0…unbounded

par

段落中的一行。

FormattingType

0…unbounded

line

格式一致的字元群組。字元屬性與單詞識別變體交替排列,單詞的識別變體位於單詞之前。

CharParamsType

0…unbounded

formatting

單一字元的屬性。

複合類型,由一系列 charRecVariant 標籤組成

無類型屬性


charParams

字元識別的變體。

CharRecognitionVariant

0…unbounded

charRecVariants

字元識別的單一變體。

複合類型,由一系列 wordRecVariant 標籤組成

無類型屬性


formatting

下一個單詞的識別變體。

WordRecognitionVariant 類型

0…unbounded

wordRecVariants

下一個詞的識別變體。

複合類型,由 charParams 標籤組成的序列

無類型屬性

1

wordRecVariant

詞。

TableRowType

無類型屬性

0…unbounded

block

表格列 (當 blockType 屬性為 Table 時出現) 。

複合類型,由 TextType 標籤組成的序列

0…unbounded

row

表格儲存格 (當 blockType 屬性為 Table 時出現) 。

複合類型,由 separator 標籤組成的序列

無類型屬性

0…1

block

分隔符群組,當 blockType 屬性為 “SeparatorsBox” 時出現

SeparatorBlockType 類型

0…1

block

單一分隔符,當 blockType 屬性為 “Separator” 時出現。

0…unbounded

separatorsBox

分隔符群組中的分隔符。

複合類型,由 checkmark 標籤組成的序列

無類型屬性

0…1

block

核取方塊群組,當 blockType 屬性為 “GroupCheckmark” 時出現

CheckmarkBlockType type

0…1

block

單一核取方塊,當 blockType 屬性為 “Checkmark” 時出現。

0…unbounded

checkmarkGroup

核取方塊群組中的核取方塊。

BarcodeInfoType type

0…1

block

條碼相關資訊,當 blockType 屬性為 “Barcode” 時出現。

Point type

1

separator

分隔線的起始點。

Point type

1

separator

分隔線的終止點。

複合類型

無類型屬性

0…1

document

文件的段落與字型樣式參數。

複合類型,由一系列 paragraphStyle 標籤組成

無類型屬性

0…1

documentData

段落格式樣式的集合。

ParagraphStyleType Type

0…unbounded

paragraphStyles

段落的格式樣式。

FontStyleType Type

0…unbounded

paragraphStyle

字型樣式。

複合型別,由一系列 section 標籤組成

無型別屬性

0…1

documentData

文件區段的集合。

SectionType Type

無型別屬性

0…unbounded

sections

文件區段。

TextStreamType Type

0…unbounded

section

段落與區塊的序列。

Complex Type

0…1

stream


複合類型

0…unbounded

stream

頁面元素的 ID。

標籤階層圖

XMLSchemeDiagram

另請參閱

XMLExportParams