メインコンテンツへスキップ
XML ファイルには認識されたテキストが含まれており、その構造、属性、認識バリアントに関する追加情報は XML タグを使って記述されます。使用可能なタグについては、以下の表を参照してください。認識パラメーターの値によっては、一部のタグが含まれない場合があります。たとえば、単語または文字の認識バリアントは、XMLExportParams オブジェクトの対応するプロパティが TRUE に設定されている場合にのみ保存されます。 XML スキーマは ABBYY_Scheme_XML.xsd ファイルにあります。 このファイルは、macOS では Headers フォルダーに、Linux および Windows では Inc フォルダーにあります (Start > Programs > ABBYY FineReader Engine 12 > Installation Folders > Include Files Folder) 。 以下の図は、出力 XML ファイル内の Picture、Text、Table ブロックの例を示しています。 XMLScheme

文書タグの説明

複合型

1

no

ドキュメント。

複合型、blockタグのシーケンス

0…unbounded

document

認識されたページ。

BlockType

0…unbounded

page

認識されたブロック。

複合型、rectタグのシーケンス

型の属性はありません

1

block

ブロック領域 (矩形の集合) 。

Complex Type

1…unbounded

region

ブロック領域の Rectangle。

TextType

0…unbounded

block

認識されたテキストブロックのテキスト (blockType 属性が “Text” の場合、block タグの要素として現れます) 。

0…unbounded

cell

表のセルのテキスト。

ParagraphType

0…unbounded

text

認識されたテキストの段落。

LineType

0…unbounded

par

段落の行。

FormattingType

0…unbounded

line

均一な書式設定を持つ文字のグループ。文字の属性は単語の認識バリアントと交互に配置されます。単語の認識バリアントは、対象の単語の前に記述されます。

CharParamsType

0…unbounded

formatting

単一文字の属性。

複合型。charRecVariant タグのシーケンス

型属性はありません


charParams

文字認識のバリアント。

CharRecognitionVariant

0…unbounded

charRecVariants

文字認識のバリアント (単一) 。

複合型。wordRecVariant タグのシーケンス

型属性はありません


formatting

次の単語の認識バリアント。

WordRecognitionVariant 型

0…unbounded

wordRecVariants

次の単語の認識バリアント。

複合型 (charParams タグのシーケンス)

型属性なし

1

wordRecVariant

単語。

TableRowType

Has no type attributes

0…unbounded

block

テーブルの行 (blockType 属性が Table の場合に存在します) 。

複合型 (TextType タグのシーケンス)

0…unbounded

row

テーブルのセル (blockType 属性が Table の場合に存在します) 。

複合型 (separator タグのシーケンス)

型属性なし

0…1

block

区切り線のグループ。blockType 属性が “SeparatorsBox” の場合に存在します

SeparatorBlockType 型

0…1

block

単一の区切り線。blockType 属性が “Separator” の場合に存在します。

0…unbounded

separatorsBox

区切り線グループ内の区切り線。

複合型 (checkmark タグのシーケンス)

型の属性はありません

0…1

block

チェックマークのグループ。blockType 属性が “GroupCheckmark” の場合に存在します。

CheckmarkBlockType 型

0…1

block

単一のチェックマーク。blockType 属性が “Checkmark” の場合に存在します。

0…unbounded

checkmarkGroup

チェックマークグループ内のチェックマーク。

BarcodeInfoType 型

0…1

block

バーコードに関する情報。blockType 属性が “Barcode” の場合に存在します。

Point 型

1

separator

区切り線の始点。

Point 型

1

separator

区切り線の終点。

複合型

型の属性はありません

0…1

document

ドキュメントの段落スタイルおよびフォントスタイルのパラメーター。

複合型。paragraphStyle タグのシーケンス。

型の属性はありません

0…1

documentData

段落書式スタイルのコレクション。

ParagraphStyleType 型

0…unbounded

paragraphStyles

段落の書式スタイル。

FontStyleType Type

0…unbounded

paragraphStyle

フォントスタイル。

複合型、section タグのシーケンス

型の属性はありません

0…1

documentData

ドキュメントセクションのコレクション。

SectionType 型

型の属性はありません

0…unbounded

sections

ドキュメントのセクション。

TextStreamType 型

0…unbounded

section

段落とブロックのシーケンス。

Complex Type

0…1

stream


複合型

0…unbounded

stream

ページ要素の ID。

タグの階層図

XMLSchemeDiagram

関連項目

XMLExportParams