Zum Hauptinhalt springen
Eine XML-Datei enthält den erkannten Text sowie zusätzliche Informationen zu seiner Struktur, seinen Attributen und Erkennungsvarianten, die mithilfe von XML-Tags beschrieben werden. Eine Beschreibung der möglichen Tags finden Sie in der folgenden Tabelle. Einige Tags sind je nach den Werten der Erkennungsparameter möglicherweise nicht vorhanden. So werden beispielsweise Erkennungsvarianten für Wörter oder Zeichen nur gespeichert, wenn die entsprechenden Eigenschaften des XMLExportParams-Objekts auf TRUE gesetzt sind. Sie finden das XML-Schema in der Datei ABBYY_Scheme_XML.xsd. Diese Datei befindet sich im Ordner Headers für macOS bzw. im Ordner Inc für Linux und Windows (Start > Programme > ABBYY FineReader Engine 12 > Installationsordner > Ordner für Include-Dateien). Die folgende Abbildung zeigt ein Beispiel für Picture-, Text- und Table-Blöcke in der XML-Ausgabedatei. XMLScheme

Beschreibung der Dokument-Tags

Komplexer Typ

1

nein

Dokument.

Komplexer Typ, eine Folge von Block-Tags

0…unbounded

document

Erkannte Seite.

BlockType

0…unbounded

page

Erkannter Block.

Komplexer Typ, eine Folge von Rect-Tags

Keine Typ-Attribute vorhanden

1

block

Blockregion, eine Menge von Rechtecken.

Komplexer Typ

1…unbounded

region

Rechteck einer Blockregion.

TextType

0…unbounded

block

Text eines erkannten Textblocks (erscheint als Element des block-Tags, wenn das blockType-Attribut “Text” ist).

0…unbounded

cell

Text einer Tabellenzelle.

ParagraphType

0…unbounded

text

Absatz eines erkannten Textes.

LineType

0…unbounded

par

Zeile eines Absatzes.

FormattingType

0…unbounded

line

Gruppe von Zeichen mit einheitlicher Formatierung. Die Attribute der Zeichen wechseln sich mit den Erkennungsvarianten des Wortes ab. Die Erkennungsvarianten des Wortes werden vor dem Wort angegeben.

CharParamsType

0…unbounded

formatting

Attribute eines einzelnen Zeichens.

Komplexer Typ, eine Sequenz von charRecVariant-Tags

Hat keine Typ-Attribute


charParams

Varianten der Zeichenerkennung.

CharRecognitionVariant

0…unbounded

charRecVariants

Variante der Zeichenerkennung.

Komplexer Typ, eine Sequenz von wordRecVariant-Tags

Hat keine Typ-Attribute


formatting

Erkennungsvarianten des nächsten Wortes.

WordRecognitionVariant-Typ

0…unbounded

wordRecVariants

Erkennungsvariante des nächsten Wortes.

Komplexer Typ, eine Sequenz von charParams-Tags

Keine Typattribute vorhanden

1

wordRecVariant

Wort.

TableRowType

Has no type attributes

0…unbounded

block

Tabellenzeile (vorhanden, wenn das blockType-Attribut „Table” ist).

Komplexer Typ, eine Sequenz von TextType-Tags

0…unbounded

row

Tabellenzelle (vorhanden, wenn das blockType-Attribut „Table” ist).

Komplexer Typ, eine Sequenz von separator-Tags

Keine Typattribute vorhanden

0…1

block

Gruppe von Trennlinien, vorhanden wenn das blockType-Attribut “SeparatorsBox” ist

SeparatorBlockType-Typ

0…1

block

Einzelne Trennlinie, vorhanden wenn das blockType-Attribut “Separator” ist.

0…unbounded

separatorsBox

Trennlinie in einer Gruppe von Trennlinien.

Komplexer Typ, eine Sequenz von checkmark-Tags

Hat keine Typ-Attribute

0…1

block

Gruppe von Häkchen, vorhanden wenn das blockType-Attribut “GroupCheckmark” ist

CheckmarkBlockType type

0…1

block

Einzelnes Häkchen, vorhanden wenn das blockType-Attribut “Checkmark” ist.

0…unbounded

checkmarkGroup

Häkchen in einer Gruppe von Häkchen.

BarcodeInfoType type

0…1

block

Informationen zum Barcode, vorhanden wenn das blockType-Attribut “Barcode” ist.

Point type

1

separator

Startpunkt einer Trennlinie.

Point type

1

separator

Endpunkt einer Trennlinie.

Komplexer Typ

Hat keine Typ-Attribute

0…1

document

Parameter der Absatz- und Schriftformatvorlagen des Dokuments.

Komplexer Typ, eine Sequenz von paragraphStyle-Tags

Hat keine Typ-Attribute

0…1

documentData

Sammlung von Absatzformatvorlagen.

ParagraphStyleType Type

0…unbounded

paragraphStyles

Formatierungsstil eines Absatzes.

FontStyleType Type

0…unbounded

paragraphStyle

Der Schriftstil.

Komplexer Typ, eine Folge von Abschnitts-Tags

Keine Typattribute vorhanden

0…1

documentData

Die Sammlung der Dokumentabschnitte.

SectionType-Typ

Keine Typattribute vorhanden

0…unbounded

sections

Ein Dokumentabschnitt.

TextStreamType-Typ

0…unbounded

section

Eine Folge von Absätzen und Blöcken.

Komplexer Typ

0…1

stream


Komplexer Typ

0…unbounded

stream

Die ID eines Seitenelements.

Diagramm der Taghierarchie

XMLSchemeDiagram

Siehe auch

XMLExportParams