Passer au contenu principal
Un fichier XML contient le texte reconnu, ainsi que des informations supplémentaires sur sa structure, ses attributs et ses variantes de reconnaissance, décrites à l’aide de balises XML. Le tableau ci-dessous décrit les balises possibles. Certaines balises peuvent ne pas être présentes selon les valeurs des paramètres de reconnaissance. Par exemple, les variantes de reconnaissance des mots ou des caractères ne sont enregistrées que si les propriétés correspondantes de l’objet XMLExportParams sont définies sur TRUE. Vous trouverez le schéma XML dans le fichier ABBYY_Scheme_XML.xsd. Ce fichier se trouve dans le dossier Headers pour macOS, ou dans le dossier Inc sous Linux et Windows (Start > Programs > ABBYY FineReader Engine 12 > Installation Folders > Include Files Folder). L’image ci-dessous montre un exemple de blocs Picture, Text et Table dans le fichier XML de sortie. XMLScheme

Description des balises de document

Type complexe

1

non

Document.

Type complexe, une séquence de balises block

0…unbounded

document

Page reconnue.

BlockType

0…unbounded

page

Bloc reconnu.

Type complexe, une séquence de balises rect

Aucun attribut de type

1

block

Région du bloc, ensemble de rectangles.

Complex Type

1…unbounded

region

Rectangle d’une région de bloc.

TextType

0…unbounded

block

Texte d’un bloc de texte reconnu (apparaît en tant qu’élément de la balise block si l’attribut blockType est “Text”).

0…unbounded

cell

Texte d’une cellule de tableau.

ParagraphType

0…unbounded

text

Paragraphe d’un texte reconnu.

LineType

0…unbounded

par

Ligne d’un paragraphe.

FormattingType

0…unbounded

line

Groupe de caractères avec une mise en forme uniforme. Les attributs des caractères alternent avec les variantes de reconnaissance du mot. Les variantes de reconnaissance du mot sont placées avant le mot.

CharParamsType

0…unbounded

formatting

Attributs d’un caractère individuel.

Type complexe, une séquence de balises charRecVariant

Ne possède aucun attribut de type


charParams

Variantes de reconnaissance d’un caractère.

CharRecognitionVariant

0…unbounded

charRecVariants

Variante de reconnaissance d’un caractère.

Type complexe, une séquence de balises wordRecVariant

Ne possède aucun attribut de type


formatting

Variantes de reconnaissance du mot suivant.

WordRecognitionVariant type

0…unbounded

wordRecVariants

Variante de reconnaissance du mot suivant.

Type complexe, séquence de balises charParams

Aucun attribut de type

1

wordRecVariant

Mot.

TableRowType

Has no type attributes

0…unbounded

block

Ligne de tableau (présente si l’attribut blockType est Table).

Type complexe, séquence de balises TextType

0…unbounded

row

Cellule de tableau (présente si l’attribut blockType est Table).

Type complexe, séquence de balises separator

Aucun attribut de type

0…1

block

Groupe de séparateurs, présent si l’attribut blockType est “SeparatorsBox”

Type SeparatorBlockType

0…1

block

Séparateur unique, présent si l’attribut blockType est “Separator”.

0…unbounded

separatorsBox

Séparateur dans un groupe de séparateurs.

Type complexe, séquence de balises checkmark

Aucun attribut de type

0…1

block

Groupe de coches, présent si l’attribut blockType est « GroupCheckmark »

CheckmarkBlockType type

0…1

block

Coche unique, présente si l’attribut blockType est « Checkmark ».

0…unbounded

checkmarkGroup

Coche dans un groupe de coches.

BarcodeInfoType type

0…1

block

Informations sur le code-barres, présentes si l’attribut blockType est « Barcode ».

Point type

1

separator

Point de départ d’un séparateur.

Point type

1

separator

Point final d’un séparateur.

Type complexe

Aucun attribut de type

0…1

document

Paramètres des styles de paragraphe et de police du document.

Type complexe, une séquence de balises paragraphStyle

Aucun attribut de type

0…1

documentData

Collection de styles de mise en forme des paragraphes.

ParagraphStyleType Type

0…unbounded

paragraphStyles

Style de mise en forme d’un paragraphe.

FontStyleType Type

0…unbounded

paragraphStyle

Le style de police.

Type complexe, une séquence de balises section

Ne possède aucun attribut de type

0…1

documentData

La collection des sections du document.

SectionType Type

Ne possède aucun attribut de type

0…unbounded

sections

Une section du document.

TextStreamType Type

0…unbounded

section

Une séquence de paragraphes et de blocs.

Type complexe

0…1

stream


Type complexe

0…unbounded

stream

L’identifiant d’un élément de page.

Schéma hiérarchique des balises

XMLSchemeDiagram

Voir aussi

XMLExportParams