Saltar al contenido principal
Un archivo XML contiene el texto reconocido, junto con información adicional sobre su estructura, atributos y variantes de reconocimiento, descritas mediante etiquetas XML. Consulte la tabla siguiente para ver la descripción de las posibles etiquetas. Es posible que algunas etiquetas no aparezcan, según los valores de los parámetros de reconocimiento. Por ejemplo, las variantes de reconocimiento de palabras o caracteres solo se guardan si las propiedades correspondientes del objeto XMLExportParams están establecidas en TRUE. Puede encontrar el esquema XML en el archivo ABBYY_Scheme_XML.xsd. Este archivo se encuentra en la carpeta Headers para macOS, o en la carpeta Inc para Linux y Windows (Inicio > Programas > ABBYY FineReader Engine 12 > Carpetas de instalación > Carpeta Include Files). La imagen siguiente muestra un ejemplo de los bloques Picture, Text y Table en el archivo XML de salida. XMLScheme

Descripción de las etiquetas de documento

Tipo complejo

1

no

Documento.

Tipo complejo, una secuencia de etiquetas block

0…unbounded

document

Página reconocida.

BlockType

0…unbounded

page

Bloque reconocido.

Tipo complejo, una secuencia de etiquetas rect

No tiene atributos de tipo

1

block

Región del bloque, un conjunto de rectángulos.

Complex Type

1…unbounded

region

Rectángulo de una región de bloque.

TextType

0…unbounded

block

Texto de un bloque de texto reconocido (aparece como elemento de la etiqueta block cuando el atributo blockType es “Text”).

0…unbounded

cell

Texto de una celda de tabla.

ParagraphType

0…unbounded

text

Párrafo de un texto reconocido.

LineType

0…unbounded

par

Línea de un párrafo.

FormattingType

0…unbounded

line

Grupo de caracteres con formato uniforme. Los atributos de los caracteres se alternan con las variantes de reconocimiento de la palabra. Las variantes de reconocimiento de la palabra aparecen antes de la palabra.

CharParamsType

0…unbounded

formatting

Atributos de un único carácter.

Tipo complejo, una secuencia de etiquetas charRecVariant

No tiene atributos de tipo


charParams

Variantes de reconocimiento de un carácter.

CharRecognitionVariant

0…unbounded

charRecVariants

Variante de reconocimiento de un carácter.

Tipo complejo, una secuencia de etiquetas wordRecVariant

No tiene atributos de tipo


formatting

Variantes de reconocimiento de la siguiente palabra.

Tipo WordRecognitionVariant

0…unbounded

wordRecVariants

Variante de reconocimiento de la siguiente palabra.

Tipo complejo, una secuencia de etiquetas charParams

No tiene atributos de tipo

1

wordRecVariant

Palabra.

TableRowType

Has no type attributes

0…unbounded

block

Fila de tabla (presente si el atributo blockType es Table).

Tipo complejo, una secuencia de etiquetas TextType

0…unbounded

row

Celda de tabla (presente si el atributo blockType es Table).

Tipo complejo, una secuencia de etiquetas separator

No tiene atributos de tipo

0…1

block

Grupo de separadores, presente si el atributo blockType es “SeparatorsBox”

SeparatorBlockType type

0…1

block

Separador individual, presente si el atributo blockType es “Separator”.

0…unbounded

separatorsBox

Separador dentro de un grupo de separadores.

Tipo complejo, una secuencia de etiquetas checkmark

No tiene atributos de tipo

0…1

block

Grupo de marcas de verificación; aparece si el atributo blockType es “GroupCheckmark”

CheckmarkBlockType type

0…1

block

Marca de verificación individual; aparece si el atributo blockType es “Checkmark”.

0…unbounded

checkmarkGroup

Marca de verificación dentro de un grupo de marcas de verificación.

BarcodeInfoType type

0…1

block

Información sobre el código de barras; aparece si el atributo blockType es “Barcode”.

Point type

1

separator

Punto de inicio de un separador.

Point type

1

separator

Punto final de un separador.

Tipo complejo

No tiene atributos de tipo

0…1

document

Parámetros de los estilos de párrafo y fuente del documento.

Tipo complejo; secuencia de etiquetas paragraphStyle

No tiene atributos de tipo

0…1

documentData

Colección de estilos de formato de párrafo.

ParagraphStyleType Type

0…sin límite

paragraphStyles

Estilo de formato de un párrafo.

Tipo FontStyleType

0…sin límite

paragraphStyle

El estilo de fuente.

Tipo complejo, una secuencia de etiquetas section

No tiene atributos de tipo

0…1

documentData

La colección de secciones del documento.

Tipo SectionType

No tiene atributos de tipo

0…sin límite

sections

Una sección del documento.

Tipo TextStreamType

0…sin límite

section

Una secuencia de párrafos y bloques.

Tipo complejo

0…1

stream


Tipo complejo

0…unbounded

stream

El ID de un elemento de página.

Diagrama jerárquico de etiquetas

XMLSchemeDiagram

Consulte también

XMLExportParams