Pular para o conteúdo principal
Um arquivo XML contém o texto reconhecido, com informações adicionais sobre sua estrutura, atributos e variantes de reconhecimento descritas por meio de tags XML. Consulte a tabela abaixo para ver a descrição das tags possíveis. Algumas tags podem não estar presentes, dependendo dos valores dos parâmetros de reconhecimento. Por exemplo, as variantes de reconhecimento de palavras ou caracteres só serão salvas se as propriedades correspondentes do objeto XMLExportParams estiverem definidas como TRUE. Você pode encontrar o esquema XML no arquivo ABBYY_Scheme_XML.xsd. Esse arquivo está localizado na pasta Headers no macOS ou na pasta Inc no Linux e no Windows (Iniciar > Programas > ABBYY FineReader Engine 12 > Pastas de instalação > Pasta Include Files). A imagem abaixo mostra um exemplo de blocos Picture, Text e Table no arquivo XML de saída. XMLScheme

Descrição das tags de documento

Tipo Complexo

1

não

Documento.

Tipo Complexo, uma sequência de tags de bloco

0…unbounded

document

Página reconhecida.

BlockType

0…unbounded

page

Bloco reconhecido.

Tipo Complexo, uma sequência de tags rect

Não possui atributos de tipo

1

block

Região do bloco, um conjunto de retângulos.

Tipo Complexo

1…unbounded

region

Retângulo de uma região de bloco.

TextType

0…unbounded

block

Texto de um bloco de texto reconhecido (aparece como elemento da tag block, se o atributo blockType for “Text”).

0…unbounded

cell

Texto de uma célula de tabela.

ParagraphType

0…unbounded

text

Parágrafo de um texto reconhecido.

LineType

0…unbounded

par

Linha de um parágrafo.

FormattingType

0…unbounded

line

Grupo de caracteres com formatação uniforme. Os atributos dos caracteres se intercalam com as variantes de reconhecimento da palavra. As variantes de reconhecimento da palavra são escritas antes da palavra.

CharParamsType

0…unbounded

formatting

Atributos de um único caractere.

Tipo complexo, uma sequência de tags charRecVariant

Não possui atributos de tipo


charParams

Variantes de reconhecimento de um caractere.

CharRecognitionVariant

0…unbounded

charRecVariants

Variante de reconhecimento de um caractere.

Tipo complexo, uma sequência de tags wordRecVariant

Não possui atributos de tipo


formatting

Variantes de reconhecimento da próxima palavra.

Tipo WordRecognitionVariant

0…unbounded

wordRecVariants

Variante de reconhecimento da próxima palavra.

Tipo complexo, uma sequência de tags charParams

Não possui atributos de tipo

1

wordRecVariant

Palavra.

TableRowType

Não possui atributos de tipo

0…unbounded

block

Linha de tabela (presente se o atributo blockType for Table).

Tipo complexo, uma sequência de tags TextType

0…unbounded

row

Célula de tabela (presente se o atributo blockType for Table).

Tipo complexo, uma sequência de tags separator

Não possui atributos de tipo

0…1

block

Grupo de separadores, presente se o atributo blockType for “SeparatorsBox”

Tipo SeparatorBlockType

0…1

block

Separador único, presente se o atributo blockType for “Separator”.

0…unbounded

separatorsBox

Separador em um grupo de separadores.

Tipo complexo, uma sequência de tags checkmark

Não possui atributos de tipo

0…1

block

Grupo de marcas de seleção, presente se o atributo blockType for “GroupCheckmark”

CheckmarkBlockType type

0…1

block

Marca de seleção individual, presente se o atributo blockType for “Checkmark”.

0…unbounded

checkmarkGroup

Marca de seleção em um grupo de marcas de seleção.

BarcodeInfoType type

0…1

block

Informações sobre o código de barras, presente se o atributo blockType for “Barcode”.

Point type

1

separator

Ponto inicial de um separador.

Point type

1

separator

Ponto final de um separador.

Tipo complexo

Não possui atributos de tipo

0…1

document

Parâmetros dos estilos de parágrafo e de fonte do documento.

Tipo complexo, uma sequência de tags paragraphStyle

Não possui atributos de tipo

0…1

documentData

Coleção de estilos de formatação de parágrafo.

ParagraphStyleType Type

0…unbounded

paragraphStyles

Estilo de formatação de um parágrafo.

FontStyleType Type

0…unbounded

paragraphStyle

O estilo de fonte.

Complex Type, a sequence of section tags

Não possui atributos de tipo

0…1

documentData

A coleção de seções do documento.

SectionType Type

Não possui atributos de tipo

0…unbounded

sections

Uma seção do documento.

TextStreamType Type

0…unbounded

section

Uma sequência de parágrafos e blocos.

Complex Type

0…1

stream


Tipo Complexo

0…unbounded

stream

O ID de um elemento de página.

Diagrama da hierarquia de tags

XMLSchemeDiagram

Veja também

XMLExportParams