Pular para o conteúdo principal
O Vantage oferece as seguintes opções de exportação para campos, texto e imagens de documentos.

Opções para exportar valores de Fields extraídos (aba Fields)

FormatoOpção de exportaçãoDescriçãoNome do arquivo
JSONValores, metadados e estrutura de Field para cada documentoResultados completos da extração de dados. A estrutura do arquivo de saída é descrita no Developer’s Guide.<Applied_skill_name>.json
JSONSomente valoresValores de Field e erros de regra. A estrutura do arquivo de saída é descrita no Developer’s Guide.<Applied_skill_name>_fields.json
CSVSomente valoresValores de Field. Observação: ao exportar Fields de imagem, seus valores no arquivo CSV ficarão vazios. Se uma estrutura repetida estiver aninhada em um grupo, seu nome aparecerá como “New Group/New Table”, mas no nome de um arquivo filho a barra será substituída por um sublinhado (por exemplo, New Group_New Table_055fe8c.csv)<Applied_skill_name>.csv*
*Se um documento contiver objetos repetidos (Fields repetidos, grupos repetidos de Fields, tabelas), eles serão exportados como arquivos separados. O seguinte esquema de nomenclatura é usado:
  • Nome do arquivo CSV pai: <Applied_skill_name>.csv
  • Nome dos arquivos CSV filhos para objetos repetidos: <Field_path>_<random 7-character identifier>.csv
  • Se o nome do arquivo CSV filho ultrapassar 250 caracteres, será usado um esquema de nomenclatura alternativo: <Field_ID>_<random 7-character identifier>.csv
Ao exportar para uma pasta compartilhada, o arquivo CSV pai é salvo na pasta da transação. Se houver vários documentos do mesmo tipo na transação e for gerado um arquivo CSV separado para cada documento, aplicam-se as seguintes regras e o seguinte esquema de nomenclatura:
  • Um sufixo numérico, a partir de 2, é adicionado ao nome do arquivo CSV.
  • É criada uma subpasta na pasta da transação para os arquivos CSV filhos.
  • A subpasta será nomeada da seguinte forma: <Applied_skill_name>_<N> ou <Applied_skill_name>_fields_<N> (se a exportação JSON — Somente valores estiver habilitada), em que N é o número sequencial do documento na transação (a partir de 2 se houver mais de um documento na transação).
  • Para objetos repetidos, o nome do arquivo CSV filho é indicado no valor do Field do arquivo CSV pai.
O arquivo CSV é formatado da seguinte forma:
  • Os nomes dos Fields são escritos na primeira linha do arquivo CSV.
  • Vírgulas são usadas para separar as colunas.
  • A codificação utilizada é UTF-8 com BOM.
  • Instâncias vazias de Fields ou grupos repetidos, ou linhas de tabela vazias, não são exportadas, ou seja, o arquivo CSV resultante não terá linhas vazias.

Opções para exportar o texto do documento (aba Text)

FormatoOpção de exportaçãoDescriçãoNome do arquivo
JSONSomente textoUm arquivo JSON que contém apenas o texto reconhecido; o layout do documento não é preservado. Observação: selecionar esta opção torna impossível a exportação para DOCX, XLSX e PPTX.<Applied_skill_name>_text.json
JSONPreservar a estrutura do documentoUm arquivo JSON que contém o texto reconhecido com o layout do documento preservado.<Applied_skill_name>_text.json
XMLSomente textoUm arquivo XML que contém apenas o texto reconhecido; o layout do documento não é preservado. Observação: selecionar esta opção torna impossível a exportação para DOCX, XLSX e PPTX.<Applied_skill_name>.xml
XMLPreservar a estrutura do documentoUm arquivo XML que contém o texto reconhecido com o layout do documento preservado.<Applied_skill_name>.xml
ALTOXMLSomente textoUm arquivo ALTO XML que contém apenas o texto reconhecido; o layout do documento não é preservado. O arquivo está em conformidade com o padrão ALTO, versão do esquema 4.2. Observação: selecionar esta opção torna impossível a exportação para DOCX, XLSX e PPTX.<Applied_skill_name>.xml
ALTOXMLPreservar a estrutura do documentoUm arquivo ALTO XML que contém o texto reconhecido com o layout do documento preservado. O arquivo está em conformidade com o padrão ALTO, versão do esquema 4.2.<Applied_skill_name>.xml
TXTUm documento de texto simples. A estrutura original do documento é preservada usando espaços em branco.<Applied_skill_name>.txt
DOCXEditávelUm documento do Word editável que pode não ter exatamente a mesma aparência do original.<Applied_skill_name>.docx
DOCXExatoUm documento do Word não editável. A estrutura original do documento é totalmente preservada.<Applied_skill_name>.docx
XLSXUm documento do Excel editável. A estrutura original do documento é preservada.<Applied_skill_name>.xlsx
PPTXUm documento do PowerPoint editável. A estrutura original do documento é preservada.<Applied_skill_name>.pptx
HTMLUm documento HTML que preserva a estrutura original do documento.<Applied_skill_name>.html
Ao exportar para uma pasta compartilhada, todos os arquivos são salvos na pasta da transação. Sufixos numéricos a partir de 2 serão adicionados aos nomes dos arquivos se houver mais de um documento do mesmo tipo na transação. O texto exportado reflete as alterações nos valores de campos feitas pelo Operador de Revisão Manual durante a revisão manual.
Observação: as opções de exportação (Somente texto e Preservar a estrutura do documento) para JSON, XML e ALTOXML não podem ser diferentes. Se você especificar outra opção de exportação para um desses formatos, essa opção será aplicada aos outros formatos.

Opções de exportação de imagem do documento (Aba Imagem)

FormatoOpção de exportaçãoDescriçãoNome do arquivo
PDFPDF/A-3aUm arquivo PDF com uma camada de texto sobre a imagem do documento. A camada de texto reflete as alterações nos valores de campo feitas pelo Operador de Revisão Manual durante a revisão manual.<Applied_skill_name>.pdf
PDFPDF/A-3bUm arquivo PDF com uma camada de texto sobre a imagem do documento. A camada de texto reflete as alterações nos valores de campo feitas pelo Operador de Revisão Manual durante a revisão manual.<Applied_skill_name>.pdf
PDFSomente imagemUm PDF não editável no padrão PDF/A-3b, sem camada de texto.<Applied_skill_name>.pdf
TIFFUm arquivo que contém uma imagem aprimorada no formato TIFF.<Applied_skill_name>.tiff
JPEGQualidade máximaUm arquivo que contém uma imagem aprimorada no formato JPEG. Se você escolher esta opção de compactação, o nível de qualidade da imagem será definido como 95%.pages/page_<N>.jpg
JPEGTamanho menorUm arquivo que contém uma imagem aprimorada no formato JPEG. Se você escolher esta opção de compactação, o nível de qualidade da imagem será definido como 75%. Isso permite salvar a imagem em formato legível e, ao mesmo tempo, reduzir seu tamanho.pages/page_<N>.jpg
Observação: Para cada opção de exportação em PDF, você pode escolher entre “tamanho menor” (opção padrão) e “qualidade máxima”. O tamanho menor é obtido usando a compactação Mixed Raster Content (MRC), que determina taxas de compactação ideais separadamente para o texto, as imagens e o plano de fundo.
Ao exportar para uma pasta compartilhada, é criada uma subpasta para cada documento na transação. As seguintes regras e o esquema de nomenclatura serão usados:
  • A subpasta será nomeada da seguinte forma: <Applied_skill_name>_<N> ou <Applied_skill_name>_fields_<N> (se a exportação JSON — Somente valores estiver habilitada). N é o número sequencial do documento na transação (começando em 2 se houver mais de um documento na transação).
  • Dentro dessa subpasta, é criada uma subpasta Pages para armazenar os arquivos JPG. Os nomes dos arquivos são formatados como page_<N>.jpg, em que N é o número sequencial da página.
  • Os arquivos PDF e TIFF são salvos na pasta da transação.
  • Serão adicionados sufixos numéricos a partir de 2 aos nomes dos arquivos se houver mais de um documento do mesmo tipo na transação.

Convenção Geral de Nomenclatura

A maioria dos arquivos exportados incluirá <Applied_skill_name> em seus nomes, que corresponde a um dos seguintes:
  • O nome da última Skill de Documento aplicada ao documento.
  • O nome da última Skill de Classificação aplicada ao documento, se nenhuma Skill de Documento tiver sido aplicada.
  • “Unknown” se nenhuma Skill de Documento ou de Classificação tiver sido aplicada, embora pelo menos uma delas exista no fluxo da Skill de Processo.
Se houver vários arquivos de saída e a exportação para uma pasta compartilhada estiver configurada, números sequenciais serão adicionados aos nomes dos arquivos para que cada nome seja exclusivo.

Transações com erros

Se uma transação não for concluída com sucesso, o Vantage gera um arquivo Error.json, que contém uma string JSON com as seguintes informações sobre a transação:
  • O identificador da transação
  • O status da transação (Failed)
  • A mensagem de erro
  • A lista contendo todos os identificadores e nomes dos arquivos de origem na transação
Por padrão, os dados exportados são armazenados por 2 semanas, de acordo com a política de retenção.