Opções para exportar valores de Fields extraídos (aba Fields)
| Formato | Opção de exportação | Descrição | Nome do arquivo |
|---|---|---|---|
| JSON | Valores, metadados e estrutura de Field para cada documento | Resultados completos da extração de dados. A estrutura do arquivo de saída é descrita no Developer’s Guide. | <Applied_skill_name>.json |
| JSON | Somente valores | Valores de Field e erros de regra. A estrutura do arquivo de saída é descrita no Developer’s Guide. | <Applied_skill_name>_fields.json |
| CSV | Somente valores | Valores de Field. Observação: ao exportar Fields de imagem, seus valores no arquivo CSV ficarão vazios. Se uma estrutura repetida estiver aninhada em um grupo, seu nome aparecerá como “New Group/New Table”, mas no nome de um arquivo filho a barra será substituída por um sublinhado (por exemplo, New Group_New Table_055fe8c.csv) | <Applied_skill_name>.csv* |
- Nome do arquivo CSV pai:
<Applied_skill_name>.csv - Nome dos arquivos CSV filhos para objetos repetidos:
<Field_path>_<random 7-character identifier>.csv - Se o nome do arquivo CSV filho ultrapassar 250 caracteres, será usado um esquema de nomenclatura alternativo:
<Field_ID>_<random 7-character identifier>.csv
- Um sufixo numérico, a partir de 2, é adicionado ao nome do arquivo CSV.
- É criada uma subpasta na pasta da transação para os arquivos CSV filhos.
- A subpasta será nomeada da seguinte forma:
<Applied_skill_name>_<N>ou<Applied_skill_name>_fields_<N>(se a exportação JSON — Somente valores estiver habilitada), em que N é o número sequencial do documento na transação (a partir de 2 se houver mais de um documento na transação). - Para objetos repetidos, o nome do arquivo CSV filho é indicado no valor do Field do arquivo CSV pai.
- Os nomes dos Fields são escritos na primeira linha do arquivo CSV.
- Vírgulas são usadas para separar as colunas.
- A codificação utilizada é UTF-8 com BOM.
- Instâncias vazias de Fields ou grupos repetidos, ou linhas de tabela vazias, não são exportadas, ou seja, o arquivo CSV resultante não terá linhas vazias.
Opções para exportar o texto do documento (aba Text)
| Formato | Opção de exportação | Descrição | Nome do arquivo |
|---|---|---|---|
| JSON | Somente texto | Um arquivo JSON que contém apenas o texto reconhecido; o layout do documento não é preservado. Observação: selecionar esta opção torna impossível a exportação para DOCX, XLSX e PPTX. | <Applied_skill_name>_text.json |
| JSON | Preservar a estrutura do documento | Um arquivo JSON que contém o texto reconhecido com o layout do documento preservado. | <Applied_skill_name>_text.json |
| XML | Somente texto | Um arquivo XML que contém apenas o texto reconhecido; o layout do documento não é preservado. Observação: selecionar esta opção torna impossível a exportação para DOCX, XLSX e PPTX. | <Applied_skill_name>.xml |
| XML | Preservar a estrutura do documento | Um arquivo XML que contém o texto reconhecido com o layout do documento preservado. | <Applied_skill_name>.xml |
| ALTOXML | Somente texto | Um arquivo ALTO XML que contém apenas o texto reconhecido; o layout do documento não é preservado. O arquivo está em conformidade com o padrão ALTO, versão do esquema 4.2. Observação: selecionar esta opção torna impossível a exportação para DOCX, XLSX e PPTX. | <Applied_skill_name>.xml |
| ALTOXML | Preservar a estrutura do documento | Um arquivo ALTO XML que contém o texto reconhecido com o layout do documento preservado. O arquivo está em conformidade com o padrão ALTO, versão do esquema 4.2. | <Applied_skill_name>.xml |
| TXT | Um documento de texto simples. A estrutura original do documento é preservada usando espaços em branco. | <Applied_skill_name>.txt | |
| DOCX | Editável | Um documento do Word editável que pode não ter exatamente a mesma aparência do original. | <Applied_skill_name>.docx |
| DOCX | Exato | Um documento do Word não editável. A estrutura original do documento é totalmente preservada. | <Applied_skill_name>.docx |
| XLSX | Um documento do Excel editável. A estrutura original do documento é preservada. | <Applied_skill_name>.xlsx | |
| PPTX | Um documento do PowerPoint editável. A estrutura original do documento é preservada. | <Applied_skill_name>.pptx | |
| HTML | Um documento HTML que preserva a estrutura original do documento. | <Applied_skill_name>.html |
Observação: as opções de exportação (Somente texto e Preservar a estrutura do documento) para JSON, XML e ALTOXML não podem ser diferentes. Se você especificar outra opção de exportação para um desses formatos, essa opção será aplicada aos outros formatos.
Opções de exportação de imagem do documento (Aba Imagem)
| Formato | Opção de exportação | Descrição | Nome do arquivo |
|---|---|---|---|
| PDF/A-3a | Um arquivo PDF com uma camada de texto sobre a imagem do documento. A camada de texto reflete as alterações nos valores de campo feitas pelo Operador de Revisão Manual durante a revisão manual. | <Applied_skill_name>.pdf | |
| PDF/A-3b | Um arquivo PDF com uma camada de texto sobre a imagem do documento. A camada de texto reflete as alterações nos valores de campo feitas pelo Operador de Revisão Manual durante a revisão manual. | <Applied_skill_name>.pdf | |
| Somente imagem | Um PDF não editável no padrão PDF/A-3b, sem camada de texto. | <Applied_skill_name>.pdf | |
| TIFF | Um arquivo que contém uma imagem aprimorada no formato TIFF. | <Applied_skill_name>.tiff | |
| JPEG | Qualidade máxima | Um arquivo que contém uma imagem aprimorada no formato JPEG. Se você escolher esta opção de compactação, o nível de qualidade da imagem será definido como 95%. | pages/page_<N>.jpg |
| JPEG | Tamanho menor | Um arquivo que contém uma imagem aprimorada no formato JPEG. Se você escolher esta opção de compactação, o nível de qualidade da imagem será definido como 75%. Isso permite salvar a imagem em formato legível e, ao mesmo tempo, reduzir seu tamanho. | pages/page_<N>.jpg |
Observação: Para cada opção de exportação em PDF, você pode escolher entre “tamanho menor” (opção padrão) e “qualidade máxima”. O tamanho menor é obtido usando a compactação Mixed Raster Content (MRC), que determina taxas de compactação ideais separadamente para o texto, as imagens e o plano de fundo.Ao exportar para uma pasta compartilhada, é criada uma subpasta para cada documento na transação. As seguintes regras e o esquema de nomenclatura serão usados:
- A subpasta será nomeada da seguinte forma:
<Applied_skill_name>_<N>ou<Applied_skill_name>_fields_<N>(se a exportação JSON — Somente valores estiver habilitada). N é o número sequencial do documento na transação (começando em 2 se houver mais de um documento na transação). - Dentro dessa subpasta, é criada uma subpasta Pages para armazenar os arquivos JPG. Os nomes dos arquivos são formatados como
page_<N>.jpg, em que N é o número sequencial da página. - Os arquivos PDF e TIFF são salvos na pasta da transação.
- Serão adicionados sufixos numéricos a partir de 2 aos nomes dos arquivos se houver mais de um documento do mesmo tipo na transação.
Convenção Geral de Nomenclatura
<Applied_skill_name> em seus nomes, que corresponde a um dos seguintes:
- O nome da última Skill de Documento aplicada ao documento.
- O nome da última Skill de Classificação aplicada ao documento, se nenhuma Skill de Documento tiver sido aplicada.
- “Unknown” se nenhuma Skill de Documento ou de Classificação tiver sido aplicada, embora pelo menos uma delas exista no fluxo da Skill de Processo.
Transações com erros
Error.json, que contém uma string JSON com as seguintes informações sobre a transação:
- O identificador da transação
- O status da transação (Failed)
- A mensagem de erro
- A lista contendo todos os identificadores e nomes dos arquivos de origem na transação
