Vai al contenuto principale
Vantage offre le seguenti opzioni di esportazione per i field del documento, il testo e le immagini.

Opzioni per l’esportazione dei valori dei Field estratti (scheda Fields)

FormatoOpzione di esportazioneDescrizioneNome file
JSONValori, metadati e struttura dei field per ogni documentoRisultati completi dell’estrazione dei dati. La struttura del file di output è descritta nella Guida per gli sviluppatori.<Applied_skill_name>.json
JSONSolo valoriValori dei field ed errori delle regole. La struttura del file di output è descritta nella Guida per gli sviluppatori.<Applied_skill_name>_fields.json
CSVSolo valoriValori dei field. Nota: durante l’esportazione dei field immagine, i relativi valori nel file CSV saranno vuoti. Se una struttura ripetuta è annidata all’interno di un gruppo, il suo nome apparirà come “New Group/New Table”, ma nel nome di un file figlio la barra verrà sostituita da un underscore (ad esempio, New Group_New Table_055fe8c.csv)<Applied_skill_name>.csv*
*Se un documento contiene oggetti ripetuti (field ripetuti, gruppi ripetuti di field, tabelle), questi vengono esportati come file separati. Viene utilizzato il seguente schema di denominazione:
  • Nome del file CSV padre: <Applied_skill_name>.csv
  • Nome dei file CSV figli per oggetti ripetuti: <Field_path>_<random 7-character identifier>.csv
  • Se il nome del file CSV figlio supera i 250 caratteri, verrà utilizzato uno schema di denominazione alternativo: <Field_ID>_<random 7-character identifier>.csv
Durante l’esportazione in una cartella condivisa, il file CSV padre viene salvato nella cartella della transaction. Se ci sono più documenti dello stesso tipo nella transaction e viene generato un file CSV separato per ciascun documento, si applicano le seguenti regole e lo schema di denominazione:
  • Al nome del file CSV viene aggiunto un suffisso numerico a partire da 2.
  • Nella cartella della transaction viene creata una sottocartella per i file CSV figli.
  • La sottocartella verrà denominata come segue: <Applied_skill_name>_<N> oppure <Applied_skill_name>_fields_<N> (se l’esportazione JSON - Solo valori è abilitata), dove N è il numero sequenziale del documento nella transaction (a partire da 2 se è presente più di un documento nella transaction).
  • Per gli oggetti ripetuti, il nome del file CSV figlio è riportato nel valore del field del file CSV padre.
Il file CSV è formattato come segue:
  • I nomi dei field sono inseriti nella prima riga del file CSV.
  • Le colonne sono separate da una virgola.
  • La codifica utilizzata è UTF-8 con BOM.
  • Le istanze vuote dei field o dei gruppi ripetuti, o le righe vuote della tabella, non vengono esportate; ciò significa che il file CSV risultante non conterrà righe vuote.

Opzioni per l’esportazione del testo del documento (scheda Testo)

FormatoOpzione di esportazioneDescrizioneNome file
JSONSolo testoFile JSON che contiene solo il testo riconosciuto; il layout del documento non viene preservato. Nota: Selezionando questa opzione, l’esportazione in DOCX, XLSX e PPTX non è possibile.<Applied_skill_name>_text.json
JSONPreserva la strutturaFile JSON che contiene il testo riconosciuto con il layout del documento preservato.<Applied_skill_name>_text.json
XMLSolo testoFile XML che contiene solo il testo riconosciuto; il layout del documento non viene preservato. Nota: Selezionando questa opzione, l’esportazione in DOCX, XLSX e PPTX non è possibile.<Applied_skill_name>.xml
XMLPreserva la strutturaFile XML che contiene il testo riconosciuto con il layout del documento preservato.<Applied_skill_name>.xml
ALTOXMLSolo testoFile ALTO XML che contiene solo il testo riconosciuto; il layout del documento non viene preservato. Il file è conforme allo standard ALTO, versione schema 4.2. Nota: Selezionando questa opzione, l’esportazione in DOCX, XLSX e PPTX non è possibile.<Applied_skill_name>.xml
ALTOXMLPreserva la strutturaFile ALTO XML che contiene il testo riconosciuto con il layout del documento preservato. Il file è conforme allo standard ALTO, versione schema 4.2.<Applied_skill_name>.xml
TXTDocumento di testo semplice. La struttura originale del documento è preservata tramite spazi.<Applied_skill_name>.txt
DOCXModificabileDocumento Word modificabile che potrebbe non corrispondere esattamente all’originale.<Applied_skill_name>.docx
DOCXFedeltà totaleDocumento Word non modificabile. La struttura originale del documento è completamente preservata.<Applied_skill_name>.docx
XLSXDocumento Excel modificabile. La struttura originale del documento è preservata.<Applied_skill_name>.xlsx
PPTXDocumento PowerPoint modificabile. La struttura originale del documento è preservata.<Applied_skill_name>.pptx
HTMLDocumento HTML che preserva la struttura originale del documento.<Applied_skill_name>.html
Quando si esporta in una cartella condivisa, tutti i file vengono salvati nella cartella della transaction. Se nella transaction è presente più di un documento dello stesso tipo, ai nomi dei file verranno aggiunti suffissi numerici a partire da 2. Il testo esportato riflette le modifiche ai valori dei field apportate dall’operatore di revisione manuale durante la revisione manuale.
Nota: Le opzioni di esportazione (Solo testo e Preserva la struttura) per JSON, XML e ALTOXML non possono differire. Se specifichi un’altra opzione di esportazione per uno di questi formati, la stessa opzione verrà applicata anche agli altri formati.

Opzioni per l’esportazione dell’immagine del documento (scheda Immagine)

FormatoOpzione di esportazioneDescrizioneNome file
PDFPDF/A-3aFile PDF con un livello di testo sovrapposto all’immagine del documento. Il livello di testo riflette le modifiche ai valori dei field apportate dall’Operatore di revisione manuale durante la revisione manuale.<Applied_skill_name>.pdf
PDFPDF/A-3bFile PDF con un livello di testo sovrapposto all’immagine del documento. Il livello di testo riflette le modifiche ai valori dei field apportate dall’Operatore di revisione manuale durante la revisione manuale.<Applied_skill_name>.pdf
PDFSolo immaginePDF non modificabile conforme allo standard PDF/A-3b, senza livello di testo.<Applied_skill_name>.pdf
TIFFFile contenente un’immagine migliorata in formato TIFF.<Applied_skill_name>.tiff
JPEGQualità massimaFile contenente un’immagine migliorata in formato JPEG. Se si sceglie questa opzione di compressione, il livello di qualità dell’immagine sarà impostato al 95%.pages/page_<N>.jpg
JPEGDimensioni ridotteFile contenente un’immagine migliorata in formato JPEG. Se si sceglie questa opzione di compressione, il livello di qualità dell’immagine sarà impostato al 75%. Ciò consente di salvare l’immagine in forma leggibile riducendone comunque le dimensioni.pages/page_<N>.jpg
Nota: Per ciascuna opzione di esportazione PDF, è possibile scegliere tra “dimensioni ridotte” (opzione predefinita) e “qualità massima”. La riduzione delle dimensioni si ottiene utilizzando la compressione Mixed Raster Content (MRC), che determina i tassi di compressione ottimali separatamente per il testo, le immagini e lo sfondo.
Quando si esporta in una cartella condivisa, viene creata una sottocartella per ogni documento nella transaction. Verranno applicate le seguenti regole e lo schema di denominazione:
  • La sottocartella verrà denominata come segue: <Applied_skill_name>_<N> oppure <Applied_skill_name>_fields_<N> (se l’esportazione JSON - Solo valori è abilitata). N è il numero sequenziale del documento nella transaction (a partire da 2 se nella transaction sono presenti più documenti).
  • All’interno di questa sottocartella, viene creata una sottocartella Pages per archiviare i file JPG. I nomi dei file sono page_<N>.jpg, dove N è il numero sequenziale della Pagina.
  • I file PDF e TIFF vengono salvati nella cartella della transaction.
  • Ai nomi dei file verranno aggiunti suffissi numerici a partire da 2 se nella transaction è presente più di un documento dello stesso tipo.

Schema generale di denominazione

La maggior parte dei file esportati conterrà <Applied_skill_name> nel nome, che corrisponde a una delle seguenti opzioni:
  • Il nome dell’ultima Document skill applicata al documento.
  • Il nome dell’ultima Skill di classificazione applicata al documento se non è stata applicata alcuna Document skill.
  • “Unknown” se non sono state applicate né Document skill né skill di classificazione, mentre almeno una di esse è presente nel flusso della Process skill.
Se sono presenti più file di output ed è configurata l’esportazione in una cartella condivisa, ai nomi dei file verranno aggiunti numeri progressivi per rendere ciascun nome univoco.

Transaction con errori

Se una transaction non viene completata correttamente, Vantage genera un file Error.json, che contiene una string JSON con le seguenti informazioni sulla transaction:
  • L’identificatore della transaction
  • Lo stato della transaction (Failed)
  • Il messaggio di errore
  • L’array contenente tutti gli identificatori e i nomi dei file di origine nella transaction
Per impostazione predefinita, i dati esportati vengono conservati per 2 settimane, in conformità con la policy di conservazione.