Opzioni per l’esportazione dei valori dei Field estratti (scheda Fields)
| Formato | Opzione di esportazione | Descrizione | Nome file |
|---|---|---|---|
| JSON | Valori, metadati e struttura dei field per ogni documento | Risultati completi dell’estrazione dei dati. La struttura del file di output è descritta nella Guida per gli sviluppatori. | <Applied_skill_name>.json |
| JSON | Solo valori | Valori dei field ed errori delle regole. La struttura del file di output è descritta nella Guida per gli sviluppatori. | <Applied_skill_name>_fields.json |
| CSV | Solo valori | Valori dei field. Nota: durante l’esportazione dei field immagine, i relativi valori nel file CSV saranno vuoti. Se una struttura ripetuta è annidata all’interno di un gruppo, il suo nome apparirà come “New Group/New Table”, ma nel nome di un file figlio la barra verrà sostituita da un underscore (ad esempio, New Group_New Table_055fe8c.csv) | <Applied_skill_name>.csv* |
- Nome del file CSV padre:
<Applied_skill_name>.csv - Nome dei file CSV figli per oggetti ripetuti:
<Field_path>_<random 7-character identifier>.csv - Se il nome del file CSV figlio supera i 250 caratteri, verrà utilizzato uno schema di denominazione alternativo:
<Field_ID>_<random 7-character identifier>.csv
- Al nome del file CSV viene aggiunto un suffisso numerico a partire da 2.
- Nella cartella della transaction viene creata una sottocartella per i file CSV figli.
- La sottocartella verrà denominata come segue:
<Applied_skill_name>_<N>oppure<Applied_skill_name>_fields_<N>(se l’esportazione JSON - Solo valori è abilitata), dove N è il numero sequenziale del documento nella transaction (a partire da 2 se è presente più di un documento nella transaction). - Per gli oggetti ripetuti, il nome del file CSV figlio è riportato nel valore del field del file CSV padre.
- I nomi dei field sono inseriti nella prima riga del file CSV.
- Le colonne sono separate da una virgola.
- La codifica utilizzata è UTF-8 con BOM.
- Le istanze vuote dei field o dei gruppi ripetuti, o le righe vuote della tabella, non vengono esportate; ciò significa che il file CSV risultante non conterrà righe vuote.
Opzioni per l’esportazione del testo del documento (scheda Testo)
| Formato | Opzione di esportazione | Descrizione | Nome file |
|---|---|---|---|
| JSON | Solo testo | File JSON che contiene solo il testo riconosciuto; il layout del documento non viene preservato. Nota: Selezionando questa opzione, l’esportazione in DOCX, XLSX e PPTX non è possibile. | <Applied_skill_name>_text.json |
| JSON | Preserva la struttura | File JSON che contiene il testo riconosciuto con il layout del documento preservato. | <Applied_skill_name>_text.json |
| XML | Solo testo | File XML che contiene solo il testo riconosciuto; il layout del documento non viene preservato. Nota: Selezionando questa opzione, l’esportazione in DOCX, XLSX e PPTX non è possibile. | <Applied_skill_name>.xml |
| XML | Preserva la struttura | File XML che contiene il testo riconosciuto con il layout del documento preservato. | <Applied_skill_name>.xml |
| ALTOXML | Solo testo | File ALTO XML che contiene solo il testo riconosciuto; il layout del documento non viene preservato. Il file è conforme allo standard ALTO, versione schema 4.2. Nota: Selezionando questa opzione, l’esportazione in DOCX, XLSX e PPTX non è possibile. | <Applied_skill_name>.xml |
| ALTOXML | Preserva la struttura | File ALTO XML che contiene il testo riconosciuto con il layout del documento preservato. Il file è conforme allo standard ALTO, versione schema 4.2. | <Applied_skill_name>.xml |
| TXT | Documento di testo semplice. La struttura originale del documento è preservata tramite spazi. | <Applied_skill_name>.txt | |
| DOCX | Modificabile | Documento Word modificabile che potrebbe non corrispondere esattamente all’originale. | <Applied_skill_name>.docx |
| DOCX | Fedeltà totale | Documento Word non modificabile. La struttura originale del documento è completamente preservata. | <Applied_skill_name>.docx |
| XLSX | Documento Excel modificabile. La struttura originale del documento è preservata. | <Applied_skill_name>.xlsx | |
| PPTX | Documento PowerPoint modificabile. La struttura originale del documento è preservata. | <Applied_skill_name>.pptx | |
| HTML | Documento HTML che preserva la struttura originale del documento. | <Applied_skill_name>.html |
Nota: Le opzioni di esportazione (Solo testo e Preserva la struttura) per JSON, XML e ALTOXML non possono differire. Se specifichi un’altra opzione di esportazione per uno di questi formati, la stessa opzione verrà applicata anche agli altri formati.
Opzioni per l’esportazione dell’immagine del documento (scheda Immagine)
| Formato | Opzione di esportazione | Descrizione | Nome file |
|---|---|---|---|
| PDF/A-3a | File PDF con un livello di testo sovrapposto all’immagine del documento. Il livello di testo riflette le modifiche ai valori dei field apportate dall’Operatore di revisione manuale durante la revisione manuale. | <Applied_skill_name>.pdf | |
| PDF/A-3b | File PDF con un livello di testo sovrapposto all’immagine del documento. Il livello di testo riflette le modifiche ai valori dei field apportate dall’Operatore di revisione manuale durante la revisione manuale. | <Applied_skill_name>.pdf | |
| Solo immagine | PDF non modificabile conforme allo standard PDF/A-3b, senza livello di testo. | <Applied_skill_name>.pdf | |
| TIFF | File contenente un’immagine migliorata in formato TIFF. | <Applied_skill_name>.tiff | |
| JPEG | Qualità massima | File contenente un’immagine migliorata in formato JPEG. Se si sceglie questa opzione di compressione, il livello di qualità dell’immagine sarà impostato al 95%. | pages/page_<N>.jpg |
| JPEG | Dimensioni ridotte | File contenente un’immagine migliorata in formato JPEG. Se si sceglie questa opzione di compressione, il livello di qualità dell’immagine sarà impostato al 75%. Ciò consente di salvare l’immagine in forma leggibile riducendone comunque le dimensioni. | pages/page_<N>.jpg |
Nota: Per ciascuna opzione di esportazione PDF, è possibile scegliere tra “dimensioni ridotte” (opzione predefinita) e “qualità massima”. La riduzione delle dimensioni si ottiene utilizzando la compressione Mixed Raster Content (MRC), che determina i tassi di compressione ottimali separatamente per il testo, le immagini e lo sfondo.Quando si esporta in una cartella condivisa, viene creata una sottocartella per ogni documento nella transaction. Verranno applicate le seguenti regole e lo schema di denominazione:
- La sottocartella verrà denominata come segue:
<Applied_skill_name>_<N>oppure<Applied_skill_name>_fields_<N>(se l’esportazione JSON - Solo valori è abilitata). N è il numero sequenziale del documento nella transaction (a partire da 2 se nella transaction sono presenti più documenti). - All’interno di questa sottocartella, viene creata una sottocartella Pages per archiviare i file JPG. I nomi dei file sono
page_<N>.jpg, dove N è il numero sequenziale della Pagina. - I file PDF e TIFF vengono salvati nella cartella della transaction.
- Ai nomi dei file verranno aggiunti suffissi numerici a partire da 2 se nella transaction è presente più di un documento dello stesso tipo.
Schema generale di denominazione
<Applied_skill_name> nel nome, che corrisponde a una delle seguenti opzioni:
- Il nome dell’ultima Document skill applicata al documento.
- Il nome dell’ultima Skill di classificazione applicata al documento se non è stata applicata alcuna Document skill.
- “Unknown” se non sono state applicate né Document skill né skill di classificazione, mentre almeno una di esse è presente nel flusso della Process skill.
Transaction con errori
Error.json, che contiene una string JSON con le seguenti informazioni sulla transaction:
- L’identificatore della transaction
- Lo stato della transaction (Failed)
- Il messaggio di errore
- L’array contenente tutti gli identificatori e i nomi dei file di origine nella transaction
