Passer au contenu principal
Vantage propose les options d’export suivantes pour les champs de document, le texte et les images.

Options d’exportation des valeurs de Field extraites (onglet Fields)

FormatOption d’exportationDescriptionNom de fichier
JSONValeurs, métadonnées et structure des Field pour chaque documentRésultats complets de l’extraction des données. La structure du fichier de sortie est décrite dans le Guide du développeur.<Applied_skill_name>.json
JSONValeurs uniquementValeurs des Field et erreurs de règles. La structure du fichier de sortie est décrite dans le Guide du développeur.<Applied_skill_name>_fields.json
CSVValeurs uniquementValeurs des Field. Remarque : lors de l’exportation de Field image, leurs valeurs dans le fichier CSV seront vides. Si une structure répétitive est imbriquée dans un groupe, son nom apparaîtra comme “New Group/New Table”, mais dans le nom d’un fichier enfant, la barre oblique sera remplacée par un underscore (par exemple, New Group_New Table_055fe8c.csv)<Applied_skill_name>.csv*
*Si un document contient des objets répétitifs (champs répétitifs, groupes répétitifs de champs, tableaux), ils sont exportés en tant que fichiers distincts. Le schéma de nommage suivant est utilisé :
  • Nom du fichier CSV parent : <Applied_skill_name>.csv
  • Nom des fichiers CSV enfants pour les objets répétitifs : <Field_path>_<random 7-character identifier>.csv
  • Si le nom du fichier CSV enfant dépasse 250 caractères, un schéma de nommage alternatif sera utilisé : <Field_ID>_<random 7-character identifier>.csv
Lors de l’exportation vers un dossier partagé, le fichier CSV parent est enregistré dans le dossier de la transaction. S’il y a plusieurs documents du même type dans la transaction et qu’un fichier CSV distinct est généré pour chaque document, les règles et le schéma de nommage suivants s’appliquent :
  • Un suffixe numérique commençant à 2 est ajouté au nom du fichier CSV.
  • Un sous-dossier est créé dans le dossier de la transaction pour les fichiers CSV enfants.
  • Le sous-dossier sera nommé comme suit : <Applied_skill_name>_<N> ou <Applied_skill_name>_fields_<N> (si l’export JSON — Valeurs uniquement est activé), où N est le numéro séquentiel du document dans la transaction (à partir de 2 s’il y a plus d’un document dans la transaction).
  • Pour les objets répétitifs, le nom du fichier CSV enfant est indiqué dans la valeur du champ du fichier CSV parent.
Le fichier CSV est mis en forme comme suit :
  • Les noms des champs figurent sur la première ligne du fichier CSV.
  • Une virgule est utilisée pour séparer les colonnes.
  • Le type d’encodage utilisé est UTF-8 avec BOM.
  • Les instances vides des champs ou groupes répétitifs, ou les lignes de tableau vides, ne sont pas exportées ; le fichier CSV obtenu ne contiendra donc aucune ligne vide.

Options d’export du texte du document (onglet Text)

FormatOption d’exportDescriptionNom de fichier
JSONTexte uniquementFichier JSON contenant uniquement le texte reconnu ; la mise en page du document n’est pas conservée. Remarque : le choix de cette option rend impossible l’exportation vers DOCX, XLSX et PPTX.<Applied_skill_name>_text.json
JSONConserver la structure du documentFichier JSON contenant le texte reconnu avec la mise en page du document conservée.<Applied_skill_name>_text.json
XMLTexte uniquementFichier XML contenant uniquement le texte reconnu ; la mise en page du document n’est pas conservée. Remarque : le choix de cette option rend impossible l’exportation vers DOCX, XLSX et PPTX.<Applied_skill_name>.xml
XMLConserver la structure du documentFichier XML contenant le texte reconnu avec la mise en page du document conservée.<Applied_skill_name>.xml
ALTOXMLTexte uniquementFichier ALTO XML contenant uniquement le texte reconnu ; la mise en page du document n’est pas conservée. Le fichier est conforme au standard ALTO, schéma version 4.2. Remarque : le choix de cette option rend impossible l’exportation vers DOCX, XLSX et PPTX.<Applied_skill_name>.xml
ALTOXMLConserver la structure du documentFichier ALTO XML contenant le texte reconnu avec la mise en page du document conservée. Le fichier est conforme au standard ALTO, schéma version 4.2.<Applied_skill_name>.xml
TXTDocument texte brut. La structure du document d’origine est conservée à l’aide d’espaces.<Applied_skill_name>.txt
DOCXModifiableDocument Word modifiable qui peut ne pas reproduire exactement l’original.<Applied_skill_name>.docx
DOCXExactDocument Word non modifiable. La structure du document d’origine est entièrement conservée.<Applied_skill_name>.docx
XLSXDocument Excel modifiable. La structure du document d’origine est conservée.<Applied_skill_name>.xlsx
PPTXDocument PowerPoint modifiable. La structure du document d’origine est conservée.<Applied_skill_name>.pptx
HTMLDocument HTML qui conserve la structure du document d’origine.<Applied_skill_name>.html
Lors de l’export vers un dossier partagé, tous les fichiers sont enregistrés dans le dossier de la transaction. Des suffixes numériques à partir de 2 sont ajoutés aux noms de fichier s’il y a plusieurs documents du même type dans la transaction. Le texte exporté reflète les modifications des valeurs de champ effectuées par l’opérateur de relecture manuelle durant la relecture manuelle.
Remarque : les options d’export (Texte uniquement et Conserver la structure du document) pour JSON, XML et ALTOXML doivent être identiques. Si vous spécifiez une autre option d’export pour l’un de ces formats, cette option sera appliquée aux autres formats.

Options d’exportation de l’image du document (onglet Image)

FormatOption d’exportationDescriptionNom de fichier
PDFPDF/A-3aUn fichier PDF avec une couche de texte superposée à l’image du document. Cette couche reflète les modifications des valeurs de champs effectuées par l’opérateur de relecture manuelle lors de la relecture.<Applied_skill_name>.pdf
PDFPDF/A-3bUn fichier PDF avec une couche de texte superposée à l’image du document. Cette couche reflète les modifications des valeurs de champs effectuées par l’opérateur de relecture manuelle lors de la relecture.<Applied_skill_name>.pdf
PDFImage uniquementUn PDF non modifiable conforme à la norme PDF/A-3b, sans couche de texte.<Applied_skill_name>.pdf
TIFFUn fichier contenant une image améliorée au format TIFF.<Applied_skill_name>.tiff
JPEGQualité maximaleUn fichier contenant une image améliorée au format JPEG. Si vous choisissez cette option de compression, le niveau de qualité d’image sera défini à 95 %.pages/page_<N>.jpg
JPEGTaille réduiteUn fichier contenant une image améliorée au format JPEG. Si vous choisissez cette option de compression, le niveau de qualité d’image sera défini à 75 %, ce qui permet de conserver une image lisible tout en réduisant sa taille.pages/page_<N>.jpg
Remarque : pour chaque option d’export PDF, vous pouvez choisir entre « taille de fichier réduite » (option par défaut) et « qualité maximale ». La taille de fichier réduite est obtenue grâce à la compression Mixed Raster Content (MRC), qui détermine des taux de compression optimaux séparément pour le texte, les images et l’arrière-plan.
Lors de l’exportation vers un dossier partagé, un sous-dossier est créé pour chaque document dans la transaction. Les règles et le schéma de nommage suivants sont appliqués :
  • Le sous-dossier est nommé comme suit : <Applied_skill_name>_<N> ou <Applied_skill_name>_fields_<N> (si l’export JSON — Valeurs uniquement est activé). N est le numéro séquentiel du document dans la transaction (en commençant à 2 s’il y a plus d’un document dans la transaction).
  • Dans ce sous-dossier, un sous-dossier Pages est créé pour stocker les fichiers JPG. Les noms de fichiers sont formatted as page_<N>.jpg, où N est le numéro séquentiel de la Page.
  • Les fichiers PDF et TIFF sont enregistrés dans le dossier de la transaction.
  • Des suffixes numériques à partir de 2 sont ajoutés aux noms de fichiers s’il y a plusieurs documents du même type dans la transaction.

Schéma général de dénomination

La plupart des fichiers exportés contiendront <Applied_skill_name> dans leur nom, qui correspond à l’une des options suivantes :
  • Le nom de la dernière Compétence de document appliquée au document.
  • Le nom de la dernière Skill de classification appliquée au document si aucune Compétence de document n’a été appliquée.
  • « Unknown » si aucune Compétence de document ni Skill de classification n’a été appliquée, alors qu’au moins l’une d’elles existe dans le flux de la Compétence de processus.
S’il y a plusieurs fichiers de sortie et que l’export vers un dossier partagé est configuré, des numéros incrémentés seront ajoutés aux noms de fichier afin de rendre chaque nom unique.

Transactions avec erreurs

Si une transaction n’aboutit pas, Vantage génère un fichier Error.json qui contient une string JSON avec les informations suivantes concernant la transaction :
  • L’identifiant de la transaction
  • Le statut de la transaction (Failed)
  • Le message d’erreur
  • Le tableau contenant tous les identifiants et noms des fichiers source de la transaction
Par défaut, les données exportées sont conservées pendant 2 semaines, conformément à la politique de conservation.