Options d’exportation des valeurs de Field extraites (onglet Fields)
| Format | Option d’exportation | Description | Nom de fichier |
|---|---|---|---|
| JSON | Valeurs, métadonnées et structure des Field pour chaque document | Résultats complets de l’extraction des données. La structure du fichier de sortie est décrite dans le Guide du développeur. | <Applied_skill_name>.json |
| JSON | Valeurs uniquement | Valeurs des Field et erreurs de règles. La structure du fichier de sortie est décrite dans le Guide du développeur. | <Applied_skill_name>_fields.json |
| CSV | Valeurs uniquement | Valeurs des Field. Remarque : lors de l’exportation de Field image, leurs valeurs dans le fichier CSV seront vides. Si une structure répétitive est imbriquée dans un groupe, son nom apparaîtra comme “New Group/New Table”, mais dans le nom d’un fichier enfant, la barre oblique sera remplacée par un underscore (par exemple, New Group_New Table_055fe8c.csv) | <Applied_skill_name>.csv* |
- Nom du fichier CSV parent :
<Applied_skill_name>.csv - Nom des fichiers CSV enfants pour les objets répétitifs :
<Field_path>_<random 7-character identifier>.csv - Si le nom du fichier CSV enfant dépasse 250 caractères, un schéma de nommage alternatif sera utilisé :
<Field_ID>_<random 7-character identifier>.csv
- Un suffixe numérique commençant à 2 est ajouté au nom du fichier CSV.
- Un sous-dossier est créé dans le dossier de la transaction pour les fichiers CSV enfants.
- Le sous-dossier sera nommé comme suit :
<Applied_skill_name>_<N>ou<Applied_skill_name>_fields_<N>(si l’export JSON — Valeurs uniquement est activé), où N est le numéro séquentiel du document dans la transaction (à partir de 2 s’il y a plus d’un document dans la transaction). - Pour les objets répétitifs, le nom du fichier CSV enfant est indiqué dans la valeur du champ du fichier CSV parent.
- Les noms des champs figurent sur la première ligne du fichier CSV.
- Une virgule est utilisée pour séparer les colonnes.
- Le type d’encodage utilisé est UTF-8 avec BOM.
- Les instances vides des champs ou groupes répétitifs, ou les lignes de tableau vides, ne sont pas exportées ; le fichier CSV obtenu ne contiendra donc aucune ligne vide.
Options d’export du texte du document (onglet Text)
| Format | Option d’export | Description | Nom de fichier |
|---|---|---|---|
| JSON | Texte uniquement | Fichier JSON contenant uniquement le texte reconnu ; la mise en page du document n’est pas conservée. Remarque : le choix de cette option rend impossible l’exportation vers DOCX, XLSX et PPTX. | <Applied_skill_name>_text.json |
| JSON | Conserver la structure du document | Fichier JSON contenant le texte reconnu avec la mise en page du document conservée. | <Applied_skill_name>_text.json |
| XML | Texte uniquement | Fichier XML contenant uniquement le texte reconnu ; la mise en page du document n’est pas conservée. Remarque : le choix de cette option rend impossible l’exportation vers DOCX, XLSX et PPTX. | <Applied_skill_name>.xml |
| XML | Conserver la structure du document | Fichier XML contenant le texte reconnu avec la mise en page du document conservée. | <Applied_skill_name>.xml |
| ALTOXML | Texte uniquement | Fichier ALTO XML contenant uniquement le texte reconnu ; la mise en page du document n’est pas conservée. Le fichier est conforme au standard ALTO, schéma version 4.2. Remarque : le choix de cette option rend impossible l’exportation vers DOCX, XLSX et PPTX. | <Applied_skill_name>.xml |
| ALTOXML | Conserver la structure du document | Fichier ALTO XML contenant le texte reconnu avec la mise en page du document conservée. Le fichier est conforme au standard ALTO, schéma version 4.2. | <Applied_skill_name>.xml |
| TXT | Document texte brut. La structure du document d’origine est conservée à l’aide d’espaces. | <Applied_skill_name>.txt | |
| DOCX | Modifiable | Document Word modifiable qui peut ne pas reproduire exactement l’original. | <Applied_skill_name>.docx |
| DOCX | Exact | Document Word non modifiable. La structure du document d’origine est entièrement conservée. | <Applied_skill_name>.docx |
| XLSX | Document Excel modifiable. La structure du document d’origine est conservée. | <Applied_skill_name>.xlsx | |
| PPTX | Document PowerPoint modifiable. La structure du document d’origine est conservée. | <Applied_skill_name>.pptx | |
| HTML | Document HTML qui conserve la structure du document d’origine. | <Applied_skill_name>.html |
Remarque : les options d’export (Texte uniquement et Conserver la structure du document) pour JSON, XML et ALTOXML doivent être identiques. Si vous spécifiez une autre option d’export pour l’un de ces formats, cette option sera appliquée aux autres formats.
Options d’exportation de l’image du document (onglet Image)
| Format | Option d’exportation | Description | Nom de fichier |
|---|---|---|---|
| PDF/A-3a | Un fichier PDF avec une couche de texte superposée à l’image du document. Cette couche reflète les modifications des valeurs de champs effectuées par l’opérateur de relecture manuelle lors de la relecture. | <Applied_skill_name>.pdf | |
| PDF/A-3b | Un fichier PDF avec une couche de texte superposée à l’image du document. Cette couche reflète les modifications des valeurs de champs effectuées par l’opérateur de relecture manuelle lors de la relecture. | <Applied_skill_name>.pdf | |
| Image uniquement | Un PDF non modifiable conforme à la norme PDF/A-3b, sans couche de texte. | <Applied_skill_name>.pdf | |
| TIFF | Un fichier contenant une image améliorée au format TIFF. | <Applied_skill_name>.tiff | |
| JPEG | Qualité maximale | Un fichier contenant une image améliorée au format JPEG. Si vous choisissez cette option de compression, le niveau de qualité d’image sera défini à 95 %. | pages/page_<N>.jpg |
| JPEG | Taille réduite | Un fichier contenant une image améliorée au format JPEG. Si vous choisissez cette option de compression, le niveau de qualité d’image sera défini à 75 %, ce qui permet de conserver une image lisible tout en réduisant sa taille. | pages/page_<N>.jpg |
Remarque : pour chaque option d’export PDF, vous pouvez choisir entre « taille de fichier réduite » (option par défaut) et « qualité maximale ». La taille de fichier réduite est obtenue grâce à la compression Mixed Raster Content (MRC), qui détermine des taux de compression optimaux séparément pour le texte, les images et l’arrière-plan.Lors de l’exportation vers un dossier partagé, un sous-dossier est créé pour chaque document dans la transaction. Les règles et le schéma de nommage suivants sont appliqués :
- Le sous-dossier est nommé comme suit :
<Applied_skill_name>_<N>ou<Applied_skill_name>_fields_<N>(si l’export JSON — Valeurs uniquement est activé). N est le numéro séquentiel du document dans la transaction (en commençant à 2 s’il y a plus d’un document dans la transaction). - Dans ce sous-dossier, un sous-dossier Pages est créé pour stocker les fichiers JPG. Les noms de fichiers sont
formatted as page_<N>.jpg, où N est le numéro séquentiel de la Page. - Les fichiers PDF et TIFF sont enregistrés dans le dossier de la transaction.
- Des suffixes numériques à partir de 2 sont ajoutés aux noms de fichiers s’il y a plusieurs documents du même type dans la transaction.
Schéma général de dénomination
<Applied_skill_name> dans leur nom, qui correspond à l’une des options suivantes :
- Le nom de la dernière Compétence de document appliquée au document.
- Le nom de la dernière Skill de classification appliquée au document si aucune Compétence de document n’a été appliquée.
- « Unknown » si aucune Compétence de document ni Skill de classification n’a été appliquée, alors qu’au moins l’une d’elles existe dans le flux de la Compétence de processus.
Transactions avec erreurs
Error.json qui contient une string JSON avec les informations suivantes concernant la transaction :
- L’identifiant de la transaction
- Le statut de la transaction (Failed)
- Le message d’erreur
- Le tableau contenant tous les identifiants et noms des fichiers source de la transaction
