Vantage 提供以下导出选项,用于导出文档字段、文本和图像。
| 格式 | 导出选项 | 说明 | 文件名 |
|---|
| JSON | 每个文档的值、元数据和字段结构 | 完整的数据提取结果。输出文件的结构详见《Developer’s Guide》。 | <Applied_skill_name>.json |
| JSON | 仅值 | 字段值和规则错误。输出文件的结构详见《Developer’s Guide》。 | <Applied_skill_name>_fields.json |
| CSV | 仅值 | 字段值。**注意:**导出图像字段时,其值在 CSV 文件中将为空。如果在组内嵌套了重复结构,其名称将显示为 “New Group/New Table”,但在子文件名中,斜杠将替换为下划线(例如,New Group_New Table_055fe8c.csv)。 | <Applied_skill_name>.csv* |
*如果文档包含重复对象(重复字段、字段重复组、表格),它们会作为单独的文件导出。使用以下命名规则:
- 父 CSV 文件名:
<Applied_skill_name>.csv
- 重复对象的子 CSV 文件名:
<Field_path>_<random 7-character identifier>.csv
- 如果子 CSV 文件名长度超过 250 个字符,将使用备用命名规则:
<Field_ID>_<random 7-character identifier>.csv
导出到共享文件夹时,父 CSV 文件保存在事务文件夹中。如果在同一事务中存在多个相同类型的文档,并且为每个文档分别生成一个 CSV 文件,将使用以下规则和命名方案:
- 从 2 开始,为 CSV 文件名添加数字后缀。
- 在事务文件夹中为子 CSV 文件创建一个子文件夹。
- 子文件夹命名如下:
<Applied_skill_name>_<N> 或 <Applied_skill_name>_fields_<N>(如果启用了 JSON 导出 仅值),其中 N 为该事务中文档的顺序号(当一个事务中有多于一个文档时,从 2 开始)。
- 对于重复对象,子 CSV 文件的名称会写入父 CSV 文件中的字段值。
CSV 文件的格式如下:
- 字段名写入 CSV 文件的第一行。
- 列之间用逗号分隔。
- 编码格式为 UTF-8(带 BOM)。
- 重复字段或组的空实例,或空表格行不会被导出,也就是说,生成的 CSV 文件中不会有空行。
| Format | Export Option | Description | File Name |
|---|
| JSON | Text only | 仅包含识别文本的 JSON 文件;不保留文档版面结构。**注意:**选择此选项后,将无法导出为 DOCX、XLSX 和 PPTX 格式。 | <Applied_skill_name>_text.json |
| JSON | Preserve document structure | 包含识别文本且保留文档版面结构的 JSON 文件。 | <Applied_skill_name>_text.json |
| XML | Text only | 仅包含识别文本的 XML 文件;不保留文档版面结构。**注意:**选择此选项后,将无法导出为 DOCX、XLSX 和 PPTX 格式。 | <Applied_skill_name>.xml |
| XML | Preserve document structure | 包含识别文本且保留文档版面结构的 XML 文件。 | <Applied_skill_name>.xml |
| ALTOXML | Text only | 仅包含识别文本的 ALTO XML 文件;不保留文档版面结构。该文件符合 ALTO 标准,模式版本 4.2。**注意:**选择此选项后,将无法导出为 DOCX、XLSX 和 PPTX 格式。 | <Applied_skill_name>.xml |
| ALTOXML | Preserve document structure | 包含识别文本且保留文档版面结构的 ALTO XML 文件。该文件符合 ALTO 标准,模式版本 4.2。 | <Applied_skill_name>.xml |
| TXT | | 纯文本文档。通过使用空白字符来保留原始文档结构。 | <Applied_skill_name>.txt |
| DOCX | Editable | 可编辑的 Word 文档,其外观可能与原始文档不完全一致。 | <Applied_skill_name>.docx |
| DOCX | Exact | 不可编辑的 Word 文档。原始文档结构将被完整保留。 | <Applied_skill_name>.docx |
| XLSX | | 可编辑的 Excel 文档。将保留原始文档结构。 | <Applied_skill_name>.xlsx |
| PPTX | | 可编辑的 PowerPoint 文档。将保留原始文档结构。 | <Applied_skill_name>.pptx |
| HTML | | 能保留原始文档结构的 HTML 文档。 | <Applied_skill_name>.html |
当导出到共享文件夹时,所有文件都会保存在对应的事务文件夹中。如果同一事务中存在多个相同类型的文档,文件名将从 2 开始添加数字后缀。
导出的文本会反映人工审核期间由 Manual Review 操作员对字段值所做的更改。
JSON、XML 和 ALTOXML 的导出选项 (Text only 和 Preserve document structure) 必须保持一致。如果为其中某一种格式指定了不同的导出选项,则该选项也会应用于其他格式。
| 格式 | 导出选项 | 说明 | 文件名 |
|---|
| PDF | PDF/A-3a | 带有叠加在文档图像之上的文本层的 PDF 文件。该文本层反映了人工审核阶段人工审核员对字段值所做的更改。 | <Applied_skill_name>.pdf |
| PDF | PDF/A-3b | 带有叠加在文档图像之上的文本层的 PDF 文件。该文本层反映了人工审核阶段人工审核员对字段值所做的更改。 | <Applied_skill_name>.pdf |
| PDF | 仅图像 | 采用 PDF/A-3b 标准、且不包含文本层的不可编辑 PDF。 | <Applied_skill_name>.pdf |
| TIFF | | 包含增强处理后图像的 TIFF 格式文件。 | <Applied_skill_name>.tiff |
| JPEG | 最高质量 | 包含增强处理后图像的 JPEG 格式文件。如果选择此压缩选项,图像质量级别将设置为 95%。 | pages/page_<N>.jpg |
| JPEG | 较小文件大小 | 包含增强处理后图像的 JPEG 格式文件。如果选择此压缩选项,图像质量级别将设置为 75%。这样可以在保持图像可读的同时减小其大小。 | pages/page_<N>.jpg |
对于每个 PDF 导出选项,您可以在“较小文件大小” (默认选项) 和“最高质量”之间进行选择。较小文件大小是通过使用混合栅格内容 (Mixed Raster Content,MRC) 压缩实现的,该压缩方式会分别为文本、图片和背景确定最佳压缩率。
将文档导出到共享文件夹时,会为事务中的每个文档创建一个子文件夹。将使用以下规则和命名方案:
- 子文件夹的命名规则如下:
<Applied_skill_name>_<N>,或 <Applied_skill_name>_fields_<N> (如果启用了 JSON 导出 - 仅值) 。N 是该文档在事务中的顺序号 (如果事务中有多个文档,则从 2 开始) 。
- 在此子文件夹内,会创建一个 Pages 子文件夹来存储 JPG 文件。文件名格式为
page_<N>.jpg,其中 N 是页面的顺序号。
- PDF 和 TIFF 文件保存在事务文件夹中。
- 如果事务中存在多个相同类型的文档,则会从 2 开始为文件名添加数字后缀。
大多数导出的文件名中都会包含 <Applied_skill_name>,其含义可能是以下之一:
- 应用于该文档的最后一个文档技能的名称。
- 如果未应用任何文档技能,则为应用于该文档的最后一个分类技能的名称。
- 如果未应用任何文档或分类技能,但在流程技能流程中至少存在其中之一,则为“Unknown”。
如果存在多个输出文件并且配置为导出到共享文件夹,则会在文件名后追加递增数字,以确保每个文件名都是唯一的。
如果某个事务未成功完成,Vantage 会生成一个 Error.json 文件,其中包含一个 JSON string,该字符串包含以下有关该事务的信息:
- 事务标识符
- 事务状态(Failed)
- 错误消息
- 包含该事务中所有源文件标识符和名称的数组
默认情况下,导出的数据会根据保留策略保存 2 周。