跳转到主要内容
Vantage 提供以下导出选项,用于导出文档字段、文本和图像。

导出提取字段值的选项(Fields 选项卡)

格式导出选项说明文件名
JSON每个文档的值、元数据和字段结构完整的数据提取结果。输出文件的结构详见《Developer’s Guide》。<Applied_skill_name>.json
JSON仅值字段值和规则错误。输出文件的结构详见《Developer’s Guide》。<Applied_skill_name>_fields.json
CSV仅值字段值。**注意:**导出图像字段时,其值在 CSV 文件中将为空。如果在组内嵌套了重复结构,其名称将显示为 “New Group/New Table”,但在子文件名中,斜杠将替换为下划线(例如,New Group_New Table_055fe8c.csv)。<Applied_skill_name>.csv*
*如果文档包含重复对象(重复字段、字段重复组、表格),它们会作为单独的文件导出。使用以下命名规则:
  • 父 CSV 文件名:<Applied_skill_name>.csv
  • 重复对象的子 CSV 文件名:<Field_path>_<random 7-character identifier>.csv
  • 如果子 CSV 文件名长度超过 250 个字符,将使用备用命名规则:<Field_ID>_<random 7-character identifier>.csv
导出到共享文件夹时,父 CSV 文件保存在事务文件夹中。如果在同一事务中存在多个相同类型的文档,并且为每个文档分别生成一个 CSV 文件,将使用以下规则和命名方案:
  • 从 2 开始,为 CSV 文件名添加数字后缀。
  • 在事务文件夹中为子 CSV 文件创建一个子文件夹。
  • 子文件夹命名如下:<Applied_skill_name>_<N><Applied_skill_name>_fields_<N>(如果启用了 JSON 导出 仅值),其中 N 为该事务中文档的顺序号(当一个事务中有多于一个文档时,从 2 开始)。
  • 对于重复对象,子 CSV 文件的名称会写入父 CSV 文件中的字段值。
CSV 文件的格式如下:
  • 字段名写入 CSV 文件的第一行。
  • 列之间用逗号分隔。
  • 编码格式为 UTF-8(带 BOM)。
  • 重复字段或组的空实例,或空表格行不会被导出,也就是说,生成的 CSV 文件中不会有空行。

导出文档文本的选项 (“Text” 选项卡)

FormatExport OptionDescriptionFile Name
JSONText only仅包含识别文本的 JSON 文件;不保留文档版面结构。**注意:**选择此选项后,将无法导出为 DOCX、XLSX 和 PPTX 格式。<Applied_skill_name>_text.json
JSONPreserve document structure包含识别文本且保留文档版面结构的 JSON 文件。<Applied_skill_name>_text.json
XMLText only仅包含识别文本的 XML 文件;不保留文档版面结构。**注意:**选择此选项后,将无法导出为 DOCX、XLSX 和 PPTX 格式。<Applied_skill_name>.xml
XMLPreserve document structure包含识别文本且保留文档版面结构的 XML 文件。<Applied_skill_name>.xml
ALTOXMLText only仅包含识别文本的 ALTO XML 文件;不保留文档版面结构。该文件符合 ALTO 标准,模式版本 4.2。**注意:**选择此选项后,将无法导出为 DOCX、XLSX 和 PPTX 格式。<Applied_skill_name>.xml
ALTOXMLPreserve document structure包含识别文本且保留文档版面结构的 ALTO XML 文件。该文件符合 ALTO 标准,模式版本 4.2。<Applied_skill_name>.xml
TXT纯文本文档。通过使用空白字符来保留原始文档结构。<Applied_skill_name>.txt
DOCXEditable可编辑的 Word 文档,其外观可能与原始文档不完全一致。<Applied_skill_name>.docx
DOCXExact不可编辑的 Word 文档。原始文档结构将被完整保留。<Applied_skill_name>.docx
XLSX可编辑的 Excel 文档。将保留原始文档结构。<Applied_skill_name>.xlsx
PPTX可编辑的 PowerPoint 文档。将保留原始文档结构。<Applied_skill_name>.pptx
HTML能保留原始文档结构的 HTML 文档。<Applied_skill_name>.html
当导出到共享文件夹时,所有文件都会保存在对应的事务文件夹中。如果同一事务中存在多个相同类型的文档,文件名将从 2 开始添加数字后缀。 导出的文本会反映人工审核期间由 Manual Review 操作员对字段值所做的更改。
JSON、XML 和 ALTOXML 的导出选项 (Text onlyPreserve document structure) 必须保持一致。如果为其中某一种格式指定了不同的导出选项,则该选项也会应用于其他格式。

导出文档图像的选项 (图像选项卡)

格式导出选项说明文件名
PDFPDF/A-3a带有叠加在文档图像之上的文本层的 PDF 文件。该文本层反映了人工审核阶段人工审核员对字段值所做的更改。<Applied_skill_name>.pdf
PDFPDF/A-3b带有叠加在文档图像之上的文本层的 PDF 文件。该文本层反映了人工审核阶段人工审核员对字段值所做的更改。<Applied_skill_name>.pdf
PDF仅图像采用 PDF/A-3b 标准、且不包含文本层的不可编辑 PDF。<Applied_skill_name>.pdf
TIFF包含增强处理后图像的 TIFF 格式文件。<Applied_skill_name>.tiff
JPEG最高质量包含增强处理后图像的 JPEG 格式文件。如果选择此压缩选项,图像质量级别将设置为 95%。pages/page_<N>.jpg
JPEG较小文件大小包含增强处理后图像的 JPEG 格式文件。如果选择此压缩选项,图像质量级别将设置为 75%。这样可以在保持图像可读的同时减小其大小。pages/page_<N>.jpg
对于每个 PDF 导出选项,您可以在“较小文件大小” (默认选项) 和“最高质量”之间进行选择。较小文件大小是通过使用混合栅格内容 (Mixed Raster Content,MRC) 压缩实现的,该压缩方式会分别为文本、图片和背景确定最佳压缩率。 将文档导出到共享文件夹时,会为事务中的每个文档创建一个子文件夹。将使用以下规则和命名方案:
  • 子文件夹的命名规则如下:<Applied_skill_name>_<N>,或 <Applied_skill_name>_fields_<N> (如果启用了 JSON 导出 - 仅值) 。N 是该文档在事务中的顺序号 (如果事务中有多个文档,则从 2 开始) 。
  • 在此子文件夹内,会创建一个 Pages 子文件夹来存储 JPG 文件。文件名格式为 page_<N>.jpg,其中 N 是页面的顺序号。
  • PDF 和 TIFF 文件保存在事务文件夹中。
  • 如果事务中存在多个相同类型的文档,则会从 2 开始为文件名添加数字后缀。

通用命名规则

大多数导出的文件名中都会包含 <Applied_skill_name>,其含义可能是以下之一:
  • 应用于该文档的最后一个文档技能的名称。
  • 如果未应用任何文档技能,则为应用于该文档的最后一个分类技能的名称。
  • 如果未应用任何文档或分类技能,但在流程技能流程中至少存在其中之一,则为“Unknown”。
如果存在多个输出文件并且配置为导出到共享文件夹,则会在文件名后追加递增数字,以确保每个文件名都是唯一的。

带有错误的事务

如果某个事务未成功完成,Vantage 会生成一个 Error.json 文件,其中包含一个 JSON string,该字符串包含以下有关该事务的信息:
  • 事务标识符
  • 事务状态(Failed)
  • 错误消息
  • 包含该事务中所有源文件标识符和名称的数组
默认情况下,导出的数据会根据保留策略保存 2 周。