跳转到主要内容
Vantage 提供以下导出选项,可用于导出文档 field、文本和图像。

导出提取字段值的选项(Fields 选项卡)

FormatExport OptionDescriptionFile Name
JSON每个文档的值、元数据和字段结构完整的数据提取结果。输出文件的结构详见 Developer’s Guide。<Applied_skill_name>.json
JSON仅值字段值和规则错误。输出文件的结构详见 Developer’s Guide。<Applied_skill_name>_fields.json
CSV仅值字段值。**注意:**导出图像字段时,其在 CSV 文件中的值将为空。如果在某个组内嵌套了可重复结构,其名称会显示为“New Group/New Table”,但在子文件名中,斜杠将被下划线替换(例如,New Group_New Table_055fe8c.csv)。<Applied_skill_name>.csv*
*如果文档包含可重复对象(可重复字段、可重复字段组、表格),它们将作为单独的文件导出。使用以下命名方案:
  • 父级 CSV 文件名:<Applied_skill_name>.csv
  • 可重复对象的子级 CSV 文件名:<Field_path>_<random 7-character identifier>.csv
  • 如果子级 CSV 文件名超过 250 个字符,将使用备用命名方案:<Field_ID>_<random 7-character identifier>.csv
导出到共享文件夹时,父级 CSV 文件保存在处理事务文件夹中。如果在同一处理事务中存在多个相同类型的文档,并且为每个文档生成单独的 CSV 文件,将使用以下规则和命名方案:
  • 在 CSV 文件名后添加从 2 开始的数字后缀。
  • 在处理事务文件夹中为子级 CSV 文件创建一个子文件夹。
  • 子文件夹命名如下:<Applied_skill_name>_<N><Applied_skill_name>_fields_<N>(如果启用了 JSON 导出——仅值),其中 N 是该处理事务中文档的顺序号(若该处理事务包含多个文档,则从 2 开始)。
  • 对于可重复对象,子级 CSV 文件的名称会在父级 CSV 文件的字段值中指明。
CSV 文件的格式如下:
  • 第一行写入字段名称。
  • 使用逗号分隔列。
  • 使用的编码类型为 UTF-8(含 BOM)。
  • 可重复字段或组的空实例,或空表格行,将不会被导出,这意味着生成的 CSV 文件不会包含任何空行。

导出文档文本的选项(“文本”选项卡)

FormatExport OptionDescriptionFile Name
JSON仅文本仅包含识别文本的 JSON 文件;不保留文档版式。**注意:**选择此选项将无法导出为 DOCX、XLSX 和 PPTX。<Applied_skill_name>_text.json
JSON保留文档结构包含识别文本并保留文档版式的 JSON 文件。<Applied_skill_name>_text.json
XML仅文本仅包含识别文本的 XML 文件;不保留文档版式。**注意:**选择此选项将无法导出为 DOCX、XLSX 和 PPTX。<Applied_skill_name>.xml
XML保留文档结构包含识别文本并保留文档版式的 XML 文件。<Applied_skill_name>.xml
ALTOXML仅文本仅包含识别文本的 ALTO XML 文件;不保留文档版式。文件符合 ALTO 标准,架构版本 4.2。**注意:**选择此选项将无法导出为 DOCX、XLSX 和 PPTX。<Applied_skill_name>.xml
ALTOXML保留文档结构包含识别文本并保留文档版式的 ALTO XML 文件。文件符合 ALTO 标准,架构版本 4.2。<Applied_skill_name>.xml
TXT纯文本文档。通过空白字符保留原始文档结构。<Applied_skill_name>.txt
DOCX可编辑可编辑的 Word 文档,其外观可能与原件不完全一致。<Applied_skill_name>.docx
DOCX精确保真不可编辑的 Word 文档。原始文档结构将被完整保留。<Applied_skill_name>.docx
XLSX可编辑的 Excel 文档。保留原始文档结构。<Applied_skill_name>.xlsx
PPTX可编辑的 PowerPoint 文档。保留原始文档结构。<Applied_skill_name>.pptx
HTML保留原始文档结构的 HTML 文档。<Applied_skill_name>.html
导出到共享文件夹时,所有文件都会保存在处理事务文件夹中。如果处理事务中存在多个相同类型的文档,文件名将从 2 开始追加数字后缀。 导出的文本会反映人工校验期间由人工校验员对 field 值所做的更改。
**注意:**对于 JSON、XML 和 ALTOXML,导出选项(仅文本保留文档结构)必须一致。如果为其中一种格式指定了其他导出选项,该选项也会应用于其余格式。

导出文档图像的选项(图像选项卡)

FormatExport OptionDescriptionFile Name
PDFPDF/A-3a带有覆盖在文档图像上的文本层的 PDF 文件。该文本层会反映人工校验期间由人工校验员对字段值所做的更改。<Applied_skill_name>.pdf
PDFPDF/A-3b带有覆盖在文档图像上的文本层的 PDF 文件。该文本层会反映人工校验期间由人工校验员对字段值所做的更改。<Applied_skill_name>.pdf
PDFImage-only符合 PDF/A-3b 标准且不含文本层的不可编辑 PDF。<Applied_skill_name>.pdf
TIFF包含增强图像的 TIFF 格式文件。<Applied_skill_name>.tiff
JPEGMaximum quality包含增强图像的 JPEG 格式文件。选择此压缩选项时,图像质量级别将设置为 95%。pages/page_<N>.jpg
JPEGSmaller file size包含增强图像的 JPEG 格式文件。选择此压缩选项时,图像质量级别将设置为 75%。这可在保证可读性的同时减小图像大小。pages/page_<N>.jpg
注意:对于每个 PDF 导出选项,您可以在“smaller file size”(默认)和“maximum quality”之间进行选择。较小的文件大小通过使用混合光栅内容(Mixed Raster Content,MRC)压缩实现,该方法分别为文本、图片和背景确定最佳压缩率。
当导出到共享文件夹时,会为处理事务中的每个文档创建一个子文件夹。将使用以下规则和命名方案:
  • 子文件夹命名如下:<Applied_skill_name>_<N>,或 <Applied_skill_name>_fields_<N>(如果启用了 JSON 导出 — Values only)。N 为该处理事务中文档的顺序号(若事务中存在多个文档,则从 2 开始)。
  • 在此子文件夹中,会创建一个 Pages 子文件夹用于存储 JPG 文件。文件名格式为 page_<N>.jpg,其中 N 为页码顺序号。
  • PDF 和 TIFF 文件保存在处理事务文件夹中。
  • 如果处理事务中存在多个同类型文档,文件名将添加从 2 开始的数字后缀。

通用命名规则

大多数导出的文件名会包含 <Applied_skill_name>,其表示以下之一:
  • 应用于该文档的最后一个 Document skill 的名称。
  • 如果未应用任何 Document skill,则为应用于该文档的最后一个 分类 Skill 的名称。
  • 如果未应用任何 Document 或 分类 Skill,但在 Process 技能 流程中至少存在其中之一,则为“Unknown”。
如果存在多个输出文件且配置为导出到共享文件夹,将在文件名后附加递增数字,以确保每个文件名唯一。

存在错误的处理事务

如果处理事务未成功完成,Vantage 会生成一个 Error.json 文件。该文件包含一个 JSON string,其中包括以下关于该处理事务的信息:
  • 处理事务标识符
  • 处理事务状态(Failed)
  • 错误消息
  • 包含该处理事务中所有源文件标识符和名称的数组
默认情况下,导出的数据将根据保留策略保存 2 周。