导出提取字段值的选项(Fields 选项卡)
| Format | Export Option | Description | File Name |
|---|---|---|---|
| JSON | 每个文档的值、元数据和字段结构 | 完整的数据提取结果。输出文件的结构详见 Developer’s Guide。 | <Applied_skill_name>.json |
| JSON | 仅值 | 字段值和规则错误。输出文件的结构详见 Developer’s Guide。 | <Applied_skill_name>_fields.json |
| CSV | 仅值 | 字段值。**注意:**导出图像字段时,其在 CSV 文件中的值将为空。如果在某个组内嵌套了可重复结构,其名称会显示为“New Group/New Table”,但在子文件名中,斜杠将被下划线替换(例如,New Group_New Table_055fe8c.csv)。 | <Applied_skill_name>.csv* |
- 父级 CSV 文件名:
<Applied_skill_name>.csv - 可重复对象的子级 CSV 文件名:
<Field_path>_<random 7-character identifier>.csv - 如果子级 CSV 文件名超过 250 个字符,将使用备用命名方案:
<Field_ID>_<random 7-character identifier>.csv
- 在 CSV 文件名后添加从 2 开始的数字后缀。
- 在处理事务文件夹中为子级 CSV 文件创建一个子文件夹。
- 子文件夹命名如下:
<Applied_skill_name>_<N>或<Applied_skill_name>_fields_<N>(如果启用了 JSON 导出——仅值),其中 N 是该处理事务中文档的顺序号(若该处理事务包含多个文档,则从 2 开始)。 - 对于可重复对象,子级 CSV 文件的名称会在父级 CSV 文件的字段值中指明。
- 第一行写入字段名称。
- 使用逗号分隔列。
- 使用的编码类型为 UTF-8(含 BOM)。
- 可重复字段或组的空实例,或空表格行,将不会被导出,这意味着生成的 CSV 文件不会包含任何空行。
导出文档文本的选项(“文本”选项卡)
| Format | Export Option | Description | File Name |
|---|---|---|---|
| JSON | 仅文本 | 仅包含识别文本的 JSON 文件;不保留文档版式。**注意:**选择此选项将无法导出为 DOCX、XLSX 和 PPTX。 | <Applied_skill_name>_text.json |
| JSON | 保留文档结构 | 包含识别文本并保留文档版式的 JSON 文件。 | <Applied_skill_name>_text.json |
| XML | 仅文本 | 仅包含识别文本的 XML 文件;不保留文档版式。**注意:**选择此选项将无法导出为 DOCX、XLSX 和 PPTX。 | <Applied_skill_name>.xml |
| XML | 保留文档结构 | 包含识别文本并保留文档版式的 XML 文件。 | <Applied_skill_name>.xml |
| ALTOXML | 仅文本 | 仅包含识别文本的 ALTO XML 文件;不保留文档版式。文件符合 ALTO 标准,架构版本 4.2。**注意:**选择此选项将无法导出为 DOCX、XLSX 和 PPTX。 | <Applied_skill_name>.xml |
| ALTOXML | 保留文档结构 | 包含识别文本并保留文档版式的 ALTO XML 文件。文件符合 ALTO 标准,架构版本 4.2。 | <Applied_skill_name>.xml |
| TXT | 纯文本文档。通过空白字符保留原始文档结构。 | <Applied_skill_name>.txt | |
| DOCX | 可编辑 | 可编辑的 Word 文档,其外观可能与原件不完全一致。 | <Applied_skill_name>.docx |
| DOCX | 精确保真 | 不可编辑的 Word 文档。原始文档结构将被完整保留。 | <Applied_skill_name>.docx |
| XLSX | 可编辑的 Excel 文档。保留原始文档结构。 | <Applied_skill_name>.xlsx | |
| PPTX | 可编辑的 PowerPoint 文档。保留原始文档结构。 | <Applied_skill_name>.pptx | |
| HTML | 保留原始文档结构的 HTML 文档。 | <Applied_skill_name>.html |
**注意:**对于 JSON、XML 和 ALTOXML,导出选项(仅文本 和 保留文档结构)必须一致。如果为其中一种格式指定了其他导出选项,该选项也会应用于其余格式。
导出文档图像的选项(图像选项卡)
| Format | Export Option | Description | File Name |
|---|---|---|---|
| PDF/A-3a | 带有覆盖在文档图像上的文本层的 PDF 文件。该文本层会反映人工校验期间由人工校验员对字段值所做的更改。 | <Applied_skill_name>.pdf | |
| PDF/A-3b | 带有覆盖在文档图像上的文本层的 PDF 文件。该文本层会反映人工校验期间由人工校验员对字段值所做的更改。 | <Applied_skill_name>.pdf | |
| Image-only | 符合 PDF/A-3b 标准且不含文本层的不可编辑 PDF。 | <Applied_skill_name>.pdf | |
| TIFF | 包含增强图像的 TIFF 格式文件。 | <Applied_skill_name>.tiff | |
| JPEG | Maximum quality | 包含增强图像的 JPEG 格式文件。选择此压缩选项时,图像质量级别将设置为 95%。 | pages/page_<N>.jpg |
| JPEG | Smaller file size | 包含增强图像的 JPEG 格式文件。选择此压缩选项时,图像质量级别将设置为 75%。这可在保证可读性的同时减小图像大小。 | pages/page_<N>.jpg |
注意:对于每个 PDF 导出选项,您可以在“smaller file size”(默认)和“maximum quality”之间进行选择。较小的文件大小通过使用混合光栅内容(Mixed Raster Content,MRC)压缩实现,该方法分别为文本、图片和背景确定最佳压缩率。当导出到共享文件夹时,会为处理事务中的每个文档创建一个子文件夹。将使用以下规则和命名方案:
- 子文件夹命名如下:
<Applied_skill_name>_<N>,或<Applied_skill_name>_fields_<N>(如果启用了 JSON 导出 — Values only)。N 为该处理事务中文档的顺序号(若事务中存在多个文档,则从 2 开始)。 - 在此子文件夹中,会创建一个 Pages 子文件夹用于存储 JPG 文件。文件名格式为
page_<N>.jpg,其中 N 为页码顺序号。 - PDF 和 TIFF 文件保存在处理事务文件夹中。
- 如果处理事务中存在多个同类型文档,文件名将添加从 2 开始的数字后缀。
通用命名规则
<Applied_skill_name>,其表示以下之一:
- 应用于该文档的最后一个 Document skill 的名称。
- 如果未应用任何 Document skill,则为应用于该文档的最后一个 分类 Skill 的名称。
- 如果未应用任何 Document 或 分类 Skill,但在 Process 技能 流程中至少存在其中之一,则为“Unknown”。
存在错误的处理事务
Error.json 文件。该文件包含一个 JSON string,其中包括以下关于该处理事务的信息:
- 处理事务标识符
- 处理事务状态(Failed)
- 错误消息
- 包含该处理事务中所有源文件标识符和名称的数组
