PDF 处理模式

模式	说明	何时使用
默认 (推荐)	在可用时使用嵌入的 PDF 文本层，并在需要时结合 OCR。这是 Vantage 的标准处理方式。	适用于一般场景。推荐用于大多数同时包含文本层 PDF 和纯图像 PDF 的文档集。
仅使用文本层	仅从嵌入的 PDF 文本层中提取文本。如果不存在文本层，Vantage 会自动回退到 OCR。	当您拥有高质量且可信的文本层，并希望在不执行完整 OCR 的情况下加快提取速度时使用。也适用于受监管环境，因为在这类环境中，现有文本层通常是权威来源。
仅使用 OCR	忽略任何嵌入的 PDF 文本层，并对文档的每一页执行完整 OCR。	当已知 PDF 文本层不可靠或已损坏，或者您需要在所有文档中获得一致的、基于 OCR 的提取结果而不受文档结构影响时使用。

模式

说明

何时使用

默认 (推荐)

在可用时使用嵌入的 PDF 文本层，并在需要时结合 OCR。这是 Vantage 的标准处理方式。

适用于一般场景。推荐用于大多数同时包含文本层 PDF 和纯图像 PDF 的文档集。

仅使用文本层

仅从嵌入的 PDF 文本层中提取文本。如果不存在文本层，Vantage 会自动回退到 OCR。

当您拥有高质量且可信的文本层，并希望在不执行完整 OCR 的情况下加快提取速度时使用。也适用于受监管环境，因为在这类环境中，现有文本层通常是权威来源。

仅使用 OCR

忽略任何嵌入的 PDF 文本层，并对文档的每一页执行完整 OCR。

当已知 PDF 文本层不可靠或已损坏，或者您需要在所有文档中获得一致的、基于 OCR 的提取结果而不受文档结构影响时使用。

仅使用文本层

您的组织处理的是从供应商 ERP 系统导出的原生数字 PDF 发票。嵌入的文本层准确且由系统自动生成。使用 仅使用文本层 可实现快速、可靠的提取，无需执行额外的 OCR。

默认（推荐）

在同一工作流中，您需要处理大量扫描纸质文档和原生数字 PDF 的混合文件。有些文件带有清晰的文本层，有些则没有。默认 (推荐) 可自动处理这两种情况，无需针对每份文档单独配置。

仅使用 OCR

您的文档集由旧式扫描系统生成的 PDF 组成，该系统会在扫描时嵌入低质量的文本层。该嵌入层包含识别错误，会影响字段提取效果。仅使用 OCR 会完全绕过该层，直接从页面图像中提取干净文本。

受监管环境

您所在的行业属于强监管行业 (如金融服务或医疗保健) ，提取结果必须完全可复现且可审计。将模式固定为 仅使用文本层 或 仅使用 OCR，可确保始终采用相同的处理路径，而不受文档来源方式影响。

可用模式