跳转到主要内容
当 ABBYY Vantage 处理 PDF 文档时,需要决定采用哪种方式提取文本。PDF 可能包含嵌入的文本层 (即直接写入文件中的可搜索文本) ,也可能只是图像文件,需要通过 Optical Character Recognition (OCR) 提取文本。 PDF 处理模式设置让您可以明确控制 Vantage 使用哪种方法。这在以下情况下尤其实用:
  • 您所处的受监管行业要求提取结果具备可重现性和可审计性。
  • 您的文档集包含嵌入文本层质量较低或不可靠的 PDF,此时使用 OCR 可获得更好的结果。
  • 您正在从 ABBYY FlexiCapture 迁移,并且需要复现现有工作流的处理行为。
  • 无论文档内容如何,您都需要让所有文档的处理行为保持一致且可预测。

可用模式

模式说明何时使用
默认 (推荐)在可用时使用嵌入的 PDF 文本层,并在需要时结合 OCR。这是 Vantage 的标准处理方式。适用于一般场景。推荐用于大多数同时包含文本层 PDF 和纯图像 PDF 的文档集。
仅使用文本层仅从嵌入的 PDF 文本层中提取文本。如果不存在文本层,Vantage 会自动回退到 OCR。当您拥有高质量且可信的文本层,并希望在不执行完整 OCR 的情况下加快提取速度时使用。也适用于受监管环境,因为在这类环境中,现有文本层通常是权威来源。
仅使用 OCR忽略任何嵌入的 PDF 文本层,并对文档的每一页执行完整 OCR。当已知 PDF 文本层不可靠或已损坏,或者您需要在所有文档中获得一致的、基于 OCR 的提取结果而不受文档结构影响时使用。

示例场景

以下示例展示了每种模式最适用的典型场景。
您的组织处理的是从供应商 ERP 系统导出的原生数字 PDF 发票。嵌入的文本层准确且由系统自动生成。使用 仅使用文本层 可实现快速、可靠的提取,无需执行额外的 OCR。
在同一工作流中,您需要处理大量扫描纸质文档和原生数字 PDF 的混合文件。有些文件带有清晰的文本层,有些则没有。默认 (推荐) 可自动处理这两种情况,无需针对每份文档单独配置。
您的文档集由旧式扫描系统生成的 PDF 组成,该系统会在扫描时嵌入低质量的文本层。该嵌入层包含识别错误,会影响字段提取效果。仅使用 OCR 会完全绕过该层,直接从页面图像中提取干净文本。
您所在的行业属于强监管行业 (如金融服务或医疗保健) ,提取结果必须完全可复现且可审计。将模式固定为 仅使用文本层仅使用 OCR,可确保始终采用相同的处理路径,而不受文档来源方式影响。

配置位置

可在以下位置配置 PDF 处理模式 设置:
  • OCR 技能设置 — “常规”选项卡中的“图像处理”下
  • 流程技能中的 OCR Activity 设置 — “常规”选项卡中的“图像处理”下

支持的 Technology Core 版本

PDF 处理模式仅支持使用 Technology Core 3 的技能。较早版本的 Technology Core 不支持此功能。