- 您所处的受监管行业要求提取结果具备可重现性和可审计性。
- 您的文档集包含嵌入文本层质量较低或不可靠的 PDF,此时使用 OCR 可获得更好的结果。
- 您正在从 ABBYY FlexiCapture 迁移,并且需要复现现有工作流的处理行为。
- 无论文档内容如何,您都需要让所有文档的处理行为保持一致且可预测。
可用模式
| 模式 | 说明 | 何时使用 |
|---|---|---|
| 默认 (推荐) | 在可用时使用嵌入的 PDF 文本层,并在需要时结合 OCR。这是 Vantage 的标准处理方式。 | 适用于一般场景。推荐用于大多数同时包含文本层 PDF 和纯图像 PDF 的文档集。 |
| 仅使用文本层 | 仅从嵌入的 PDF 文本层中提取文本。如果不存在文本层,Vantage 会自动回退到 OCR。 | 当您拥有高质量且可信的文本层,并希望在不执行完整 OCR 的情况下加快提取速度时使用。也适用于受监管环境,因为在这类环境中,现有文本层通常是权威来源。 |
| 仅使用 OCR | 忽略任何嵌入的 PDF 文本层,并对文档的每一页执行完整 OCR。 | 当已知 PDF 文本层不可靠或已损坏,或者您需要在所有文档中获得一致的、基于 OCR 的提取结果而不受文档结构影响时使用。 |
示例场景
仅使用文本层
仅使用文本层
您的组织处理的是从供应商 ERP 系统导出的原生数字 PDF 发票。嵌入的文本层准确且由系统自动生成。使用 仅使用文本层 可实现快速、可靠的提取,无需执行额外的 OCR。
默认(推荐)
默认(推荐)
在同一工作流中,您需要处理大量扫描纸质文档和原生数字 PDF 的混合文件。有些文件带有清晰的文本层,有些则没有。默认 (推荐) 可自动处理这两种情况,无需针对每份文档单独配置。
仅使用 OCR
仅使用 OCR
您的文档集由旧式扫描系统生成的 PDF 组成,该系统会在扫描时嵌入低质量的文本层。该嵌入层包含识别错误,会影响字段提取效果。仅使用 OCR 会完全绕过该层,直接从页面图像中提取干净文本。
受监管环境
受监管环境
您所在的行业属于强监管行业 (如金融服务或医疗保健) ,提取结果必须完全可复现且可审计。将模式固定为 仅使用文本层 或 仅使用 OCR,可确保始终采用相同的处理路径,而不受文档来源方式影响。
配置位置
- OCR 技能设置 — “常规”选项卡中的“图像处理”下
- 流程技能中的 OCR Activity 设置 — “常规”选项卡中的“图像处理”下
