跳转到主要内容
要创建 OCR 技能,请按照以下步骤操作:
  1. 技能目录 中,单击工具栏中的 创建 按钮。
  2. 选择 OCR 技能 技能类型。此时会打开 创建 OCR 技能 对话框。
  3. 常规 选项卡上,为新技能输入名称和描述。
  4. 语言 选项卡上:
    a. 在 允许的语言 部分,选择一个或多个文档识别语言。在处理过程中,文档语言将从设置时指定的语言中自动选择。请注意,所选语言的数量可能会影响识别速度和质量。
    b. 如果文档包含手写文本,请在 文本外观 部分启用 手写识别 选项。
  5. 图像增强 选项卡上,裁剪图像更正页面方向 默认处于启用状态。如果您的文档不需要这些功能,可以将其关闭。
    裁剪图像 会将图像裁剪到原始文档的边缘。更正页面方向 会自动旋转图像以恢复其原始方向。
  6. 条形码 选项卡上,启用可能出现在文档上的条形码类型。所选条形码类型的数量会影响识别速度。
    重要! 如果您在单个事务中使用 OCR 技能处理多个文档文件,所有文件将被合并为一个。因此,输出文件的数量将与指定的导出格式数量相同。
  7. 导出 选项卡上,选择一个或多个文档导出格式。有关更多信息,请参见 可用导出格式

可用导出格式

  • JSON(默认格式):
    • 仅文本(默认选项)。导出的 JSON 文件将只包含识别的文本,不保留文档版面布局。若选择 仅文本,则无法导出为 DOCX、XLSX 和 PPTX。
    • 保留文档结构。 导出的 JSON 文件将包含识别的文本,并同时保留文档版面布局。
  • XML
    • 仅文本。导出的 XML 文件将只包含识别的文本,不保留文档版面布局。若选择 仅文本,则无法导出为 DOCX、XLSX 和 PPTX。
    • 保留文档结构。导出的 XML 文件将包含识别的文本,并保留文档版面布局。
  • ALTOXML
    • 仅文本。导出的 ALTO XML 文件将只包含识别的文本,不保留文档版面布局。若选择 仅文本,则无法导出为 DOCX、XLSX 和 PPTX。
    • 保留文档结构。导出的 ALTO XML 文件将包含识别的文本,并保留文档版面布局。
重要! JSON、XML 和 ALTOXML 的导出选项(仅文本保留文档结构)必须保持一致。如果为其中一种格式指定了不同的导出选项,则该选项会应用于其他格式。
  • PDF
    • PDF/A-3a(默认 PDF 导出格式)
    • PDF/A-3b
    • 仅图像。符合 PDF/A-3b 标准的不可编辑 PDF
提示: 对每个 PDF 导出选项,可在“较小文件大小”(默认选项)和“最大质量”之间选择。通过使用混合栅格内容(MRC,Mixed Raster Content)压缩,可分别对文本、图片和背景使用最佳压缩率,从而实现较小的文件大小。
  • TXT
  • DOCX(Microsoft Word):
    • 可编辑。导出的 DOCX 文件会保留原始格式和文本流,同时便于编辑。输出文档可能与原始图像略有不同。
    • 精确。导出的 DOCX 文件会保持原始文档的版式和格式,这可能会限制对输出文档中文本和格式的更改。
  • XLSX(Microsoft Excel)
  • TIFF
  • JPEG
    • 最大质量。导出的文件包含压缩级别为 95% 的 JPEG。
    • 较小文件大小。导出的文件包含压缩级别为 75% 的 JPEG。
  • PPTX(Microsoft PowerPoint)
  • HTML