跳转到主要内容
要创建 OCR Skill,请按以下步骤操作:
  1. Skill Catalog 中,点击工具栏中的 Create 按钮。
  2. 选择 OCR Skill 类型。将打开 Create OCR Skill 对话框。
  3. General 选项卡,输入新 Skill 的名称和描述。
  4. Languages 选项卡:
    a. 在 Allowed Languages 部分,选择一个或多个文档识别语言。处理时,系统会从设置中指定的语言里自动选择文档语言。请注意,所选语言数量可能会影响识别速度和质量。
    b. 如果文档包含手写文本,请在 Text Appearance 部分启用 Handwritten 选项。
  5. Image Enhancements 选项卡,Crop ImageCorrect Page Orientation 默认启用。若文档不需要这些功能,可选择关闭。
    Crop Image 将图像裁剪至原始文档的边缘。Correct Page Orientation 会自动旋转图像以恢复其原始方向。
  6. Barcodes 选项卡,启用可能出现在文档中的条码类型。所选条码类型的数量会影响识别速度。
    重要! 如果您在单个处理事务中使用一个 OCR Skill 处理多个文档文件,所有文件将被合并为一个。因此,输出文件数量将与指定的导出格式数量相同。
  7. Export 选项卡,选择一个或多个文档导出格式。更多信息,请参见 可用的导出格式

可用的导出格式

  • JSON(默认格式):
    • 仅文本(默认选项)。导出的 JSON 文件仅包含识别的文本,不保留文档版式。选择 仅文本 时,无法导出为 DOCX、XLSX 和 PPTX。
    • 保留文档结构。导出的 JSON 文件将包含识别的文本,并保留文档版式。
  • XML
    • 仅文本。导出的 XML 文件仅包含识别的文本,不保留文档版式。选择 仅文本 时,无法导出为 DOCX、XLSX 和 PPTX。
    • 保留文档结构。导出的 XML 文件将包含识别的文本,并保留文档版式。
  • ALTOXML
    • 仅文本。导出的 ALTO XML 文件仅包含识别的文本,不保留文档版式。选择 仅文本 时,无法导出为 DOCX、XLSX 和 PPTX。
    • 保留文档结构。导出的 ALTO XML 文件将包含识别的文本,并保留文档版式。
重要! JSON、XML 和 ALTOXML 的导出选项(仅文本保留文档结构)必须一致。如果为其中一种格式指定了不同的导出选项,该选项将同时应用于其他格式。
  • PDF
    • PDF/A-3a(默认 PDF 导出格式)
    • PDF/A-3b
    • 仅图像。不可编辑的 PDF,符合 PDF/A-3b 标准
提示: 对于每种 PDF 导出选项,可在“更小的文件大小”(默认)和“最高质量”之间选择。更小的文件大小通过使用混合栅格内容(MRC)压缩实现,该方法分别为文本、图片和背景确定最佳压缩率。
  • TXT
  • DOCX(Microsoft Word):
    • 可编辑。导出的 DOCX 文件保留原始格式和文本流,同时便于编辑。输出文档可能与原始图像存在差异。
    • 精确。导出的 DOCX 文件尽可能保持原始文档的版式与格式,但这可能会限制对输出文档中文本和格式的修改。
  • XLSX(Microsoft Excel)
  • TIFF
  • JPEG
    • 最高质量。导出的文件包含压缩级别为 95% 的 JPEG。
    • 减小尺寸。导出的文件包含压缩级别为 75% 的 JPEG。
  • PPTX(Microsoft PowerPoint)
  • HTML