跳转到主要内容要创建 OCR Skill,请按以下步骤操作:
- 在 Skill Catalog 中,点击工具栏中的 Create 按钮。
- 选择 OCR Skill 类型。将打开 Create OCR Skill 对话框。
- 在 General 选项卡,输入新 Skill 的名称和描述。
- 在 Languages 选项卡:
a. 在 Allowed Languages 部分,选择一个或多个文档识别语言。处理时,系统会从设置中指定的语言里自动选择文档语言。请注意,所选语言数量可能会影响识别速度和质量。
b. 如果文档包含手写文本,请在 Text Appearance 部分启用 Handwritten 选项。
- 在 Image Enhancements 选项卡,Crop Image 和 Correct Page Orientation 默认启用。若文档不需要这些功能,可选择关闭。
Crop Image 将图像裁剪至原始文档的边缘。Correct Page Orientation 会自动旋转图像以恢复其原始方向。
- 在 Barcodes 选项卡,启用可能出现在文档中的条码类型。所选条码类型的数量会影响识别速度。
重要! 如果您在单个处理事务中使用一个 OCR Skill 处理多个文档文件,所有文件将被合并为一个。因此,输出文件数量将与指定的导出格式数量相同。
- 在 Export 选项卡,选择一个或多个文档导出格式。更多信息,请参见 可用的导出格式。
- JSON(默认格式):
- 仅文本(默认选项)。导出的 JSON 文件仅包含识别的文本,不保留文档版式。选择 仅文本 时,无法导出为 DOCX、XLSX 和 PPTX。
- 保留文档结构。导出的 JSON 文件将包含识别的文本,并保留文档版式。
- XML:
- 仅文本。导出的 XML 文件仅包含识别的文本,不保留文档版式。选择 仅文本 时,无法导出为 DOCX、XLSX 和 PPTX。
- 保留文档结构。导出的 XML 文件将包含识别的文本,并保留文档版式。
- ALTOXML:
- 仅文本。导出的 ALTO XML 文件仅包含识别的文本,不保留文档版式。选择 仅文本 时,无法导出为 DOCX、XLSX 和 PPTX。
- 保留文档结构。导出的 ALTO XML 文件将包含识别的文本,并保留文档版式。
重要! JSON、XML 和 ALTOXML 的导出选项(仅文本与保留文档结构)必须一致。如果为其中一种格式指定了不同的导出选项,该选项将同时应用于其他格式。
- PDF:
- PDF/A-3a(默认 PDF 导出格式)
- PDF/A-3b
- 仅图像。不可编辑的 PDF,符合 PDF/A-3b 标准
提示: 对于每种 PDF 导出选项,可在“更小的文件大小”(默认)和“最高质量”之间选择。更小的文件大小通过使用混合栅格内容(MRC)压缩实现,该方法分别为文本、图片和背景确定最佳压缩率。
- TXT
- DOCX(Microsoft Word):
- 可编辑。导出的 DOCX 文件保留原始格式和文本流,同时便于编辑。输出文档可能与原始图像存在差异。
- 精确。导出的 DOCX 文件尽可能保持原始文档的版式与格式,但这可能会限制对输出文档中文本和格式的修改。
- XLSX(Microsoft Excel)
- TIFF
- JPEG:
- 最高质量。导出的文件包含压缩级别为 95% 的 JPEG。
- 减小尺寸。导出的文件包含压缩级别为 75% 的 JPEG。
- PPTX(Microsoft PowerPoint)
- HTML