设置 OCR Skill

要创建 OCR Skill，请按以下步骤操作：

在 Skill Catalog 中，点击工具栏中的 Create 按钮。
选择 OCR Skill 类型。将打开 Create OCR Skill 对话框。
在 General 选项卡，输入新 Skill 的名称和描述。
在 Languages 选项卡：
a. 在 Allowed Languages 部分，选择一个或多个文档识别语言。处理时，系统会从设置中指定的语言里自动选择文档语言。请注意，所选语言数量可能会影响识别速度和质量。
b. 如果文档包含手写文本，请在 Text Appearance 部分启用 Handwritten 选项。
在 Image Enhancements 选项卡，Crop Image 和 Correct Page Orientation 默认启用。若文档不需要这些功能，可选择关闭。
Crop Image 将图像裁剪至原始文档的边缘。Correct Page Orientation 会自动旋转图像以恢复其原始方向。
在 Barcodes 选项卡，启用可能出现在文档中的条码类型。所选条码类型的数量会影响识别速度。
重要！ 如果您在单个处理事务中使用一个 OCR Skill 处理多个文档文件，所有文件将被合并为一个。因此，输出文件数量将与指定的导出格式数量相同。
在 Export 选项卡，选择一个或多个文档导出格式。更多信息，请参见 可用的导出格式。

可用的导出格式

JSON（默认格式）：
- 仅文本（默认选项）。导出的 JSON 文件仅包含识别的文本，不保留文档版式。选择 仅文本 时，无法导出为 DOCX、XLSX 和 PPTX。
- 保留文档结构。导出的 JSON 文件将包含识别的文本，并保留文档版式。
XML：
- 仅文本。导出的 XML 文件仅包含识别的文本，不保留文档版式。选择 仅文本 时，无法导出为 DOCX、XLSX 和 PPTX。
- 保留文档结构。导出的 XML 文件将包含识别的文本，并保留文档版式。
ALTOXML：
- 仅文本。导出的 ALTO XML 文件仅包含识别的文本，不保留文档版式。选择 仅文本 时，无法导出为 DOCX、XLSX 和 PPTX。
- 保留文档结构。导出的 ALTO XML 文件将包含识别的文本，并保留文档版式。

重要！ JSON、XML 和 ALTOXML 的导出选项（仅文本与保留文档结构）必须一致。如果为其中一种格式指定了不同的导出选项，该选项将同时应用于其他格式。

提示： 对于每种 PDF 导出选项，可在“更小的文件大小”（默认）和“最高质量”之间选择。更小的文件大小通过使用混合栅格内容（MRC）压缩实现，该方法分别为文本、图片和背景确定最佳压缩率。

TXT
DOCX（Microsoft Word）：
- 可编辑。导出的 DOCX 文件保留原始格式和文本流，同时便于编辑。输出文档可能与原始图像存在差异。
- 精确。导出的 DOCX 文件尽可能保持原始文档的版式与格式，但这可能会限制对输出文档中文本和格式的修改。
XLSX（Microsoft Excel）
TIFF
JPEG：
- 最高质量。导出的文件包含压缩级别为 95% 的 JPEG。
- 减小尺寸。导出的文件包含压缩级别为 75% 的 JPEG。
PPTX（Microsoft PowerPoint）
HTML