设置 OCR 技能 - ABBYY Documentation

要创建 OCR 技能，请按照以下步骤操作：

在 技能目录 中，单击工具栏中的创建按钮。
选择 OCR 技能 技能类型。此时会打开 创建 OCR 技能 对话框。
在常规选项卡上，为新技能输入名称和描述。
在语言选项卡上：
a. 在 允许的语言 部分，选择一个或多个文档识别语言。在处理过程中，文档语言将从设置时指定的语言中自动选择。请注意，所选语言的数量可能会影响识别速度和质量。
b. 如果文档包含手写文本，请在 文本外观 部分启用 手写识别 选项。
在 图像增强 选项卡上，裁剪图像 和 更正页面方向 默认处于启用状态。如果您的文档不需要这些功能，可以将其关闭。
裁剪图像 会将图像裁剪到原始文档的边缘。更正页面方向 会自动旋转图像以恢复其原始方向。
在 条形码 选项卡上，启用可能出现在文档上的条形码类型。所选条形码类型的数量会影响识别速度。
重要！ 如果您在单个事务中使用 OCR 技能处理多个文档文件，所有文件将被合并为一个。因此，输出文件的数量将与指定的导出格式数量相同。
在导出选项卡上，选择一个或多个文档导出格式。有关更多信息，请参见 可用导出格式。

可用导出格式

JSON (默认格式) ：
- 仅文本 (默认选项) 。导出的 JSON 文件将只包含识别的文本，不保留文档版面布局。若选择 仅文本，则无法导出为 DOCX、XLSX 和 PPTX。
- 保留文档结构。 导出的 JSON 文件将包含识别的文本，并同时保留文档版面布局。
XML：
- 仅文本。导出的 XML 文件将只包含识别的文本，不保留文档版面布局。若选择 仅文本，则无法导出为 DOCX、XLSX 和 PPTX。
- 保留文档结构。导出的 XML 文件将包含识别的文本，并保留文档版面布局。
ALTOXML：
- 仅文本。导出的 ALTO XML 文件将只包含识别的文本，不保留文档版面布局。若选择 仅文本，则无法导出为 DOCX、XLSX 和 PPTX。
- 保留文档结构。导出的 ALTO XML 文件将包含识别的文本，并保留文档版面布局。

JSON、XML 和 ALTOXML 的导出选项 (仅文本 和 保留文档结构) 必须保持一致。如果为其中一种格式指定了不同的导出选项，则该选项会应用于其他格式。

对于每个 PDF 导出选项，可在“较小文件大小” (默认选项) 和“最大质量”之间选择。通过使用混合栅格内容 (MRC，Mixed Raster Content) 压缩，可分别对文本、图片和背景使用最佳压缩率，从而实现较小的文件大小。

TXT
DOCX (Microsoft Word) ：
- 可编辑。导出的 DOCX 文件会保留原始格式和文本流，同时便于编辑。输出文档可能与原始图像略有不同。
- 精确。导出的 DOCX 文件会保持原始文档的版式和格式，这可能会限制对输出文档中文本和格式的更改。
XLSX (Microsoft Excel)
TIFF
JPEG：
- 最大质量。导出的文件包含压缩级别为 95% 的 JPEG。
- 较小文件大小。导出的文件包含压缩级别为 75% 的 JPEG。
PPTX (Microsoft PowerPoint)
HTML