跳转到主要内容

光学字符识别 (OCR)

  • OCR 技术——印刷文本识别支持 211 种语言,包括:
    • 欧洲语言 (拉丁字母、西里尔字母、亚美尼亚字母和希腊字母)
    • 中文 (简体和繁体) 、日语和韩语 (CJK)
    • 阿拉伯语、泰语、越南语、希伯来语和波斯语
    • 缅甸语——技术预览版
    • FineReader XIX——专为 XVII–XX 世纪出版的旧文档、书籍和报纸的数字化与归档而设计的 OCR 模块,其中许多都十分珍贵且独一无二。这些资料保存在图书馆和政府机构的历史档案中,属于必须加以保护的国家遗产。FineReader XIX 具备独特的识别能力,可识别 1600 年至 1937 年间以英语、法语、德语、意大利语和西班牙语出版的文本。它支持识别 Fraktur、Schwabacher 以及大多数 Gothic 等古老字体。
intro_KeyFeatures_OCRTechnologies
  • 56 种语言支持词典/形态分析,可显著提高 OCR 准确率。
  • 多语言文档识别功能可在同一文档中识别多种语言,例如德语和中文,或英语、俄语和韩语。
  • 点阵文档识别——ABBYY FineReader Engine 可识别多种类型的点阵打印文本。它基于数千个由各种打印机生成的样本进行训练,这些打印机包括点阵打印机、菊轮打印机、链式打印机和带式打印机,同时还涵盖草稿和 Near Letter Quality (NLQ) 打印模式。
  • 打字文稿识别。
  • 支持识别 OCR-A、OCR-B、MICR (E13B) 和 CMC7 字体。
请参阅支持的语言完整列表文本类型

智能字符识别 (ICR)

  • ICR 技术——支持 126 种以上语言的手写印刷体字符识别。
  • 39 种语言 (使用拉丁、希腊和西里尔字母) ,支持形态分析/词典。
  • 支持阿拉伯国家使用的印度数字 ICR。
  • 支持全球不同国家和地区使用的 30 种地区性手写印刷体样式 (适用于受支持的 ICR 语言) 。
  • 可识别字段和框中的手写印刷体字符——如下划线字段、方框、梳状字段等。
  • 多语言 ICR。ABBYY ICR 技术的主要优势之一是:即使字段中同时包含大写和小写字母,对于数字以及数字与一种或多种语言字母的组合,仍能提供几乎同样高的识别准确率。

光学标记识别 (OMR)

ABBYY 的 OMR 技术可识别简单勾选标记、分组勾选标记、模板勾选标记,以及带有手写“更正”的各种勾选标记,包括:
  • 方框内的勾选标记
  • 空白背景上的勾选标记
  • 非标准类型的勾选标记 (特殊勾选标记需要先训练后才能识别)
OMR 的准确率可达 99.995 %

光学条码识别 (OBR)

  • 一维和二维条码。ABBYY OCR SDK 支持识别常见的一维和二维条码。请参阅支持的条码类型列表
  • 快速提取条码。此功能可自动检测并识别文档中任意角度的条码,同时适用于一维和二维条码。

识别模式

借助 Engine 的预定义处理模式,开发人员可以快速设置并调整处理速度和准确率,从而选择最适合自身需求的处理方式。除默认处理模式外,OCR 和 ICR 识别还可在普通、快速和精确这几种识别模式下执行:
  • 精确识别模式
这是识别精度最高、可实现最佳识别质量的模式。如果您计划复用识别后的内容,或执行其他对准确性要求极高的任务,强烈建议使用此模式。
  • 快速识别模式
该模式专为大批量文档处理以及速度优先的场景而设计。此模式可将处理速度提高 200-250%,因此该技术非常适合用于内容管理 (CMS)、文档管理 (DMS) 和归档系统。
  • 普通识别模式
该模式在精确模式和快速模式之间,对识别准确率和速度进行了折中设置。通常,它能够在准确率几乎与精确模式相同的情况下提供更高的处理速度。

全文识别与字段级识别

识别可分为两种类型:全文识别和字段级识别。两者的主要区别在于,全文识别通常采用 OCR 技术,主要用于文档转换;而字段级识别则结合 OCR、ICR 及其他技术,在局部区域内识别并提取特定数据。 下表列出了这两类识别的规格:
规格全文识别字段级识别
使用场景文档转换、图书归档数据采集
---------
文档分析通用文档分析发票文档分析用于全文索引的文档分析用于字段级识别的手动块定义
识别OCR,总体准确率通常约为 96%–99%OCR、ICR、OMR、条码识别,具有预定义的数据类型和值范围。准确率约为 100%
校验建议用于内容复用场景大多数情况下必须进行
合成用于文档检索不使用
识别结果导出文档文件 (RTF、DOCX、PDF 等)导出到 XML 文件或数据库
全文识别 全文识别是一种适用于多种任务的基础识别类型,例如: 所有这些任务都需要对文档 (页面) 上的全部文本进行识别 (OCR) 。在识别之前,文档分析通常会执行页面拆分、方向校正,以及文本块、图片和其他对象的检测等处理。 随后,在 OCR 之后,文档合成会重建文档的结构和版面 (用于内容复用场景) ,或者只是为包含多栏文本和图片的复杂文档还原正确的文本顺序 (用于归档场景) 。根据具体任务,生成的文本可导出为纯文本或受支持格式的文档。 还可以通过人工校验来进一步提高文本准确率,尤其是在后续需要复用时。 字段级识别 ABBYY FineReader Engine 12 提供完整的字段级识别能力,以支持表单处理、关键词分类和关键词索引等关键业务流程。强大的图像处理功能进一步提升了其智能检测任意质量小区域的能力,并可应对各种可能影响识别准确率的图形特征 (例如带下划线的文本、扫描后的杂点、文本中的空格等) 。 字段级识别或区域识别的关键功能包括多语言 OCR 和 ICR、OMR、条码识别,以及一系列特定功能,例如:
  • 从带有各种边框和框线的字段中提取数据,包括组合框、下划线字段、方框,甚至数据超出字段边界的字段
  • 通过设置字母表、词典、正则表达式、分段类型、手写样式 (仅限 Windows) 等来定义字段内容
  • 检测字段内空格,准确识别允许出现空格的字段。ABBYY FineReader Engine 12 还支持使用包含带空格词组的词典
  • 智能处理包含相交部分和线条的块,只识别完全位于块边界内的文本 (单词和字符) ,从而减少在无关文本块识别上花费的时间
  • 文本块去噪,并可指定白色或黑色“杂点”的大小
字段级识别还可借助 Engine 为开发人员提供的专用工具获得支持,例如 Voting API“On-the-Fly” 识别调优。有关详细信息,请参阅高级开发工具

用户语言

ABBYY FineReader Engine 提供了一个用于创建和编辑识别语言的 API,可用于创建预定义识别语言的副本并对其进行调整,以及向用户语言中添加新词。 例如,如果文档中包含产品代码、电话号码、护照号码等“结构化”内容,则可能会出现识别错误。这是因为程序会按字母逐个读取这类内容。为了提高对产品代码等内容的识别效果,您可以创建一种新的识别语言,帮助程序正确读取特定类型的数据。 下面通过两个示例说明用户语言如何帮助您提高识别质量:
  • 在手工填写的文档中,表单字段中的值通常属于某个特定集合,例如城市名称、国家、邮政编码、产品代码、金额等。为了提高 ICR 识别质量,您可以使用用户语言来描述每个字段中可能输入的信息。
  • 如果文档中包含产品代码、电话号码、护照号码等“结构化”内容,则可能会出现识别错误。这是因为程序会按字母逐个读取这类内容。为了提高对产品代码等内容的识别效果,您可以创建一种新的识别语言,帮助程序正确读取特定类型的数据。

模式训练

在绝大多数情况下,ABBYY FineReader Engine 无需预先训练即可成功识别文本。不过,在识别装饰性字体或空心字体,以及批量处理印刷质量较差的文档等情况下,预先进行模式训练会很有帮助。 OCR SDK 允许您直接通过 API 创建和使用用户模式。您可以通过加载图像并匹配相应字符来训练模式。

另请参阅

主要功能 用户模式训练引导教程 - 仅适用于 Windows 高级开发工具