光学字符识别 (OCR)
- OCR 技术——印刷文本识别支持 211 种语言,包括:
- 欧洲语言 (拉丁字母、西里尔字母、亚美尼亚字母和希腊字母)
- 中文 (简体和繁体) 、日语和韩语 (CJK)
- 阿拉伯语、泰语、越南语、希伯来语和波斯语
- 缅甸语——技术预览版
- FineReader XIX——专为 XVII–XX 世纪出版的旧文档、书籍和报纸的数字化与归档而设计的 OCR 模块,其中许多都十分珍贵且独一无二。这些资料保存在图书馆和政府机构的历史档案中,属于必须加以保护的国家遗产。FineReader XIX 具备独特的识别能力,可识别 1600 年至 1937 年间以英语、法语、德语、意大利语和西班牙语出版的文本。它支持识别 Fraktur、Schwabacher 以及大多数 Gothic 等古老字体。

- 56 种语言支持词典/形态分析,可显著提高 OCR 准确率。
- 多语言文档识别功能可在同一文档中识别多种语言,例如德语和中文,或英语、俄语和韩语。
- 点阵文档识别——ABBYY FineReader Engine 可识别多种类型的点阵打印文本。它基于数千个由各种打印机生成的样本进行训练,这些打印机包括点阵打印机、菊轮打印机、链式打印机和带式打印机,同时还涵盖草稿和 Near Letter Quality (NLQ) 打印模式。
- 打字文稿识别。
- 支持识别 OCR-A、OCR-B、MICR (E13B) 和 CMC7 字体。
智能字符识别 (ICR)
- ICR 技术——支持 126 种以上语言的手写印刷体字符识别。
- 39 种语言 (使用拉丁、希腊和西里尔字母) ,支持形态分析/词典。
- 支持阿拉伯国家使用的印度数字 ICR。
- 支持全球不同国家和地区使用的 30 种地区性手写印刷体样式 (适用于受支持的 ICR 语言) 。
- 可识别字段和框中的手写印刷体字符——如下划线字段、方框、梳状字段等。
- 多语言 ICR。ABBYY ICR 技术的主要优势之一是:即使字段中同时包含大写和小写字母,对于数字以及数字与一种或多种语言字母的组合,仍能提供几乎同样高的识别准确率。
光学标记识别 (OMR)
- 方框内的勾选标记
- 空白背景上的勾选标记
- 非标准类型的勾选标记 (特殊勾选标记需要先训练后才能识别)
光学条码识别 (OBR)
- 一维和二维条码。ABBYY OCR SDK 支持识别常见的一维和二维条码。请参阅支持的条码类型列表。
- 快速提取条码。此功能可自动检测并识别文档中任意角度的条码,同时适用于一维和二维条码。
识别模式
- 精确识别模式
- 快速识别模式
- 普通识别模式
全文识别与字段级识别
| 规格 | 全文识别 | 字段级识别 |
|---|---|---|
| 使用场景 | 文档转换、图书归档 | 数据采集 |
| --- | --- | --- |
| 文档分析 | 通用文档分析、发票文档分析、用于全文索引的文档分析 | 用于字段级识别的手动块定义 |
| 识别 | OCR,总体准确率通常约为 96%–99% | OCR、ICR、OMR、条码识别,具有预定义的数据类型和值范围。准确率约为 100% |
| 校验 | 建议用于内容复用场景 | 大多数情况下必须进行 |
| 合成 | 用于文档检索 | 不使用 |
| 识别结果导出 | 文档文件 (RTF、DOCX、PDF 等) | 导出到 XML 文件或数据库 |
- 文档归档
- 用于内容复用的文档转换
- 用于字段检测和文档分类的文本提取
- 从带有各种边框和框线的字段中提取数据,包括组合框、下划线字段、方框,甚至数据超出字段边界的字段
- 通过设置字母表、词典、正则表达式、分段类型、手写样式 (仅限 Windows) 等来定义字段内容
- 检测字段内空格,准确识别允许出现空格的字段。ABBYY FineReader Engine 12 还支持使用包含带空格词组的词典
- 智能处理包含相交部分和线条的块,只识别完全位于块边界内的文本 (单词和字符) ,从而减少在无关文本块识别上花费的时间
- 文本块去噪,并可指定白色或黑色“杂点”的大小
用户语言
- 在手工填写的文档中,表单字段中的值通常属于某个特定集合,例如城市名称、国家、邮政编码、产品代码、金额等。为了提高 ICR 识别质量,您可以使用用户语言来描述每个字段中可能输入的信息。
- 如果文档中包含产品代码、电话号码、护照号码等“结构化”内容,则可能会出现识别错误。这是因为程序会按字母逐个读取这类内容。为了提高对产品代码等内容的识别效果,您可以创建一种新的识别语言,帮助程序正确读取特定类型的数据。
