跳转到主要内容

比较文档

全新“Compare Documents”模块为快速验证文档的完整性,ABBYY FineReader Engine 中全新的“Compare Documents”模块可检测同一文档两个版本之间的内容差异。
双语文档比较“Compare Documents”模块中的新选项可自动识别此类文档的双语特性及其复杂版面,并分别比较每一列 (也就是分别比较每种语言的版本) 。

Linux 和 Windows 中的 Office 格式输入

Office 文档处理

除支持多种图像格式外,FineReader Engine 现在还可以处理采用以下 Office 文档格式的输入文档:

  • 文本文档:.doc、.docx、.rtf、.htm / .html、.txt、.odt
  • 表格:.xls、.xlsx、.ods
  • 演示文稿:.ppt、.pptx、.odp

从内存中打开 Office 文档

新增了可直接从内存中打开 Microsoft Office 和 Apache OpenOffice 文件的方法,这有助于提升文档导入步骤的速度,从而加快整体文档处理速度。

MRZ 采集

从机器可读区 (MRZ) 采集数据这项新功能可从身份证件中的机器可读区 (MRZ) 自动提取数据,从而加快在客户开户注册或身份核验流程中个人信息的录入与核验。

日语 OCR 改进

领先的识别准确率借助新版 ABBYY Fine Reader Engine,日语 OCR 得到了显著提升,识别准确率达到了此前大多数解决方案都无法企及的新高度。

改进版阿拉伯语 OCR

面向低质量图像的端到端阿拉伯语识别适用于低质量图像中的阿拉伯语 OCR;在这类场景下,通用技术通常会产生大量错误且结果置信度较低。

改进的韩语 OCR

韩语深度学习语言模型经过训练的韩语模型可从识别候选结果中选择最佳的单词识别变体,甚至还能基于识别上下文 (前后词) 生成新的变体。
基于神经网络的新 OCR 技术

OCR 技术改进

借助 OCR 技术中的神经网络方法,ABBYY FineReader Engine 增强了对手写和印刷体拉丁字符的处理能力:

  • 用于一致、准确选择单词变体的语言模型
  • 面向拉丁文字的端到端识别,用于处理多语言文档

机器学习条码识别技术

该神经网络架构引入了一种新的条码识别模型,可检测条码的大致区域、对其进行分类,并输出一个区域及其最可能的条码类型。

新的识别模式

新的 Accurate 模式可在识别速度适度降低的前提下,获得最高质量的输出文档。此模式最适合低质量或拍照生成的发票、合同、收据和身份证件。

印章和签名附近文本的 OCR 质量提升

检测印章和签名附近的文本当协议中包含印章或签名时,其附近的文本会与这些元素分开识别,从而提升已处理文档的质量。

新的许可选项

将 Online License 用于网络版和单机版FineReader Engine 12 的《开发人员帮助》新增了有关 SDK 各种许可方式的信息,并通过一个易于理解的对比表对各类许可选项进行了说明。
使用宽限期借助这一新选项,客户可以在到期日后的一段时间内继续使用 ABBYY FineReader Engine 许可证,从而延长许可证的有效期。

Linux 和 macOS 版本中的 ICR 和 OMR 技术

手写文本和勾选标记识别使用 ABBYY FineReader Engine 12,您可以识别手写字符、手写印刷体字符以及各种类型的勾选标记。系统采用了 ICR 和 OMR 技术,可从手写文档中提取数据,并开发新的数据提取解决方案。
Engine 在云环境中的运行能力
全新的部署选项新的许可类型支持在虚拟环境和云环境中部署,从而让您能够提供更广泛的解决方案。许可机制需要互联网连接,并支持代理服务器。 <Note> 适用于 Linux 和 Windows 版 FineReader Engine。 </Note>
适用于 Windows 的 FRE .NET Core 封装器
全新的开发框架为了提升使用容器及其他原生环境这一主流软件开发和部署方式的开发团队效率,ABBYY FineReader Engine 现提供预构建的 .NET Core 6 封装器。
ABBYY FineReader Engine 中的新库
NeoML 库的使用NeoML 是一个开源的端到端机器学习框架,可让您构建、训练和部署机器学习模型。该框架被工程师用于计算机视觉和自然语言处理任务,包括图像预处理、分类、文档版面分析、OCR,以及从结构化和非结构化文档中提取数据。
用于处理 PDF 的嵌入式 PDFiumPDFium 是一个符合 PDF 标准的跨平台原生库,可处理与 PDF 相关的所有操作,包括处理、解析、渲染和输出生成。
增强的文档分类
使用 NLP 和机器学习的文档分类使用 ABBYY FineReader Engine 12,可将传入文档自动归类到不同类别中。系统采用机器学习、OCR 和自然语言处理技术,使用具有代表性的文档对基于图像和基于文本的分类器进行训练。随后,这些获得的信息将在分类步骤中使用。
基于文本的分类器:更高的训练数据安全性为了训练和优化基于文本的分类器,必须导入代表各文档类别的文档。为保护这些文档中包含的数据,所采用的哈希算法可防止从样本文档中还原信息。
增强版分类 Demo SampleABBYY FineReader Engine 能够处理 PDF、扫描或拍摄的文档图像,以及 Office 格式的文档。为了在分类过程中体现这一能力,随附的预编译分类 Demo Sample 已得到增强,现在除 PDF 和图像格式外,还支持导入 Office 文档。

命令行界面 (CLI) 代码示例

开箱即用的代码示例借助此代码示例,开发人员可高效使用 ABBYY FineReader Engine 库,并将文档处理功能集成到命令行应用程序中。
PDF 元数据提取器实现
数字原生 PDF 文件处理AuxInfo 是 PDFium 提供的一个辅助对象,用于提供 PDF 文件的元数据信息。ABBYY R&D PDFTools 团队实现了自有的 AuxInfo 对象,可与 PDFium 配合使用。

改进的 PDF 处理

针对“混合”
内容 PDF 的改进

ABBYY FineReader Engine 为处理同时包含纯图像页面和数字原生页面的 PDF 文档提供了新功能:

  • 自适应识别,提升 PDF 处理效果和速度
  • 文本层质量分类器,用于在输出格式中保留优质文本层
  • 指示 PDF 中是否存在数字签名
  • 用于处理混合内容文档的全新内容复用模式

在 PDF 中使用附加内容

为更灵活地生成 PDF 内容,ABBYY FineReader Engine 提供了以下新选项:

  • 打开 PDF Portfolio 并处理其中的内容
  • 向输出 PDF 添加自定义图像并管理其位置
更多语言支持
波斯语 OCRABBYY FineReader Engine 更新并改进了波斯语识别选项,从而能够更高效地处理来自伊朗、阿富汗及中东许多其他国家/地区的文档。
格鲁吉亚语 OCR格鲁吉亚语已新增为 OCR 语言。
简单数学公式 OCR提取简单数学公式中的字符,有助于更好地识别在文本中包含简单单行数学公式的科技文档。
缅甸语 OCR 技术预览缅甸语 OCR 已作为技术预览加入,以展示未来功能。
用于识别阿拉伯语和日语日期的特殊语言FineReader Engine for Windows 支持在 FineReader Engine 中用于字段识别的特殊语言。新版本新增并改进了对阿拉伯语和日语日期的识别。
孟加拉语 OCR 技术预览孟加拉语 OCR 已作为技术预览加入,以展示潜在功能。

改进的文档版面重建

改进的表格重建借助 ABBYY FineReader Engine 12,从文档中提取的表格比以往能更好地保留原有格式。
平衡分栏的检测与重建当文档包含平衡分栏的文本时 (如合同、科研论文、文章等) ,现在可保持原始结构完整,从而简化文档处理。
新的“单栏”文档模型新算法的主要改进集中在表格和图表的检测与分析方面。
增强的表格结构分析借助改进后的文档转换机制,ABBYY FineReader Engine 可以检测采用“Accounting”格式的数字列的表格。

加快处理速度的内部流程优化

ILayout 对象迭代的新方案一种新的迭代方案,可加快遍历在主进程外处理文档后获得的 ILayout 对象。 <Note> 适用于 Linux 和 Windows 版 FineReader Engine。 </Note>

Windows 版 FRE 的新增扫描选项

更多扫描功能

ABBYY FineReader Engine 12 提供多种与设备相关的扫描功能:

  • 自动从文档中删除空白页
  • 自动裁剪页面
  • 自动校正歪斜
  • 自动检测彩色模式
在线文档
在线提供的文档除了内置文档外,您现在还可以使用在线版本,按需获取有关 ABBYY FineReader Engine 特性和功能的“即时”信息。

Windows 版 FRE 中最新的 .NET Framework 版本

.NET COM Interop 封装器支持

当前发行包已包含适用于以下 .NET Framework 版本的 .NET COM Interop 封装器:

  • 3.5 SP1
  • 4.6
  • 4.7
  • 4.8
新的导出格式
JSONJSON (JavaScript Object Notation) 是一种开放标准、与编程语言无关的文件格式,用于传输由属性值对和数组数据类型构成的数据对象。FineReader Engine 现已支持将 OCR 结果导出为 JSON 格式。
新版 ALTOALTO (Analyzed Layout and Text Object) 是一种 XML Schema,用于详细描述技术元数据,以说明物理文本资源 (如书籍或报纸页面) 的版面和内容。FineReader Engine 12 支持此 Schema 的最新版本 (4.0、4.1、4.2) 。
PDF/A-2b 和 PDF/A-3bPDF/A 是 Portable Document Format (PDF) 的 ISO 标准化版本,专门用于电子文档的归档和长期保存。现在,FineReader Engine 已支持所有 PDF/A 一致性级别。

完整功能