ABBYY FineReader Engine 12 的新增功能

您可在此查看 ABBYY FineReader Engine 12 的新增功能列表。

第 7 版

安全修复

此版本的 FineReader Engine 修复了与项目依赖项相关的所有严重和高危安全问题

预定义配置文件

全新强大的配置文件，可从文档中提取尽可能多的有用数据：DataExtraction。

图像打开与预处理

自动图像预处理功能已得到改进。许多设置不再是必需的，部分设置已从 PrepareImageMode 移至 PagePreprocessingParams。详情请参阅 Version 12 Release 7 Changes。

为加快图像准备速度，在已知文档类型的情况下，可设置文档类型 (IPrepareImageMode::DocumentType) ，从而无需运行文档分类器。
新增输入格式：HEIF、SVG、WebP。
新增适用于包含多方向文本片段的工程图纸的文档类型 (DocumentTypeEnum::DT_TechnicalDrawing) 。

导出

现在可以将从文档中提取的数据导出为 JSON 格式 (JsonExportParams)。

OCR 和 ICR 改进

现在可在版面分析期间检测勾选标记 (IPageAnalysisParams::DetectCheckmarks)
新增了适用于复杂版面和表格文档的特殊分析模式 (IPageAnalysisParams::AnalysisMode)
新增设置，可将图章保存为图片 (IPageAnalysisParams::DetectStamps)
除手写印刷体外，现还支持识别手写体文本，适用于英语、西班牙语、法语、德语和日语 (IPageAnalysisParams::DetectHandwritten, TextTypeEnum::TT_Handwritten)
新增了一个类似概率值的属性，用于估算字符识别的准确率 (IPlainText::ErrorProbability, ICharParams::ErrorProbability)

Windows 代码示例

新增适用于 .NET Core 的 HelloBCR 示例
新增适用于 .NET Core 的 DataExtraction 示例

版本 5

新增和改进的语言识别

孟加拉语识别
Windows 中的 Arabic_Amount 特殊语言识别

请参阅ABBYY FineReader Engine 中的预定义语言列表。

OCR 和 ICR 改进

现在可借助附加参数执行名片合成 (IFRPage::SynthesizeBusinessCardEx、ISynthesisParamsForPage::BusinessCardSynthesisParams)
现在可以使用新的 Accurate 识别模式 (IRecognizerParams::Mode)
新增了一个属性，可检查是否存在除邮政条码之外的条码 (IBarcodeParams::EnableBarcodesCheck)
现在可以使用常量 BT_AutodetectWithoutPostal 检测条码类型 (不包括邮政条码) (BarcodeTypeEnum)
ABBYY FineReader Engine 现在可识别日本邮政客户代码 (BarcodeTypeEnum、Barcode Types)

图像打开与预处理

现在可以加载由早期受支持版本的 ABBYY FineReader Engine 保存的文档 (IFRDocument::ConvertFromOldVersion)
可以获取文档中数字签名的存在信息 (IFRDocument::SourceHasDigitalSignature、IFRPage::SourceHasDigitalSignature)
现在可以检查文本层的可靠性 (IFRDocument::CheckTextLayer)
改进了处理数字原生 PDF 文件的默认模式 (SourceContentReuseModeEnum::CRM_Auto)
现在可以修改输出 PDF 文件的外观 (ITextLayerInjectionParams::AllowChangePDFAView)
现在可以检测并打开 PDF Portfolio 类型的文件 (IEngine::IsPdfPortfolio、IEngine::IsPdfPortfolioFromStream、IFRDocument::AddImageFileFromAttachment)

导出

导出至 ALTO 现已支持 ALTO 4.0、4.1、4.2 版本 (AltoVersionEnum)
新增将字体嵌入输出 PDF 文件的模式 (FontEmbeddingModeEnum)
新增用于将用户自定义图片添加至输出 PDF 的接口 (IPDFPictures、IPDFPicture)
Linux 和 macOS 现已支持将文档导出为 XLS 和 XPS 格式 (XLExportParams、XPSExportParams)

代码示例

新增适用于 .NET Core 的 Hello 示例

其他改进

您可以获取为文档对象分配的内存大小信息 (IFRDocument::AllocatedSize)
Linux 和 Windows 中新增了释放在线许可证的选项 (IEngine::ReleaseOnlineLicense、许可证管理器实用程序中的“Release Online Licenses…”)
适用于 Windows 的 ABBYY FineReader Engine 安装程序现在使用 Windows Installer XML Toolset (WiX)
Windows 中新增了 LICENSEDATADIR 选项，用于更改存储辅助信息的文件夹 (以自动模式安装 ABBYY FineReader Engine Library)
ABBYY FineReader Engine 12 现在可在 Windows 的 Azure Services 中运行
您现在可以获取按已处理页面数量计算的许可证限额续期日期 (ILicense::VolumeRefreshingDate)
新增了一个小节，说明如何在 Linux 中以非 root 用户身份运行许可服务 (安装许可服务)

版本 4

特殊功能

文档比较 API：

您可以比较两个文档或两个页面 (IComparator::CompareDocuments，IComparator::ComparePages)
文档比较 API 的方法可帮助检测文本中的更改 (IChange::GetAsTextChange) 并将比较结果导出为 XML 或 DOCX 格式 (IComparisonResult::Export)
您可以将使用 ABBYY ScanDifFinder SDK 的代码升级到在 Windows 中由 ABBYY FineReader Engine 实现的文档比较 API (从 ScanDifFinder SDK 迁移到文档比较 API 的指南)

OCR 和 ICR 改进

新增支持以下邮政条码：KIX、Royal Mail 4-State、Australian Post 4-State (BarcodeTypeEnum、条码类型)

图像打开与预处理

文档版面可以保存到流中，也可以从流中读取 (ILayout::SaveToStream、IEngine::CreateLayoutFromStream) ，或保存为字节数组 (ILayout::SaveToArray)

导出

导出为 PDF 支持设置页面方向 (IPDFExportFeatures::PageOrientation)
导出为 RTF 支持调整页边距 (IRTFExportParams::PageMargins) ，并在内容无法容纳于页面时增大页面尺寸 (IRTFExportParams::IncreasePaperSizeToFitContent)
导出为 XLSX 支持在输出文档中嵌入图像 (IXLExportParams::WritePictures, IXLExportParams::PictureExportParams)

代码示例

新增文档比较 Windows 演示工具和文档比较示例。这些示例演示了如何将文档或页面与另一个比较。
更新了适用于 Linux 和 Windows 的 CommandLineInterface 示例。
新增适用于 macOS 的 CommandLineInterface 示例。此示例提供了 ABBYY FineReader Engine 的命令行界面
新增适用于 macOS 的 SAFEARRAY_Hello 示例。此示例演示了使用 SAFEARRAY 类型进行文档处理

其他优化

Linux 和 Windows

在线许可证会限制单个工作站可用的 CPU 核心数量。
在线许可证现在要求在安装了许可服务的计算机上使用 GoDaddy Trusted Root Certification Authority。
Linux 的静默安装参数列表已更新。

版本 3

这是 ABBYY FineReader Engine 的 Windows 和 Linux 版本发布说明。此版本的所有功能均已包含在 macOS 版本的版本 4 中。

特殊功能

MRZ 提取：

现在可以从文档图像中提取 MRZ (IFRPage::ExtractMrz)
从 MRZ 提取的数据包含字段和行 (MrzField、MrzData、MrzLine) ，涵盖文档及其持有人的相关信息，可导出为 XML 文件或 JSON 文件

新增及改进的语言识别

格鲁吉亚语识别
数学公式语言识别

请参阅 ABBYY FineReader Engine 中的预定义语言列表。

图像打开和预处理

现在，您可以使用与在 Linux 和 Windows 中打开图像相同的方法来打开数字原生文档；这些数字文档将被转换，其内容将被加载 (OfficeConversionSettings, OfficeConverters)
您可以在图像预处理过程中设置二值化阈值 (IPrepareImageMode::BinarizationThreshold)
在 Linux 和 Windows 中，可以在输入图像转换之前设置在内存中处理文档页面的模式 (IBatchProcessor::PageFlushingPolicy)

导出

现在可以查看和更改创建日期和修改日期。您还可以设置将日期写入输出文档的模式 (DocumentContentInfo::CreationDate, DocumentContentInfo::ModificationDate, DocumentContentInfoWritingParams::WriteCreationDate, DocumentContentInfoWritingParams::WriteModificationDate) 。只有格式正确的日期才能写入文档。如果导出过程中发生错误，请以正确格式指定日期，或更改其写入模式，然后重新调用导出方法 (在 PDF/XPS 导出过程中处理错误)
输出文档中的原始时间格式 (TimeZoneTypeEnum)

代码示例

新增适用于 Linux 和 Windows 的 MRZExtraction 示例。该示例演示如何从机器可读区 (MRZ) 中提取数据
新增 Windows 代码示例，演示如何实现计时器，以便在方法调用耗时过长时中止处理
新增适用于 Linux 的 ICR 示例，展示如何识别文档图像中的手写印刷体文字

其他改进

现在可以按其位置对数据块进行排序 (ILayout::SortedBlocks)
最终用户许可协议文件现在可在 ABBYY FineReader Engine 分发工具包中获得

Linux 和 Windows

ABBYY FineReader Engine for Linux 现已支持 Amazon Linux AMI
Online License 无需任何特定设置，但如果你想将该许可证与代理服务器配合使用，你必须配置其 parameters
Online License 现已支持有限连接数，连接数量可在许可证自主运行时间结束后进行更改
ABBYY FineReader Engine 12 现在可以在 Docker container 内运行
系统要求中列出了受支持的 Java Development Kit
ABBYY FineReader Engine 的版本号现在可在模块加载之前获取。你可以在 ABBYY FineReader Engine 分发工具包所含的 JAR 文件名称中找到该版本号

版本 2

特殊功能

改进的 Classification API：

更新后的分类技术支持基于图像特征、已识别文本的特征，或图像和文本特征组合进行分类 (ClassifierTypeEnum)
现在可以对文档和页面进行分类 (IClassificationEngine::CreateObjectFromDocument, IClassificationEngine::CreateObjectFromPage)
新的分类模型可以使用 k 折交叉验证技术进行训练 (ValidationParams)，并提供有关模型性能的详细信息 (ValidationResult)

新增和改进的语言识别

缅甸语识别
改进的日语 (现代) 语言，用于更好地识别可能包含一些拉丁或希腊字母的日语文本。现在可用于名片识别
更新后的波斯语 OCR

参见 ABBYY FineReader Engine 中的预定义语言列表。

OCR 和 ICR 改进

现可获取所有字符识别变体的坐标 (ISynthesisParamsForPage::SaveCharacterCoordinatesForAllVariants)

图像打开与预处理

现在可在预处理过程中将图像自动裁剪至文档边缘 (IPagePreprocessingParams::CropImage)
可应用降噪滤镜以提升识别质量 (IImageDocument::ApplySigmaFilter)
可在图像中查找用作定位锚点的黑色方块 (IImageDocument::FindBlackSquares)

导出

支持导出 PDF 2.0 版本 is supported for export
文本层注入支持 supports tagged PDF 文件，并在 Windows 中支持符合 PDF/A 标准
Windows 中的 PDF 导出除支持 RC4 外，还支持 AES-256 加密，以及符合 PDF/A-2b 和 PDF/A-3b 标准 (IPDFExportParams::PDFAComplianceMode)
Linux 中的 PDF 导出除支持 RC4 和 AES-128 外，还支持 AES-256 加密 (IPDFEncryptionInfo::EncryptionAlgorithm) ，以及符合 PDF/A-2b 和 PDF/A-3b 标准 (IPDFExportParams::PDFAComplianceMode)
全面支持符合 ZUGFeRD 标准的 PDF：将 IPDFExportFeatures::EnableZugferdCompliance 设置为 TRUE 后导出的文档现可通过官方 ZUGFeRD 验证器
导出到 Excel 时支持从右到左的工作表方向 (IXLExportParams::CreateRtlSheets)
导出到 ALTO 现已支持 ALTO 3.1 版本 (IAltoExportParams::AltoVersion)
RTF 导出允许通过禁用分隔线过滤，在输出中保留更多分隔线 (IRTFExportParams::FilterSeparators)
更好地支持 DOCX 点状分隔线
支持 HTML 5.0 (HTMLFormatModeEnum 中的 HFM_Format50 常量)
支持符合 PDF/UA 标准的文档 (IPDFExportFeatures::EnablePDFUACompliance)
导出到 TXT 的高级版面仿真模式 (ITextExportParams::LayoutRetentionMode)

扫描 API (Windows)

现在可以自动确定纸张大小和扫描颜色模式 (ScanPaperSizeEnum::SPS_Auto、ScanColorModeEnum::SCM_Auto)
如果扫描仪支持这些功能，则在扫描过程中可以自动跳过空白页面并校正图像歪斜 (IScanSourceSettings::DiscardBlankPages、IScanSourceSettings::CorrectSkew)

代码示例

新增代码示例，演示对任意类型文档进行 Classification (Windows) 和 Classification (Linux 和 macOS) 分类
更新了适用于 Java 的 Windows EnginesPool 示例
新增适用于 C++ 和 Java i. 的 Linux 代码示例 Hello (Outproc) 和 Multithreading。这些示例演示了在单独进程中将引擎作为进程外服务器加载时的图像处理
新增 Linux 示例 SAFEARRAY_Hello。该示例演示了使用 SAFEARRAY 类型进行文档处理

Linux 和 Windows 的其他改进

在 Windows 中，在多线程 Java 应用程序中使用 FineReader Engine 变得更加简便 (Java 封装器中新增了 EnginesPool 实现)
统一了包括在线许可证在内的所有许可证类型的引擎加载流程，因此在不同许可证类型之间切换时，无需重写代码。参见 InitializeEngine 和 IEngineLoader::InitializeEngine (Windows)
现在可以在 Linux 上使用 C++ 开发多线程应用程序

请访问我们的网站 www.abbyy.com，获取有关 ABBYY FineReader Engine 和其他 ABBYY 产品的最新信息。

另请参阅

ABBYY FineReader Engine 12 和 11 的兼容性

概述

导出格式

向后兼容性问题

​第 7 版

​安全修复

​预定义配置文件

​图像打开与预处理

​导出

​OCR 和 ICR 改进

​Windows 代码示例

​版本 5

​新增和改进的语言识别

​OCR 和 ICR 改进

​图像打开与预处理

​导出

​代码示例

​其他改进

​版本 4

​特殊功能

​OCR 和 ICR 改进

​图像打开与预处理

​导出

​代码示例

​其他优化

​Linux 和 Windows

​版本 3

​特殊功能

​新增及改进的语言识别

​图像打开和预处理

​导出

​代码示例

​其他改进

​Linux 和 Windows

​版本 2

​特殊功能

​新增和改进的语言识别

​OCR 和 ICR 改进

​图像打开与预处理

​导出

​扫描 API (Windows)

​代码示例

​Linux 和 Windows 的其他改进

​另请参阅

第 7 版

安全修复

预定义配置文件

图像打开与预处理

导出

OCR 和 ICR 改进

Windows 代码示例

版本 5

新增和改进的语言识别

OCR 和 ICR 改进

图像打开与预处理

导出

代码示例

其他改进

版本 4

特殊功能

OCR 和 ICR 改进

图像打开与预处理

导出

代码示例

其他优化

Linux 和 Windows

版本 3

特殊功能

新增及改进的语言识别

图像打开和预处理

导出

代码示例

其他改进

Linux 和 Windows

版本 2

特殊功能

新增和改进的语言识别

OCR 和 ICR 改进

图像打开与预处理

导出

扫描 API (Windows)

代码示例

Linux 和 Windows 的其他改进

另请参阅