跳转到主要内容
ABBYY FineReader Engine 支持大量参数,可用于对 Engine 进行精细调整。大多数情况下,您不需要手动设置所有值:新对象在创建时,其属性会被赋予合理的默认值;而对于主要使用场景,我们还提供了经过充分测试的预定义配置文件 如果您的场景更为具体,并且已经确定了兼顾最佳处理速度和质量的最优设置,则可以创建自定义配置文件。图像预处理、分析、识别、合成和导出的所有参数都可以通过配置文件进行更改。例如,如果您的应用程序将识别结果导出为 TXT (不含格式的纯文本) ,那么许多与布局相关的属性就没有意义,可以将其关闭。 使用 Engine 对象的 LoadPredefinedProfile/LoadProfile 方法加载配置文件后,新创建对象的属性将被设置为该配置文件中指定的默认值。

预定义配置文件

ABBYY FineReader Engine 提供了一组面向主要使用场景的预定义配置文件。大多数配置文件都有两个版本:一种针对生成文档的最佳质量进行了优化,另一种针对最高处理速度进行了优化。有关所有预定义配置文件的完整说明,请参见预定义配置文件规范

适用于从文档中提取数据并以结构化格式呈现。所有对象 (包括表格、图片、复选标记和手写内容) 均连同其位置和属性一并保存。此配置文件最适合对提取的数据进行后续处理或与其他应用程序集成。

适用于将文档转换为可编辑格式 (例如 RTF、DOCX) 。相关设置已针对准确性进行优化:

  • 最佳质量。启用字体样式检测,并对文档逻辑结构进行完整合成。

适用于将文档转换为可编辑格式 (例如 RTF、DOCX) 。相关设置已针对处理速度进行优化:

  • 最佳质量。启用字体样式检测,并对文档逻辑结构进行完整合成。
  • 不校正图像方向。
  • 文档分析速度已加快。

适用于创建电子档案(转换为 PDF、PDF/A,以及使用 MRC 的 PDF 和 PDF/A) 。相关设置已针对准确性进行优化:

  • 启用对图像中最大文本量的检测,包括嵌入图像中的文本。
  • 不对文档逻辑结构进行完整合成。
此配置文件不适用于将文档转换为 RTF、DOCX 或纯文本 PDF。如需此类用途,请使用文档转换配置文件。

适用于创建电子档案(转换为 PDF、PDF/A,以及使用 MRC 的 PDF 和 PDF/A) 。相关设置已针对处理速度进行优化:

  • 启用对图像中最大文本量的检测,包括嵌入图像中的文本。
  • 不执行倾斜校正。
  • 不对文档逻辑结构进行完整合成。
  • 文档分析和识别速度已加快。
此配置文件不适用于将文档转换为 RTF、DOCX 或纯文本 PDF。如需此类用途,请使用文档转换配置文件。

适用于从文档中提取文本。相关设置已针对准确性进行优化:

  • 启用对图像中所有文本的检测,包括低质量的小文本区域 (不检测图片和表格) 。
  • 不对文档逻辑结构进行完整合成。

文本按照人类阅读的顺序提取,从而确保在使用自然语言处理 (NLP) 引擎进行训练和处理时数据的一致性。

此配置文件不适用于将文档转换为 RTF、DOCX 或纯文本 PDF。如需此类用途,请使用文档转换配置文件。

适用于从文档中提取文本。相关设置已针对处理速度进行优化:

  • 启用对图像中所有文本的检测,包括低质量的小文本区域 (不检测图片和表格) 。
  • 不对文档逻辑结构进行完整合成。
  • 文档分析和识别速度已加快。

文本按照人类阅读的顺序提取,从而确保在使用自然语言处理 (NLP) 引擎进行训练和处理时数据的一致性。

该配置文件不适用于将文档转换为 RTF、DOCX 或纯文本 PDF。如需此类用途,请使用文档转换配置文件。

适用于识别短文本片段。当前,该配置文件使用默认设置。

适用于条形码提取。仅提取条形码 (不检测文本、图片或表格) 。相关设置已针对准确性进行优化。

出于兼容性考虑,您也可以通过 BarcodeRecognition 名称访问此配置文件。

此配置文件需要许可证中包含Barcode Autolocation模块。

适用于条形码提取。仅提取条形码 (不检测文本、图片或表格) 。相关设置已针对处理速度进行优化。

此配置文件需要许可证中包含Barcode Autolocation模块。

适用于创建高压缩 PDF 文件,将整个文档以图片形式保存。使用以下设置:

  • 不执行文档识别和文档逻辑结构合成。
  • 不执行倾斜校正。
  • PDF 导出已针对最小化输出文件大小进行优化。
  • 整个文档保存为图片 (PEM_ImageOnlymode).

适用于识别名片。使用以下设置:

  • 仅检测名片。
  • 启用图像上所有文本的检测,包括低质量的小文本区域 (不检测图片和表格) 。
  • 执行分辨率校正。
  • 不执行文档逻辑结构的完整合成。

适用于从机器可读区域提取数据(MRZ)。使用以下设置:

  • 启用图像上所有文本的检测和提取 (不检测图片、矢量图形和表格) 。
  • 自动执行分辨率和几何校正。

适用于识别技术图纸。该配置文件充分考虑了工程图的大尺寸和复杂性,以及图像中可能存在多种文本方向的情况。该配置文件旨在将此类图像转换为可搜索的 PDF 格式。使用以下设置:

  • 启用图像上所有文本的检测,包括垂直方向的文本块。
  • 不执行文档逻辑结构的完整合成。
该配置文件不适用于将文档转换为 RTF、DOCX 或纯文本 PDF。如需此类用途,请使用文档转换配置文件。

将所有处理参数设置为默认值。

这些配置文件中提供的设置可通过 Engine 对象的 LoadPredefinedProfile 方法加载。加载配置文件后,新创建的对象将采用该配置文件中指定的默认值。
  • 使用 Linux 版 FRE 的用户可以在发行包的 Bin Libraries 文件夹中找到预定义配置文件。
  • 使用 macOS 版 FRE 的用户可以在发行包的 /PredefinedProfiles 文件夹中找到预定义配置文件。
  • 要借助 FREngineDistribution.csv 文件确定应用程序运行所需的资源文件集,请参阅与所选场景对应的页面。

用户配置文件

您还可以创建自定义用户配置文件。配置文件的语法与 *.ini 文件类似。以分号开头的行表示注释。 各个节以方括号中的对象名称标识,键则包含属性及其新值。名为 UserData 的特殊节可以包含任何用户定义的键。不同类型的属性值可按以下格式编写:
  • 布尔属性值用字符串表示:true 或 false。
  • 枚举属性值用常量名称表示。
  • string 属性值直接写出,不加引号。
例如:
[PrepareImageMode]
RasterizeFreeText = false
[PDFExportParams]
TextExportMode = PEM_ImageOnText
; 这是一条注释
[RecognizerParams]
TextLanguage = English,Russian
[TextExportParams]
TabSeparator = \t
Engine 对象的 LoadProfile 方法可让您加载用户配置文件。加载用户配置文件后,新创建对象的属性将采用配置文件中指定的值。从配置文件加载参数,类似于在程序代码中设置相应的属性,但这样可以简化应用程序逻辑。如果您调用 LoadProfile 并将空 string 作为输入,则将使用标准默认值。 创建相应对象时,会检查这些新的属性值是否正确,以及是否符合许可证要求。 配置文件可用于重新指定以下对象的所有属性: 1 请注意,RecognizerParams 对象的 UserPatternsFile 属性仅接受模式文件的完整路径,并使用相应的斜杠符号作为分隔符。路径值不应包含在引号中。例如,在 Windows 中:
[RecognizerParams]
UserPatternsFile = C:\folder\file.ptn
对于 Linux:/home/user/Documents/Patterns/;对于 macOS:/Users/user/Documents/
2 要设置 PictureExportParams 或 PaperSizeParams 对象的属性,请直接在导出参数对象对应的部分中指定参数 (而不是在 PictureExportParams 或 PaperSizeParams 部分中指定) 。这样,您就可以为不同的导出格式使用不同的设置。例如,要为 RTF 文件指定灰度图像格式:
[RTFExportParams]
GrayPictureFormats = GPF_Png
3 要设置 DocumentContentInfoWritingParams 对象的属性,请直接在其父对象的相应部分中指定这些参数。对于 PDF 格式,其父对象是 PDFExportFeatures 对象;对于其他格式,则是相应的导出参数对象。因此,您可以为不同的导出格式指定不同的内容信息设置。例如,如果您不想将文档作者信息写入输出的 PDF 文件,请在配置文件中插入以下几行:
[PDFExportFeatures]
WriteAuthor = false
4 要设置 PageMargins 对象的属性,请直接在其父对象对应的部分中指定这些参数。请注意,必须先指定设为 TRUE 的 UseCustomPageMargins 属性,然后再指定页边距的值:
[RTFExportParams]
UseCustomPageMargins = true
PageMargins.Left = 5000
PageMargins.Right = 5000
PageMargins.Top = 5000
PageMargins.Bottom = 5000

同时使用预定义配置文件和用户配置文件

可以同时加载一个预定义配置文件和一个用户配置文件。用户配置文件的优先级高于预定义配置文件,也就是说,如果用户配置文件设置了与预定义配置文件相同的参数,则以用户配置文件中的值为准。 如果再加载一个预定义配置文件,新的配置文件会替换之前的预定义配置文件。同样,新的用户配置文件会替换之前的用户配置文件。请注意,加载配置文件会清空当前识别会话 (等同于调用 IEngine::CleanRecognizerSession method) 。

另请参见

预处理、分析、识别和合成的参数调优 导出参数调优