- 扫描文件或图像的预处理
- 在完整还原文档结构和格式的情况下进行识别
- 文档或页面比较
- 导出为外部格式
场景实现
本主题中提供的代码示例仅适用于 Windows。
步骤 1. 加载 ABBYY FineReader Engine
步骤 1. 加载 ABBYY FineReader Engine
要开始使用 ABBYY FineReader Engine,您需要创建 Engine 对象。Engine 对象是 ABBYY FineReader Engine 对象层次结构中的顶层对象,提供各种全局设置、一些处理 method,以及用于创建其他对象的方法。要创建 Engine 对象,您可以使用 InitializeEngine 函数。另请参阅加载 Engine 对象的其他方法 (Win) 。
C#
步骤 2. 加载并预处理文件和图像
步骤 2. 加载并预处理文件和图像
ABBYY FineReader Engine 提供 FRDocument 对象,用于处理多页文档。使用此对象可以保留文档的逻辑结构,保留原始文本、分栏、字体、样式等。如果您想比较页面,请使用 FRPage 对象。要加载单个文档的图像并进行预处理,您应创建 FRDocument 对象并向其中添加图像。您可以采用以下任一方式:
- 使用 Engine 对象的 CreateFRDocumentFromImage 方法创建 FRDocument 对象。此方法会创建 FRDocument 对象,并从指定文件加载图像。
- 借助 Engine 对象的 CreateFRDocument 方法创建 FRDocument 对象,然后将文件中的图像添加到已创建的 FRDocument 对象中 (使用 FRDocument 对象的 AddImageFile、AddImageFileWithPassword 或 AddImageFileWithPasswordCallback 方法) 。
C#
步骤 3. 文档识别
步骤 3. 文档识别
要识别文档,建议您使用 FRDocument 对象的分析和识别方法。该对象提供了一整套用于文档分析、识别和合成的方法。最便捷的一体化方法是 Process 方法,它可同时完成文档分析、识别和合成。它还能以最高效的方式利用多处理器和多核系统的并行处理功能。不过,您也可以使用 Preprocess、Analyze、Recognize 和 Synthesize 方法,依次执行预处理、分析、识别和合成。
您可以通过加载合适的预定义配置文件,为文档设置识别参数 (更多信息请参见 Working with Profiles) 。
您可以通过加载合适的预定义配置文件,为文档设置识别参数 (更多信息请参见 Working with Profiles) 。
C#
步骤 4. 比较文档或页面
步骤 4. 比较文档或页面
要将文档或页面与其副本进行比较,请执行以下操作:
- 确保您的 ABBYY FineReader Engine 许可证支持 Compare Documents 模块。
- 使用 Engine 对象的 CreateComparator 方法创建一个 Comparator 对象。
- [可选] 使用 ComparisonParams 对象,将各属性设置为所需的值。
- 调用 Comparator 对象的 CompareDocuments 方法,将原始文档与副本进行比较。该方法将返回一个 ComparisonResult 对象,其中包含检测到的更改信息。
C#
步骤 5. 处理检测到的更改
步骤 5. 处理检测到的更改
ComparisonResult 对象包含完整的差异列表,并提供用于获取单个页面差异的方法。您可以使用 GetChangesForReferencePage 和 GetChangesForUserPage 方法,访问原始文档及其副本中的更改。使用 ChangeLocation 对象可获取更改位置信息,使用其 RegionForPage 属性可获取该更改在指定页面上的区域。
C#
步骤 6. 导出比较结果
步骤 6. 导出比较结果
步骤 7. 卸载 ABBYY FineReader Engine
步骤 7. 卸载 ABBYY FineReader Engine
所需资源
针对特定任务的进一步优化
- 扫描 - 仅限 Windows
- 扫描
介绍 ABBYY FineReader Engine 的文档扫描场景。
- 扫描
- 识别
- 预处理、分析、识别和合成的调优参数
使用分析、识别和合成参数对象自定义文档处理。 - PageProcessingParams 对象
此对象可用于自定义分析和识别参数。使用此对象,您可以指定必须检测哪些图像和文本特征 (反相图像、方向、条形码、识别语言、识别误差范围) 。 - SynthesisParamsForPage 对象
此对象包含在合成过程中负责恢复页面格式的参数。 - SynthesisParamsForDocument 对象
此对象可用于自定义文档合成,即恢复其结构和格式。 - MultiProcessingParams 对象 - 适用于 Linux 和 Windows
在处理大量图像时,并行处理会很有帮助。在这种情况下,图像打开和预处理、版面分析、识别以及导出期间的处理负载将分配到各个处理器核心上,从而加快处理速度。
读取模式 (并行或顺序) 通过 MultiProcessingMode 属性进行设置。RecognitionProcessesCount 属性用于控制可启动的进程数。
- 预处理、分析、识别和合成的调优参数
