跳转到主要内容
此场景用于从文档中提取所有可能的数据,并以结构化方式存储。 结果是一个表示文档结构的 JSON 文件。它会存储文档中的所有对象:印刷文本和手写文本、表格、条形码、复选标记以及图像,并包含它们的位置和属性。此格式非常适合用于后续处理、将数据存储到数据库中,或与其他应用程序集成。 在此场景中,文档会经过以下几个处理步骤:
  1. 对扫描图像或照片进行预处理
通过扫描仪或数码相机获取的图像,在进行光学识别之前可能需要做一些调整。例如,带有噪点的图像或文本行发生变形的图像,需要先进行一定的校正,才能成功完成光学识别。
  1. 以结构化方式提取文档中的所有数据
在版面分析过程中,系统会检测图像中的各种对象,并将其归入相应类型的块中。随后,系统会根据各类块的最佳设置对其进行识别。在合成过程中,文档的逻辑结构会以一致的方式还原。即使对于复杂版面,文本顺序也会尽量保持接近人类的阅读方式。这可确保对同一文档重新识别时,得到的文本顺序保持一致。
  1. 导出为结构化格式
识别后的文档将保存为 JSON 或 XML。

场景实现

本主题中提供的代码示例仅适用于 Windows。
下面将详细介绍使用 ABBYY FineReader Engine 12 从文档中提取数据的推荐方法。该方法采用了最适合此用途的处理设置。
要开始使用 ABBYY FineReader Engine,您需要创建 Engine 对象。Engine 对象是 ABBYY FineReader Engine 对象层次结构中的顶层对象,提供各种全局设置、部分处理方法以及用于创建其他对象的方法。要创建 Engine 对象,可以使用 InitializeEngine 函数。另请参阅加载 Engine 对象的其他方式 (Win) 。

C#

public class EngineLoader : IDisposable
{
    public EngineLoader()
    {
        // 使用 FREngine.dll 的完整路径、您的 Customer Project ID,
        // 以及(如适用)Online License 令牌文件的路径和 Online License 密码来初始化这些变量
        string enginePath = "";
        string customerProjectId = "";
        string licensePath = "";
        string licensePassword = "";
        // 加载 FREngine.dll 库
        dllHandle = LoadLibraryEx(enginePath, IntPtr.Zero, LOAD_WITH_ALTERED_SEARCH_PATH);
           
        try
        {
            if (dllHandle == IntPtr.Zero)
            {
                throw new Exception("无法加载 " + enginePath);
            }
            IntPtr initializeEnginePtr = GetProcAddress(dllHandle, "InitializeEngine");
            if (initializeEnginePtr == IntPtr.Zero)
            {
                throw new Exception("找不到 InitializeEngine 函数");
            }
            IntPtr deinitializeEnginePtr = GetProcAddress(dllHandle, "DeinitializeEngine");
            if (deinitializeEnginePtr == IntPtr.Zero)
            {
                throw new Exception("找不到 DeinitializeEngine 函数");
            }
            IntPtr dllCanUnloadNowPtr = GetProcAddress(dllHandle, "DllCanUnloadNow");
            if (dllCanUnloadNowPtr == IntPtr.Zero)
            {
                throw new Exception("找不到 DllCanUnloadNow 函数");
            }
            // 将指针转换为委托
            initializeEngine = (InitializeEngine)Marshal.GetDelegateForFunctionPointer(
                initializeEnginePtr, typeof(InitializeEngine));
            deinitializeEngine = (DeinitializeEngine)Marshal.GetDelegateForFunctionPointer(
                deinitializeEnginePtr, typeof(DeinitializeEngine));
            dllCanUnloadNow = (DllCanUnloadNow)Marshal.GetDelegateForFunctionPointer(
                dllCanUnloadNowPtr, typeof(DllCanUnloadNow));
            // 调用 InitializeEngine 函数
            // 传入 Online License 文件的路径和 Online License 密码
            int hresult = initializeEngine(customerProjectId, licensePath, licensePassword, 
                "", "", false, ref engine);
            Marshal.ThrowExceptionForHR(hresult);
        }
        catch (Exception)
        {
            // 释放 FREngine.dll 库
            engine = null;
            // 在调用 FreeLibrary 之前释放所有对象
            GC.Collect();
            GC.WaitForPendingFinalizers();
            GC.Collect();
            FreeLibrary(dllHandle);
            dllHandle = IntPtr.Zero;
            initializeEngine = null;
            deinitializeEngine = null;
            dllCanUnloadNow = null;
            throw;
        }
    }
    // Kernel32.dll 函数
    [DllImport("kernel32.dll")]
    private static extern IntPtr LoadLibraryEx(string dllToLoad, IntPtr reserved, uint flags);
    private const uint LOAD_WITH_ALTERED_SEARCH_PATH = 0x00000008;
    [DllImport("kernel32.dll")]
    private static extern IntPtr GetProcAddress(IntPtr hModule, string procedureName);
    [DllImport("kernel32.dll")]
    private static extern bool FreeLibrary(IntPtr hModule);
    // FREngine.dll 函数
    [UnmanagedFunctionPointer(CallingConvention.StdCall, CharSet = CharSet.Unicode)]
    private delegate int InitializeEngine(string customerProjectId, string licensePath, 
        string licensePassword, string tempFolder, string dataFolder, bool isSharedCPUCoresMode, 
        ref FREngine.IEngine engine);
    [UnmanagedFunctionPointer(CallingConvention.StdCall)]
    private delegate int DeinitializeEngine();
    [UnmanagedFunctionPointer(CallingConvention.StdCall)]
    private delegate int DllCanUnloadNow();
    // 私有变量
    private FREngine.IEngine engine = null;
    // FREngine.dll 的句柄
    private IntPtr dllHandle = IntPtr.Zero;
    private InitializeEngine initializeEngine = null;
    private DeinitializeEngine deinitializeEngine = null;
    private DllCanUnloadNow dllCanUnloadNow = null;
}

C++ (COM)

// 使用 FREngine.dll 的路径、您的 FineReader Engine Customer Project ID,
// 以及(如适用)Online License 令牌路径和 Online License 密码初始化以下变量
wchar_t* FreDllPath;
wchar_t* CustomerProjectId;
wchar_t* LicensePath;  // 如果不使用 Online License,请将这些变量赋值为空字符串
wchar_t* LicensePassword;
// FREngine.dll 的 HANDLE
static HMODULE libraryHandle = 0;
// 全局 FineReader Engine 对象
FREngine::IEnginePtr Engine;
void LoadFREngine()
{
    if( Engine != 0 ) {
    // 已加载
    return;
    }
    // 第一步:加载 FREngine.dll
    if( libraryHandle == 0 ) {
        libraryHandle = LoadLibraryEx( FreDllPath, 0, LOAD_WITH_ALTERED_SEARCH_PATH );
        if( libraryHandle == 0 ) {
            throw L"加载 ABBYY FineReader Engine 时出错";
        }
    }
    // 第二步:获取 Engine 对象
    typedef HRESULT ( STDAPICALLTYPE* InitializeEngineFunc )( BSTR, BSTR, BSTR, BSTR, 
        BSTR, VARIANT_BOOL, FREngine::IEngine** );
    InitializeEngineFunc pInitializeEngine =
    ( InitializeEngineFunc )GetProcAddress( libraryHandle, "InitializeEngine" );
    if( pInitializeEngine == 0 || pInitializeEngine( CustomerProjectId, LicensePath, 
        LicensePassword, L"", L"", VARIANT_FALSE, &Engine ) != S_OK ) {
    UnloadFREngine();
    throw L"加载 ABBYY FineReader Engine 时出错";
    }
}
ABBYY FineReader Engine 支持使用 Engine 对象的 LoadPredefinedProfile 方法,加载最适合此场景的全部处理设置。此方法接收配置文件名称作为输入参数。更多信息,请参见使用配置文件此场景的设置可通过预定义配置文件 DataExtraction 获取:
  • 版面分析和识别优先保证准确率而非速度。
  • 检测图像中的所有文本,包括手写文本和质量较低的小文本区域。
  • 检测表格、复选标记和条形码。
  • 对文档的逻辑结构进行完整重建。

C#

// 加载预定义配置文件
engine.LoadPredefinedProfile("DataExtraction");

C++ (COM)

// 加载预定义配置文件
Engine->LoadPredefinedProfile( L"DataExtraction" );
如果您希望更改处理设置,请使用相应的参数对象。更多信息,请参见下方的其他优化部分。
ABBYY FineReader Engine 提供了 FRDocument 对象,可用于处理多页文档。使用此对象可以保留文档的逻辑组织结构,包括原始文本、分栏、字体、样式等。要加载单个文档的图像并进行预处理,您应创建 FRDocument 对象并向其中添加图像。您可以采用以下任一方式:

C#

// 从图像文件创建 FRDocument 对象
FREngine.IFRDocument frDocument = engine.CreateFRDocumentFromImage( "C:\\MyImage.tif", null );

C++ (COM)

// 从图像文件创建 FRDocument 对象
FREngine::IFRDocumentPtr frDocument = Engine->CreateFRDocumentFromImage( L"C:\\MyImage.tif", 0 );
要识别文档,我们建议使用 FRDocument 对象的分析和识别方法。此对象提供了一整套用于文档分析、识别和合成的方法。最便捷的方法是 Process 方法,它将文档分析、识别和合成集于一体。它还能以最高效的方式利用多处理器和多核系统的并行处理能力。不过,您也可以使用 PreprocessAnalyzeRecognizeSynthesize 方法,依次执行预处理、分析、识别和合成。

C#

// 分析、识别并合成文档
// 不需要额外参数,因为这些参数已在处理配置文件中设置
frDocument.Process( null );

C++ (COM)

// 分析、识别并合成文档
// 不需要额外参数,因为这些参数已在处理配置文件中设置
frDocument->Process( 0 );
要保存已识别的文档,您可以使用 FRDocument 对象的 Export 方法,并将 FileExportFormatEnum 常量作为其中一个参数传入。您可以使用相应的导出对象更改默认导出参数。更多信息,请参见下文的针对特定任务的附加优化完成对 FRDocument 对象的操作后,请释放该对象使用的所有资源。请使用 IFRDocument::Close 方法。

C#

// 将识别后的文档保存为结构化格式
frDocument.Export( "C:\\Data.json", FREngine.FileExportFormatEnum.FEF_JSON, null );
// 释放 FRDocument 对象
frDocument.Close();

C++ (COM)

// 将识别后的文档保存为结构化格式
frDocument->Export( L"C:\\Data.json", FREngine::FEF_JSON, 0 );
// 释放 FRDocument 对象
frDocument->Close();
完成 ABBYY FineReader Engine 的使用后,您需要卸载 Engine 对象。为此,请使用导出的 DeinitializeEngine 函数。

C#

public class EngineLoader : IDisposable
{
    // 卸载 FineReader Engine
    public void Dispose()
    {
        if (engine == null)
        {
            // Engine 尚未加载
            return;
        }
        engine = null;
        // 在调用 FreeLibrary 之前释放所有对象
        GC.Collect();
        GC.WaitForPendingFinalizers();
        GC.Collect();
        int hresult = deinitializeEngine();
 
        hresult = dllCanUnloadNow();
        if (hresult == 0)
        {
            FreeLibrary(dllHandle);
        }
        dllHandle = IntPtr.Zero;
        initializeEngine = null;
        deinitializeEngine = null;
        dllCanUnloadNow = null;
        // 清理完成后抛出异常
        Marshal.ThrowExceptionForHR(hresult);
    }
    // Kernel32.dll 函数
    [DllImport("kernel32.dll")]
    private static extern IntPtr LoadLibraryEx(string dllToLoad, IntPtr reserved, uint flags);
    private const uint LOAD_WITH_ALTERED_SEARCH_PATH = 0x00000008;
    [DllImport("kernel32.dll")]
    private static extern IntPtr GetProcAddress(IntPtr hModule, string procedureName);
    [DllImport("kernel32.dll")]
    private static extern bool FreeLibrary(IntPtr hModule);
    // FREngine.dll 函数
    [UnmanagedFunctionPointer(CallingConvention.StdCall, CharSet = CharSet.Unicode)]
    private delegate int InitializeEngine( string customerProjectId, string LicensePath, string LicensePassword, , , , ref FREngine.IEngine engine);
    [UnmanagedFunctionPointer(CallingConvention.StdCall)]
    private delegate int DeinitializeEngine();
    [UnmanagedFunctionPointer(CallingConvention.StdCall)]
    private delegate int DllCanUnloadNow();
    // 私有变量
    private FREngine.IEngine engine = null;
    // FREngine.dll 的句柄
    private IntPtr dllHandle = IntPtr.Zero;
    private InitializeEngine initializeEngine = null;
    private DeinitializeEngine deinitializeEngine = null;
    private DllCanUnloadNow dllCanUnloadNow = null;
}

C++ (COM)

void UnloadFREngine()
{
 if( libraryHandle == 0 ) {
  return;
 }
 // 释放 Engine 对象
 Engine = 0;
 // 取消初始化 FineReader Engine
 typedef HRESULT ( STDAPICALLTYPE* DeinitializeEngineFunc )();
 DeinitializeEngineFunc pDeinitializeEngine =
  ( DeinitializeEngineFunc )GetProcAddress( libraryHandle, "DeinitializeEngine" );
 if( pDeinitializeEngine == 0 || pDeinitializeEngine() != S_OK ) {
  throw L"卸载 ABBYY FineReader Engine 时出错";
 }
 // 现在可以安全地释放 FREngine.dll 库
 FreeLibrary( libraryHandle );
 libraryHandle = 0;
}

所需资源

您可以使用 FREngineDistribution.csv 文件,自动生成应用程序运行所需文件的列表。对于此场景的处理,请在第 5 列 (RequiredByModule) 中选择以下值: Core Core.Resources Opening Opening, Processing Processing Processing.OCR Processing.OCR, Processing.ICR Processing.OCR.NaturalLanguages Processing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguages Export Export, Processing 如果您修改了标准场景,请相应调整所需模块。您还需要指定应用程序使用的界面语言、识别语言以及其他附加功能 (例如,如果需要打开 PDF 文件,则指定 Opening.PDF;如果需要识别 CJK languages 中的文本,则指定 Processing.OCR.CJK) 。更多详细信息,请参阅 Working with the FREngineDistribution.csv File

特定任务的附加优化

以下概述了帮助主题,其中包含有关在将文档转换为可编辑格式的不同阶段自定义设置的更多信息:
  • 扫描 - 仅限 Windows
    • 扫描
      介绍 ABBYY FineReader Engine 的文档扫描场景。
  • 识别
    • 调整预处理、分析、识别和合成参数
      使用分析、识别和合成参数对象自定义文档处理。
    • PageProcessingParams Object
      此对象可用于自定义分析和识别参数。使用此对象,您可以指定需要检测的图像和文本特征 (反相图像、方向、条形码、识别语言、识别误差范围) 。
    • SynthesisParamsForPage Object
      此对象包含在合成期间负责还原页面格式的参数。
    • SynthesisParamsForDocument Object
      此对象可用于自定义文档合成,即还原文档的结构和格式。
    • MultiProcessingParams Object - 已针对 Linux 和 Windows 实现
      在处理大量图像时,同时处理会很有帮助。在这种情况下,处理负载会在图像打开和预处理、版面分析、识别和导出期间分配到各个处理器核心上,从而加快处理速度。
      读取模式 (同时或连续) 通过 MultiProcessingMode 属性设置。RecognitionProcessesCount 属性控制可启动的进程数。
  • 导出

另请参见

基本使用场景的实现