このシナリオでは、文書の本文だけでなく、ロゴや印章、その他本文以外の要素に含まれるテキストも抽出できます。
テキストは、「人が読むときの順序」という自然な読み順のまま保持されます。その後、文書をお客様側の自然言語処理 (NLP) エンジンに渡し、たとえば迅速な要約、機密情報の検索、感情分析などに利用できます。
文書の主要なテキストを抽出するために、スキャンして取得した画像ファイルや電子形式で保存されたファイルは、通常、いくつかの処理段階を経ます。各段階にはそれぞれ固有の特性があります。
- スキャン画像または写真の前処理
スキャン画像は、認識前に前処理が必要になる場合があります。たとえば、スキャン文書に背景ノイズ、文字の傾き、色の反転、黒い余白、誤った向き、または解像度の問題がある場合です。
- 文書画像内のテキストをできるだけ多く認識
画像の認識は、文書画像内に存在する可能性のあるテキストをできるだけ漏れなく検出・抽出できるような設定で行われます。
このトピックで紹介するコードサンプルは Windows 専用です。
以下では、このシナリオで ABBYY FineReader Engine 12 を使用する推奨方法について詳しく説明します。この方法では、このシナリオに最も適した処理設定を使用します。
Step 1. ABBYY FineReader Engineの読み込み
ABBYY FineReader Engine を使用するには、まず Engine オブジェクトを作成する必要があります。Engine オブジェクトは ABBYY FineReader Engine のオブジェクト階層における最上位のオブジェクトであり、各種グローバル設定、一部の処理メソッド、およびその他のオブジェクトを作成するためのメソッドを提供します。Engineオブジェクトを作成するには、InitializeEngine関数を使用します。Engineオブジェクトを読み込むその他の方法 (Win) も参照してください。public class EngineLoader : IDisposable
{
public EngineLoader()
{
// FREngine.dll へのフルパス、Customer Project ID、
// および該当する場合はオンラインライセンストークンファイルへのパスとオンラインライセンスパスワードで各変数を初期化します
string enginePath = "";
string customerProjectId = "";
string licensePath = "";
string licensePassword = "";
// FREngine.dll ライブラリを読み込みます
dllHandle = LoadLibraryEx(enginePath, IntPtr.Zero, LOAD_WITH_ALTERED_SEARCH_PATH);
try
{
if (dllHandle == IntPtr.Zero)
{
throw new Exception("読み込めません: " + enginePath);
}
IntPtr initializeEnginePtr = GetProcAddress(dllHandle, "InitializeEngine");
if (initializeEnginePtr == IntPtr.Zero)
{
throw new Exception("InitializeEngine 関数が見つかりません");
}
IntPtr deinitializeEnginePtr = GetProcAddress(dllHandle, "DeinitializeEngine");
if (deinitializeEnginePtr == IntPtr.Zero)
{
throw new Exception("DeinitializeEngine 関数が見つかりません");
}
IntPtr dllCanUnloadNowPtr = GetProcAddress(dllHandle, "DllCanUnloadNow");
if (dllCanUnloadNowPtr == IntPtr.Zero)
{
throw new Exception("DllCanUnloadNow 関数が見つかりません");
}
// ポインターをデリゲートに変換します
initializeEngine = (InitializeEngine)Marshal.GetDelegateForFunctionPointer(
initializeEnginePtr, typeof(InitializeEngine));
deinitializeEngine = (DeinitializeEngine)Marshal.GetDelegateForFunctionPointer(
deinitializeEnginePtr, typeof(DeinitializeEngine));
dllCanUnloadNow = (DllCanUnloadNow)Marshal.GetDelegateForFunctionPointer(
dllCanUnloadNowPtr, typeof(DllCanUnloadNow));
// InitializeEngine 関数を呼び出します
// オンラインライセンスファイルへのパスとオンラインライセンスパスワードを渡します
int hresult = initializeEngine(customerProjectId, licensePath, licensePassword,
"", "", false, ref engine);
Marshal.ThrowExceptionForHR(hresult);
}
catch (Exception)
{
// FREngine.dll ライブラリを解放します
engine = null;
// FreeLibrary 呼び出し前にすべてのオブジェクトを削除します
GC.Collect();
GC.WaitForPendingFinalizers();
GC.Collect();
FreeLibrary(dllHandle);
dllHandle = IntPtr.Zero;
initializeEngine = null;
deinitializeEngine = null;
dllCanUnloadNow = null;
throw;
}
}
// Kernel32.dll 関数
[DllImport("kernel32.dll")]
private static extern IntPtr LoadLibraryEx(string dllToLoad, IntPtr reserved, uint flags);
private const uint LOAD_WITH_ALTERED_SEARCH_PATH = 0x00000008;
[DllImport("kernel32.dll")]
private static extern IntPtr GetProcAddress(IntPtr hModule, string procedureName);
[DllImport("kernel32.dll")]
private static extern bool FreeLibrary(IntPtr hModule);
// FREngine.dll 関数
[UnmanagedFunctionPointer(CallingConvention.StdCall, CharSet = CharSet.Unicode)]
private delegate int InitializeEngine(string customerProjectId, string licensePath,
string licensePassword, string tempFolder, string dataFolder, bool isSharedCPUCoresMode,
ref FREngine.IEngine engine);
[UnmanagedFunctionPointer(CallingConvention.StdCall)]
private delegate int DeinitializeEngine();
[UnmanagedFunctionPointer(CallingConvention.StdCall)]
private delegate int DllCanUnloadNow();
// プライベート変数
private FREngine.IEngine engine = null;
// FREngine.dll へのハンドル
private IntPtr dllHandle = IntPtr.Zero;
private InitializeEngine initializeEngine = null;
private DeinitializeEngine deinitializeEngine = null;
private DllCanUnloadNow dllCanUnloadNow = null;
}
C++ (COM)
// これらの変数に、FREngine.dll へのパス、FineReader Engine の Customer Project ID、
// および該当する場合はオンラインライセンストークンとオンラインライセンスパスワードへのパスを設定してください
wchar_t* FreDllPath;
wchar_t* CustomerProjectId;
wchar_t* LicensePath; // オンラインライセンスを使用しない場合は、これらの変数に空文字列を設定してください
wchar_t* LicensePassword;
// FREngine.dll のハンドル
static HMODULE libraryHandle = 0;
// グローバル FineReader Engine オブジェクト
FREngine::IEnginePtr Engine;
void LoadFREngine()
{
if( Engine != 0 ) {
// 読み込み済み
return;
}
// ステップ 1: FREngine.dll を読み込む
if( libraryHandle == 0 ) {
libraryHandle = LoadLibraryEx( FreDllPath, 0, LOAD_WITH_ALTERED_SEARCH_PATH );
if( libraryHandle == 0 ) {
throw L"ABBYY FineReader Engine の読み込み中にエラーが発生しました";
}
}
// ステップ 2: Engine オブジェクトを取得する
typedef HRESULT ( STDAPICALLTYPE* InitializeEngineFunc )( BSTR, BSTR, BSTR, BSTR,
BSTR, VARIANT_BOOL, FREngine::IEngine** );
InitializeEngineFunc pInitializeEngine =
( InitializeEngineFunc )GetProcAddress( libraryHandle, "InitializeEngine" );
if( pInitializeEngine == 0 || pInitializeEngine( CustomerProjectId, LicensePath,
LicensePassword, L"", L"", VARIANT_FALSE, &Engine ) != S_OK ) {
UnloadFREngine();
throw L"ABBYY FineReader Engine の読み込み中にエラーが発生しました";
}
}
このシナリオに最適な設定は、ABBYY FineReader Engine の Engine オブジェクトの LoadPredefinedProfile メソッドを使用して選択できます。このメソッドは、入力パラメーターとしてプロファイル名を受け取ります。詳しくは、Working with Profiles を参照してください。ABBYY FineReader Engine は、このシナリオ向けに 2 種類の設定をサポートしています。プロファイル名 | 説明 |
|---|
TextExtraction_Accuracy | この設定は、精度を重視して最適化されています。 - 低品質の小さなテキスト領域も含め、画像上のすべてのテキストを検出できます (図や表は検出されません) 。
- 文書の論理構造は完全には再現されません。
このプロファイルは、文書を RTF、DOCX、またはテキストのみの PDF に変換する用途には適していません。その場合は、文書変換用のプロファイルを使用してください。 |
TextExtraction_Speed | この設定は、処理速度を重視して最適化されています。 - 低品質の小さなテキスト領域も含め、画像上のすべてのテキストを検出できます (図や表は検出されません) 。
- 文書の論理構造は完全には再現されません。
- 文書解析および認識の処理が高速化されます。
このプロファイルは、文書を RTF、DOCX、またはテキストのみの PDF に変換する用途には適していません。その場合は、文書変換用のプロファイルを使用してください。 |
// 定義済みプロファイルを読み込む
engine.LoadPredefinedProfile("TextExtraction_Accuracy");
// 定義済みプロファイルを読み込む
Engine->LoadPredefinedProfile( L"TextExtraction_Accuracy" );
処理設定を変更する場合は、適切な Parameter オブジェクトを使用してください。詳しくは、以下の Additional optimization for specific tasks を参照してください。
ABBYY FineReader Engine には、複数ページの文書を処理できる FRDocument オブジェクトが用意されています。1 つの文書の画像を読み込んで前処理するには、FRDocument オブジェクトを作成し、そこに画像を追加する必要があります。方法は次のいずれかです。// 画像ファイルから FRDocument オブジェクトを作成する
FREngine.IFRDocument frDocument = engine.CreateFRDocumentFromImage( "C:\\MyImage.tif", null );
// 画像ファイルを開いて FRDocument オブジェクトを作成する
FREngine::IFRDocumentPtr frDocument = Engine->CreateFRDocumentFromImage( L"C:\\MyImage.tif", 0 );
文書を認識するには、FRDocument オブジェクトの解析メソッドと認識メソッドを使用します。このオブジェクトには、文書の解析と認識のためのさまざまなメソッドが用意されています。1 つのメソッドで文書の解析、認識、合成を実行できる最も便利な方法は、Process メソッドを使用することです。また、このメソッドは、マルチプロセッサおよびマルチコアシステムの同時処理機能を最も効率的に活用します。一方、Preprocess、Analyze、および Recognize、および Synthesize メソッドを使用して、前処理、解析、認識、合成を順に実行することもできます。// 文書を解析、認識、および合成します
// 追加のパラメーターは処理プロファイルで設定されるため、指定する必要はありません
frDocument.Process( null );
// 文書を解析、認識、および合成します
// プロファイルが読み込まれている場合は、処理メソッドに追加のパラメーターを渡す必要はありません
frDocument->Process( 0 );
解析中、ABBYY FineReader Engine は、テキスト、表、画像などを含む画像ブロックを選択します。認識の過程で、テキストデータを含むブロックには認識結果のテキストが格納されます。ABBYY FineReader Engine では、Layout オブジェクトがブロックと認識済みテキストの格納先として機能します。文書処理の主要なシナリオでは、処理対象の文書を表す FRDocument オブジェクト内の Layout を扱います。文書ページの Layout にアクセスするには、IFRPage::Layout プロパティを使用します。キーワードを検索するには、Text オブジェクトを使用して認識されたテキストを参照できます。これは、テキスト、表、またはバーコードブロックのプロパティからアクセスできます。見つかった重要なデータは、必要に応じて保存または処理できます。詳細については、以下の Additional optimization for specific tasks を参照してください。
また、抽出したテキストを、TXT のような検索しやすい形式や、後で必要な情報を簡単に取得できる JSON のような構造化形式で保存したい場合もあります。FRDocument オブジェクトの Export メソッドを使用し、対応する FileExportFormatEnum 定数をパラメーターの 1 つとして指定します。対応するエクスポートオブジェクトを使用して、エクスポートのデフォルトパラメーターを変更できます。詳細については、以下の Additional optimization for specific tasks を参照してください。FRDocument オブジェクトでの作業が完了したら、このオブジェクトで使用していたすべてのリソースを解放します。IFRDocument::Close メソッドを使用してください。// 認識した文書のテキストを TXT 形式で保存します
frDocument.Export( "C:\\MyText.txt", FREngine.FileExportFormatEnum.FEF_TextUnicodeDefaults, null );
// FRDocument オブジェクトを解放します
frDocument.Close();
// 認識した文書のテキストを TXT 形式で保存します
frDocument->Export( L"C:\\MyText.txt", FREngine::FEF_TextUnicodeDefaults, 0 );
// FRDocument オブジェクトを解放します
frDocument->Close();
ステップ 7. ABBYY FineReader Engine のアンロード
ABBYY FineReader Engine での作業が完了したら、Engine オブジェクトをアンロードする必要があります。これを行うには、エクスポート関数 DeinitializeEngine を使用します。public class EngineLoader : IDisposable
{
// FineReader Engine をアンロードする
public void Dispose()
{
if (engine == null)
{
// Engine は読み込まれていません
return;
}
engine = null;
// FreeLibrary 呼び出しの前にすべてのオブジェクトを削除する
GC.Collect();
GC.WaitForPendingFinalizers();
GC.Collect();
int hresult = deinitializeEngine();
hresult = dllCanUnloadNow();
if (hresult == 0)
{
FreeLibrary(dllHandle);
}
dllHandle = IntPtr.Zero;
initializeEngine = null;
deinitializeEngine = null;
dllCanUnloadNow = null;
// クリーンアップ後に例外をスローする
Marshal.ThrowExceptionForHR(hresult);
}
// Kernel32.dll の関数
[DllImport("kernel32.dll")]
private static extern IntPtr LoadLibraryEx(string dllToLoad, IntPtr reserved, uint flags);
private const uint LOAD_WITH_ALTERED_SEARCH_PATH = 0x00000008;
[DllImport("kernel32.dll")]
private static extern IntPtr GetProcAddress(IntPtr hModule, string procedureName);
[DllImport("kernel32.dll")]
private static extern bool FreeLibrary(IntPtr hModule);
// FREngine.dll の関数
[UnmanagedFunctionPointer(CallingConvention.StdCall, CharSet = CharSet.Unicode)]
private delegate int InitializeEngine( string customerProjectId, string LicensePath, string LicensePassword, , , , ref FREngine.IEngine engine);
[UnmanagedFunctionPointer(CallingConvention.StdCall)]
private delegate int DeinitializeEngine();
[UnmanagedFunctionPointer(CallingConvention.StdCall)]
private delegate int DllCanUnloadNow();
// 非公開変数
private FREngine.IEngine engine = null;
// FREngine.dll へのハンドル
private IntPtr dllHandle = IntPtr.Zero;
private InitializeEngine initializeEngine = null;
private DeinitializeEngine deinitializeEngine = null;
private DllCanUnloadNow dllCanUnloadNow = null;
}
void UnloadFREngine()
{
if( libraryHandle == 0 ) {
return;
}
// Engine オブジェクトを解放する
Engine = 0;
// FineReader Engine をアンロードする
typedef HRESULT ( STDAPICALLTYPE* DeinitializeEngineFunc )();
DeinitializeEngineFunc pDeinitializeEngine =
( DeinitializeEngineFunc )GetProcAddress( libraryHandle, "DeinitializeEngine" );
if( pDeinitializeEngine == 0 || pDeinitializeEngine() != S_OK ) {
throw L"ABBYY FineReader Engine のアンロード中にエラーが発生しました";
}
// これで FREngine.dll ライブラリを安全に解放できます
FreeLibrary( libraryHandle );
libraryHandle = 0;
}
アプリケーションの動作に必要なファイルの一覧は、FREngineDistribution.csv ファイルを使用して自動的に作成できます。このシナリオで処理を行うには、5 列目 (RequiredByModule) で次の値を選択します。
Core
Core.Resources
Opening
Opening, Processing
Processing
Processing.OCR
Processing.OCR, Processing.ICR
Processing.OCR.NaturalLanguages
Processing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguages
標準シナリオを変更する場合は、それに応じて必要なモジュールも変更してください。また、インターフェース言語、認識言語、およびアプリケーションで使用する追加機能も指定する必要があります (たとえば、PDF ファイルを開く必要がある場合は Opening.PDF、CJK 言語のテキストを認識する必要がある場合は Processing.OCR.CJK など) 。詳しくは、Working with the FREngineDistribution.csv File を参照してください。
基本的な使用シナリオの実装