Extrayez le corps du texte d’un document avec ABBYY FineReader Engine dans l’ordre naturel de lecture, prêt à être transmis à des moteurs NLP pour le résumé, la recherche ou l’analyse des sentiments.
Use this file to discover all available pages before exploring further.
Ce scénario permet d’extraire le corps du texte d’un document ainsi que les textes figurant sur les logos, les sceaux et tout autre élément en dehors du corps du texte.L’ordre naturel du texte, « comme le lirait un humain », est préservé. Vous pouvez ensuite transmettre les documents à vos moteurs de traitement du langage naturel (NLP), par exemple pour les résumer rapidement, y rechercher des informations sensibles ou effectuer une analyse des sentiments.Pour extraire le texte principal du document, les fichiers image obtenus par numérisation ou enregistrés au format électronique passent généralement par plusieurs étapes de traitement, chacune ayant ses propres particularités :
Prétraitement des images numérisées ou des photosLes images numérisées peuvent nécessiter un prétraitement avant la reconnaissance, par exemple si les documents numérisés contiennent du bruit de fond, du texte incliné, des couleurs inversées, des marges noires, une orientation incorrecte ou une résolution inadéquate.
Reconnaissance du maximum de texte dans l’image d’un documentLa reconnaissance des images est effectuée à l’aide de paramètres garantissant que tout le texte possible est détecté et extrait de l’image du document.
Les exemples de code fournis dans cette rubrique sont spécifiques à Windows.
Vous trouverez ci-dessous une description détaillée de la méthode recommandée pour utiliser ABBYY FineReader Engine 12 dans ce scénario. Cette méthode s’appuie sur des paramètres de traitement particulièrement adaptés à ce scénario.
Étape 1. Chargement d’ABBYY FineReader Engine
Pour commencer à utiliser ABBYY FineReader Engine, vous devez créer l’objet Engine. L’objet Engine est l’objet de plus haut niveau dans la hiérarchie des objets ABBYY FineReader Engine ; il fournit divers paramètres globaux, certaines méthodes de traitement ainsi que des méthodes permettant de créer les autres objets.Pour créer l’objet Engine, vous pouvez utiliser la fonction InitializeEngine. Consultez également les autres façons de charger l’objet Engine (Win).
public class EngineLoader : IDisposable{ public EngineLoader() { // Initialisez ces variables avec le chemin complet vers FREngine.dll, votre Customer Project ID, // et, le cas échéant, le chemin vers votre fichier de jeton de licence en ligne et le mot de passe de la licence en ligne string enginePath = ""; string customerProjectId = ""; string licensePath = ""; string licensePassword = ""; // Chargement de la bibliothèque FREngine.dll dllHandle = LoadLibraryEx(enginePath, IntPtr.Zero, LOAD_WITH_ALTERED_SEARCH_PATH); try { if (dllHandle == IntPtr.Zero) { throw new Exception("Impossible de charger " + enginePath); } IntPtr initializeEnginePtr = GetProcAddress(dllHandle, "InitializeEngine"); if (initializeEnginePtr == IntPtr.Zero) { throw new Exception("Impossible de trouver la fonction InitializeEngine"); } IntPtr deinitializeEnginePtr = GetProcAddress(dllHandle, "DeinitializeEngine"); if (deinitializeEnginePtr == IntPtr.Zero) { throw new Exception("Impossible de trouver la fonction DeinitializeEngine"); } IntPtr dllCanUnloadNowPtr = GetProcAddress(dllHandle, "DllCanUnloadNow"); if (dllCanUnloadNowPtr == IntPtr.Zero) { throw new Exception("Impossible de trouver la fonction DllCanUnloadNow"); } // Conversion des pointeurs en délégués initializeEngine = (InitializeEngine)Marshal.GetDelegateForFunctionPointer( initializeEnginePtr, typeof(InitializeEngine)); deinitializeEngine = (DeinitializeEngine)Marshal.GetDelegateForFunctionPointer( deinitializeEnginePtr, typeof(DeinitializeEngine)); dllCanUnloadNow = (DllCanUnloadNow)Marshal.GetDelegateForFunctionPointer( dllCanUnloadNowPtr, typeof(DllCanUnloadNow)); // Appel de la fonction InitializeEngine // en transmettant le chemin vers le fichier de licence en ligne et le mot de passe de la licence en ligne int hresult = initializeEngine(customerProjectId, licensePath, licensePassword, "", "", false, ref engine); Marshal.ThrowExceptionForHR(hresult); } catch (Exception) { // Libération de la bibliothèque FREngine.dll engine = null; // Suppression de tous les objets avant l'appel à FreeLibrary GC.Collect(); GC.WaitForPendingFinalizers(); GC.Collect(); FreeLibrary(dllHandle); dllHandle = IntPtr.Zero; initializeEngine = null; deinitializeEngine = null; dllCanUnloadNow = null; throw; } } // Fonctions de Kernel32.dll [DllImport("kernel32.dll")] private static extern IntPtr LoadLibraryEx(string dllToLoad, IntPtr reserved, uint flags); private const uint LOAD_WITH_ALTERED_SEARCH_PATH = 0x00000008; [DllImport("kernel32.dll")] private static extern IntPtr GetProcAddress(IntPtr hModule, string procedureName); [DllImport("kernel32.dll")] private static extern bool FreeLibrary(IntPtr hModule); // Fonctions de FREngine.dll [UnmanagedFunctionPointer(CallingConvention.StdCall, CharSet = CharSet.Unicode)] private delegate int InitializeEngine(string customerProjectId, string licensePath, string licensePassword, string tempFolder, string dataFolder, bool isSharedCPUCoresMode, ref FREngine.IEngine engine); [UnmanagedFunctionPointer(CallingConvention.StdCall)] private delegate int DeinitializeEngine(); [UnmanagedFunctionPointer(CallingConvention.StdCall)] private delegate int DllCanUnloadNow(); // Variables privées private FREngine.IEngine engine = null; // Handle vers FREngine.dll private IntPtr dllHandle = IntPtr.Zero; private InitializeEngine initializeEngine = null; private DeinitializeEngine deinitializeEngine = null; private DllCanUnloadNow dllCanUnloadNow = null;}
// Initialisez ces variables avec le chemin vers FREngine.dll, votre Customer Project ID FineReader Engine,// et, le cas échéant, le chemin vers le jeton de licence en ligne et le mot de passe de la licence en lignewchar_t* FreDllPath;wchar_t* CustomerProjectId;wchar_t* LicensePath; // si vous n'utilisez pas de licence en ligne, affectez des chaînes vides à ces variableswchar_t* LicensePassword;// HANDLE vers FREngine.dllstatic HMODULE libraryHandle = 0;// Objet FineReader Engine globalFREngine::IEnginePtr Engine;void LoadFREngine(){ if( Engine != 0 ) { // Déjà chargé return; } // Première étape : charger FREngine.dll if( libraryHandle == 0 ) { libraryHandle = LoadLibraryEx( FreDllPath, 0, LOAD_WITH_ALTERED_SEARCH_PATH ); if( libraryHandle == 0 ) { throw L"Erreur lors du chargement d'ABBYY FineReader Engine"; } } // Deuxième étape : récupérer l'objet Engine typedef HRESULT ( STDAPICALLTYPE* InitializeEngineFunc )( BSTR, BSTR, BSTR, BSTR, BSTR, VARIANT_BOOL, FREngine::IEngine** ); InitializeEngineFunc pInitializeEngine = ( InitializeEngineFunc )GetProcAddress( libraryHandle, "InitializeEngine" ); if( pInitializeEngine == 0 || pInitializeEngine( CustomerProjectId, LicensePath, LicensePassword, L"", L"", VARIANT_FALSE, &Engine ) != S_OK ) { UnloadFREngine(); throw L"Erreur lors du chargement d'ABBYY FineReader Engine"; }}
Étape 2. Chargement des paramètres du scénario
Les paramètres les mieux adaptés à ce scénario peuvent être sélectionnés dans ABBYY FineReader Engine à l’aide de la méthode LoadPredefinedProfile de l’objet Engine. Cette méthode prend en entrée le nom du profil. Veuillez consulter Utilisation des profils pour plus d’informations.ABBYY FineReader Engine prend en charge 2 jeux de paramètres pour ce scénario :
Nom du profil
Description
TextExtraction_Accuracy
Les paramètres ont été optimisés pour la précision :
Active la détection de tout le texte d’une image, y compris les petites zones de texte de faible qualité (les images et les tableaux ne sont pas détectés).
La synthèse complète de la structure logique d’un document n’est pas effectuée.
Le profil n’est pas destiné à la conversion d’un document en RTF, DOCX ou PDF contenant uniquement du texte. Utilisez les profils de conversion de documents à cette fin.
TextExtraction_Speed
Les paramètres ont été optimisés pour la vitesse de traitement :
Active la détection de tout le texte d’une image, y compris les petites zones de texte de faible qualité (les images et les tableaux ne sont pas détectés).
La synthèse complète de la structure logique d’un document n’est pas effectuée.
Les processus d’analyse et de reconnaissance du document sont accélérés.
Le profil n’est pas destiné à la conversion d’un document en RTF, DOCX ou PDF contenant uniquement du texte. Utilisez les profils de conversion de documents à cette fin.
ABBYY FineReader Engine fournit l’objet FRDocument, qui permet de traiter des documents multipages.Pour charger les images d’un seul document et les prétraiter, vous devez créer l’objet FRDocument et y ajouter des images. Vous pouvez procéder de l’une des manières suivantes :
Créez l’objet FRDocument à l’aide de la méthode CreateFRDocumentFromImage de l’objet Engine. Cette méthode crée l’objet FRDocument et charge les images à partir du fichier spécifié.
// Ouvrir un fichier image et créer l'objet FRDocumentFREngine::IFRDocumentPtr frDocument = Engine->CreateFRDocumentFromImage( L"C:\\MyImage.tif", 0 );
Étape 4. Reconnaissance du document
Pour reconnaître le document, vous devez utiliser les méthodes d’analyse et de reconnaissance de l’objet FRDocument. Cet objet offre tout un ensemble de méthodes pour l’analyse et la reconnaissance de documents. La méthode la plus pratique, qui permet d’effectuer l’analyse, la reconnaissance et la synthèse en un seul appel, est Process. Elle exploite également de la manière la plus efficace les capacités de traitement simultané des systèmes multiprocesseurs et multicœurs. Toutefois, vous pouvez aussi exécuter successivement le prétraitement, l’analyse, la reconnaissance et la synthèse à l’aide des méthodes Preprocess, Analyze, Recognize et Synthesize.
// Analyser, reconnaître et synthétiser le document// Aucun paramètre supplémentaire n’est nécessaire, car ils sont définis par le profil de traitementfrDocument.Process( null );
// Analyser, reconnaître et synthétiser le document// Une fois le profil chargé, vous n’avez pas besoin de transmettre de paramètres supplémentaires à la méthode de traitementfrDocument->Process( 0 );
Étape 5. Recherche d’informations importantes
Lors de l’analyse, ABBYY FineReader Engine sélectionne les blocs d’image contenant du texte, des tableaux, des images, etc. Au cours de la reconnaissance, les blocs contenant des données textuelles sont remplis avec le texte reconnu.Dans ABBYY FineReader Engine, l’objet Layout sert à stocker les blocs et le texte reconnu. Dans le scénario principal de traitement des documents, le Layout est utilisé dans l’objet FRDocument, qui représente le document en cours de traitement. Pour accéder au Layout d’une page de document, utilisez la propriété IFRPage::Layout.Pour rechercher des mots-clés, vous pouvez consulter le texte reconnu à l’aide de l’objet Text, accessible via les propriétés des blocs de texte, de tableau ou de code-barres.Les données importantes que vous avez trouvées peuvent être enregistrées ou traitées selon vos besoins. Veuillez consulter Optimisation supplémentaire pour des tâches spécifiques ci-dessous pour plus d’informations.
(Facultatif) Étape 6. Exportation du document
Vous pouvez également stocker le texte extrait dans un format facilement exploitable, tel que TXT, ou dans un format structuré qui vous permettra de retrouver facilement les informations nécessaires par la suite, tel que JSON.Utilisez la méthode Export de l’objet FRDocument avec la constante FileExportFormatEnum appropriée comme l’un des paramètres. Vous pouvez modifier les paramètres d’exportation par défaut à l’aide de l’objet d’exportation correspondant. Veuillez consulter Optimisation supplémentaire pour des tâches spécifiques ci-dessous pour plus d’informations.Après avoir terminé votre travail avec l’objet FRDocument, libérez toutes les ressources utilisées par cet objet. Utilisez la méthode IFRDocument::Close.
// Enregistrer le texte du document reconnu au format TXTfrDocument.Export( "C:\\MyText.txt", FREngine.FileExportFormatEnum.FEF_TextUnicodeDefaults, null );// Libérer l’objet FRDocumentfrDocument.Close();
// Enregistrer le texte du document reconnu au format TXTfrDocument->Export( L"C:\\MyText.txt", FREngine::FEF_TextUnicodeDefaults, 0 );// Libérer l’objet FRDocumentfrDocument->Close();
Étape 7. Déchargement d’ABBYY FineReader Engine
Une fois que vous avez terminé d’utiliser ABBYY FineReader Engine, vous devez décharger l’objet Engine. Pour ce faire, utilisez la fonction exportée DeinitializeEngine.
Vous pouvez utiliser le fichier FREngineDistribution.csv pour créer automatiquement une liste des fichiers nécessaires au fonctionnement de votre application. Pour le traitement selon ce scénario, sélectionnez dans la colonne 5 (RequiredByModule) les valeurs suivantes :CoreCore.ResourcesOpeningOpening, ProcessingProcessingProcessing.OCRProcessing.OCR, Processing.ICRProcessing.OCR.NaturalLanguagesProcessing.OCR.NaturalLanguages, Processing.ICR.NaturalLanguagesSi vous modifiez le scénario standard, adaptez les modules requis en conséquence. Vous devez également spécifier les langues de l’interface, les langues de reconnaissance et toutes les fonctionnalités supplémentaires utilisées par votre application (par exemple, Opening.PDF si vous devez ouvrir des fichiers PDF, ou Processing.OCR.CJK si vous devez reconnaître des textes en langues CJK). Consultez Working with the FREngineDistribution.csv File pour plus de détails.
Objet PageProcessingParams Cet objet permet de personnaliser les paramètres d’analyse et de reconnaissance. À l’aide de cet objet, vous pouvez indiquer quelles caractéristiques de l’image et du texte doivent être détectées (image inversée, orientation, codes-barres, langue de reconnaissance, marge d’erreur de reconnaissance).
Objet SynthesisParamsForPage Cet objet inclut les paramètres responsables de la restauration de la mise en forme d’une page lors de la synthèse.
Objet SynthesisParamsForDocument Cet objet permet de personnaliser la synthèse du document : restauration de sa structure et de sa mise en forme.
Objet MultiProcessingParams - Linux et Windows uniquement Le traitement simultané peut être utile lors du traitement d’un grand nombre d’images. Dans ce cas, la charge de traitement est répartie entre les cœurs du processeur pendant l’ouverture et le prétraitement des images, l’analyse de la mise en page et la reconnaissance, ce qui permet d’accélérer le traitement. Les modes de traitement (simultané ou consécutif) sont définis à l’aide de la propriété MultiProcessingMode. La propriété RecognitionProcessesCount contrôle le nombre de processus pouvant être démarrés.
Pour enregistrer les données reconnues, vous pouvez utiliser les méthodes Export ou ExportPages de l’objet FRDocument en attribuant la constante FileExportFormatEnum comme l’un des paramètres.
Archivage de documents Description du scénario d’enregistrement d’une copie électronique du document.