- Prétraitement des images numérisées ou des photos
- Reconnaissance du maximum de texte dans l’image d’un document
Mise en œuvre du scénario
Les exemples de code fournis dans cette rubrique sont spécifiques à Windows.
Étape 1. Chargement d’ABBYY FineReader Engine
Étape 1. Chargement d’ABBYY FineReader Engine
Pour commencer à utiliser ABBYY FineReader Engine, vous devez créer l’objet Engine. L’objet Engine est l’objet de plus haut niveau dans la hiérarchie des objets ABBYY FineReader Engine ; il fournit divers paramètres globaux, certaines méthodes de traitement ainsi que des méthodes permettant de créer les autres objets.Pour créer l’objet Engine, vous pouvez utiliser la fonction InitializeEngine. Consultez également les autres façons de charger l’objet Engine (Win).
C#
C++ (COM)
Étape 2. Chargement des paramètres du scénario
Étape 2. Chargement des paramètres du scénario
Les paramètres les mieux adaptés à ce scénario peuvent être sélectionnés dans ABBYY FineReader Engine à l’aide de la méthode LoadPredefinedProfile de l’objet Engine. Cette méthode prend en entrée le nom du profil. Veuillez consulter Utilisation des profils pour plus d’informations.ABBYY FineReader Engine prend en charge 2 jeux de paramètres pour ce scénario :
Si vous souhaitez modifier les paramètres de traitement, utilisez les objets de paramètres appropriés. Veuillez consulter Optimisation supplémentaire pour des tâches spécifiques ci-dessous pour plus d’informations.
Nom du profil | Description |
|---|---|
TextExtraction_Accuracy | Les paramètres ont été optimisés pour la précision :
|
TextExtraction_Speed | Les paramètres ont été optimisés pour la vitesse de traitement :
|
C#
C++ (COM)
Étape 3. Chargement et prétraitement des images
Étape 3. Chargement et prétraitement des images
ABBYY FineReader Engine fournit l’objet FRDocument, qui permet de traiter des documents multipages.Pour charger les images d’un seul document et les prétraiter, vous devez créer l’objet FRDocument et y ajouter des images. Vous pouvez procéder de l’une des manières suivantes :
- Créez l’objet FRDocument à l’aide de la méthode CreateFRDocumentFromImage de l’objet Engine. Cette méthode crée l’objet FRDocument et charge les images à partir du fichier spécifié.
- Créez l’objet FRDocument à l’aide de la méthode CreateFRDocument de l’objet Engine, puis ajoutez-y des images à partir d’un fichier (utilisez la méthode AddImageFile, AddImageFileWithPassword ou AddImageFileWithPasswordCallback de l’objet FRDocument).
C#
C++ (COM)
Étape 4. Reconnaissance du document
Étape 4. Reconnaissance du document
Pour reconnaître le document, vous devez utiliser les méthodes d’analyse et de reconnaissance de l’objet FRDocument. Cet objet offre tout un ensemble de méthodes pour l’analyse et la reconnaissance de documents. La méthode la plus pratique, qui permet d’effectuer l’analyse, la reconnaissance et la synthèse en un seul appel, est Process. Elle exploite également de la manière la plus efficace les capacités de traitement simultané des systèmes multiprocesseurs et multicœurs. Toutefois, vous pouvez aussi exécuter successivement le prétraitement, l’analyse, la reconnaissance et la synthèse à l’aide des méthodes Preprocess, Analyze, Recognize et Synthesize.
C#
C++ (COM)
Étape 5. Recherche d’informations importantes
Étape 5. Recherche d’informations importantes
Lors de l’analyse, ABBYY FineReader Engine sélectionne les blocs d’image contenant du texte, des tableaux, des images, etc. Au cours de la reconnaissance, les blocs contenant des données textuelles sont remplis avec le texte reconnu.Dans ABBYY FineReader Engine, l’objet Layout sert à stocker les blocs et le texte reconnu. Dans le scénario principal de traitement des documents, le Layout est utilisé dans l’objet FRDocument, qui représente le document en cours de traitement. Pour accéder au Layout d’une page de document, utilisez la propriété IFRPage::Layout.Pour rechercher des mots-clés, vous pouvez consulter le texte reconnu à l’aide de l’objet Text, accessible via les propriétés des blocs de texte, de tableau ou de code-barres.Les données importantes que vous avez trouvées peuvent être enregistrées ou traitées selon vos besoins. Veuillez consulter Optimisation supplémentaire pour des tâches spécifiques ci-dessous pour plus d’informations.
(Facultatif) Étape 6. Exportation du document
(Facultatif) Étape 6. Exportation du document
Vous pouvez également stocker le texte extrait dans un format facilement exploitable, tel que TXT, ou dans un format structuré qui vous permettra de retrouver facilement les informations nécessaires par la suite, tel que JSON.Utilisez la méthode Export de l’objet FRDocument avec la constante FileExportFormatEnum appropriée comme l’un des paramètres. Vous pouvez modifier les paramètres d’exportation par défaut à l’aide de l’objet d’exportation correspondant. Veuillez consulter Optimisation supplémentaire pour des tâches spécifiques ci-dessous pour plus d’informations.Après avoir terminé votre travail avec l’objet FRDocument, libérez toutes les ressources utilisées par cet objet. Utilisez la méthode IFRDocument::Close.
C#
C++ (COM)
Étape 7. Déchargement d’ABBYY FineReader Engine
Étape 7. Déchargement d’ABBYY FineReader Engine
Une fois que vous avez terminé d’utiliser ABBYY FineReader Engine, vous devez décharger l’objet Engine. Pour ce faire, utilisez la fonction exportée DeinitializeEngine.
C#
C++ (COM)
Ressources requises
Optimisation supplémentaire pour des tâches spécifiques
-
Numérisation - Windows uniquement
- Numérisation
Description du scénario ABBYY FineReader Engine pour la numérisation de documents.
- Numérisation
-
Reconnaissance
- Réglage des paramètres de prétraitement, d’analyse, de reconnaissance et de synthèse
Personnalisation du traitement des documents à l’aide des objets de paramètres d’analyse, de reconnaissance et de synthèse.
- Réglage des paramètres de prétraitement, d’analyse, de reconnaissance et de synthèse
-
Reconnaître l’écriture manuscrite
Les profils TextExtraction_*** n’incluent pas la reconnaissance du texte manuscrit ou en lettres moulées. Si vous devez reconnaître l’écriture manuscrite, définissez la propriété DetectHandwritten de l’objet PageAnalysisParams sur TRUE. -
Objet PageProcessingParams
Cet objet permet de personnaliser les paramètres d’analyse et de reconnaissance. À l’aide de cet objet, vous pouvez indiquer quelles caractéristiques de l’image et du texte doivent être détectées (image inversée, orientation, codes-barres, langue de reconnaissance, marge d’erreur de reconnaissance). -
Objet SynthesisParamsForPage
Cet objet inclut les paramètres responsables de la restauration de la mise en forme d’une page lors de la synthèse. -
Objet SynthesisParamsForDocument
Cet objet permet de personnaliser la synthèse du document : restauration de sa structure et de sa mise en forme. -
Objet MultiProcessingParams - Linux et Windows uniquement
Le traitement simultané peut être utile lors du traitement d’un grand nombre d’images. Dans ce cas, la charge de traitement est répartie entre les cœurs du processeur pendant l’ouverture et le prétraitement des images, l’analyse de la mise en page et la reconnaissance, ce qui permet d’accélérer le traitement.
Les modes de traitement (simultané ou consécutif) sont définis à l’aide de la propriété MultiProcessingMode. La propriété RecognitionProcessesCount contrôle le nombre de processus pouvant être démarrés. -
Recherche d’informations importantes
- Utilisation de Layout et des blocs
Présentation de la mise en page, des types de blocs et de leur utilisation. - Objet Layout
Les paramètres de cet objet donnent accès à la mise en page et au texte reconnu après la reconnaissance du document. - Utilisation du texte
Utilisation du texte reconnu, des paragraphes, des mots et des symboles.
- Utilisation de Layout et des blocs
-
Nouvelle lecture du document à l’aide de paramètres spéciaux pour le type de données spécifié
- Reconnaissance au niveau du champ
Description du scénario de reconnaissance de courts segments de texte.
- Reconnaissance au niveau du champ
-
Enregistrement des données
- Pour enregistrer les données reconnues, vous pouvez utiliser les méthodes Export ou ExportPages de l’objet FRDocument en attribuant la constante FileExportFormatEnum comme l’un des paramètres.
- Archivage de documents
Description du scénario d’enregistrement d’une copie électronique du document.
