Passer au contenu principal

Fonctionnalités de base de l’analyse de documents

L’analyse de documents est un ensemble de fonctions permettant la détection automatique des objets suivants sur une page :
  • Blocs de texte
  • Images
  • Tableaux et cellules de tableau
  • Barcodes
  • Separators
De plus, l’analyse de documents fournit des fonctionnalités spéciales pour préparer l’image à la Reconnaissance optique de caractères (OCR) :
  • détecter l’orientation de la page — 90, 180 et 270 degrés
  • scinder les doubles pages
  • détecter le texte vertical dans les cellules de tableau
  • détecter et marquer les blocs de bruit sur la page
Cette préparation est essentielle pour définir quels champs de la page doivent être reconnus et quels éléments doivent être conservés dans leur forme initiale. Il est également possible de sélectionner manuellement le champ à reconnaître. Dans ce cas, vous devez définir les coordonnées du champ et le type de données qu’il contient. Cette fonctionnalité est principalement utilisée dans le scénario Field-Level Recognition pour la capture de données. ABBYY FineReader Engine 12 fournit 3 types automatiques et 1 type manuel d’analyse de documents :

Analyse générale des documents

Il s’agit du type d’analyse de documents par défaut, qui recherche tous les objets : blocs de texte, images, tableaux, Barcode et Separator. Les résultats de cette analyse sont utilisés pour récupérer la structure et la mise en page du document dans le scénario de réutilisation de contenu. Toutes les images et tous les diagrammes sont conservés dans leur forme d’origine, sans reconnaissance du texte qu’ils contiennent.

Analyse de documents pour les factures

Il s’agit d’un moteur de prétraitement destiné au traitement de documents semi-structurés, tels que des factures, des ordres de paiement, des bordereaux, des lettres de voiture, des cartes de visite, des contrats, des formulaires de demande de remboursement de frais de santé, des CV, etc. Il a été conçu pour localiser avec précision l’ensemble du texte présent dans ces documents, y compris les caractères et les chiffres, même lorsque ces informations se trouvent dans des tampons, des images, des logos ou des zones en petits caractères. Contrairement à l’analyse standard de documents pleine page, celui-ci part du principe que toutes les informations imprimées sur les documents sont du texte. Il garantit également que les informations textuelles importantes ne sont pas identifiées comme des éléments graphiques et que les mots ou les valeurs numériques ne sont pas scindés en plusieurs caractères. Ainsi, un maximum d’informations sur le texte, y compris ses coordonnées, est disponible pour l’analyse, le traitement champ par champ et le parsing lors des étapes de traitement ultérieures par d’autres systèmes.

Analyse de documents pour l’indexation en texte intégral

Détecte et reconnaît automatiquement tout le texte des documents, y compris le texte intégré aux images, aux graphiques et aux diagrammes. Les développeurs peuvent choisir d’utiliser ce mode d’analyse de documents pour extraire de façon exhaustive les informations en texte intégral nécessaires à la création d’index de documents (comme dans les systèmes de GED, de CMS et d’archivage). intro_KeyFeatures_DocumentAnalysis

Spécification des blocs manuels pour la reconnaissance au niveau des champs

Ce cas ne nécessite aucune analyse, car le champ à reconnaître est défini directement par l’utilisateur ou l’application. Le Recognizer reçoit les coordonnées du champ et le type de texte, puis effectue la reconnaissance optique de caractères (OCR) dans la zone spécifiée.

Voir aussi

Fonctionnalités principales