Passer au contenu principal
Lorsqu’ABBYY Vantage traite un document PDF, il doit déterminer comment en extraire le texte. Les PDF peuvent contenir un calque de texte intégré (texte recherchable intégré directement au fichier) ou n’être constitués que d’images, ce qui nécessite une Reconnaissance optique de caractères (OCR) pour extraire le texte. Le paramètre Mode de traitement PDF vous permet de choisir explicitement la méthode utilisée par Vantage. C’est particulièrement utile lorsque :
  • Vous travaillez dans des secteurs réglementés où la reproductibilité et la possibilité d’auditer les résultats d’extraction sont requises.
  • Votre ensemble de documents contient des PDF avec des calques de texte intégrés de mauvaise qualité ou peu fiables, pour lesquels l’OCR donnerait de meilleurs résultats.
  • Vous migrez depuis ABBYY FlexiCapture et devez reproduire le comportement de traitement de vos workflows existants.
  • Vous avez besoin d’un comportement de traitement cohérent et prévisible pour tous les documents, quel que soit leur contenu.

Modes disponibles

ModeDescriptionQuand l’utiliser
Par défaut (recommandé)Utilise le calque de texte PDF intégré lorsqu’il est disponible et le complète avec la reconnaissance optique de caractères (OCR), si nécessaire. Il s’agit du comportement de traitement standard de Vantage.Usage général. Recommandé pour la plupart des ensembles de documents comportant à la fois des PDF avec calque de texte et des PDF constitués uniquement d’images.
Utiliser uniquement le calque de texteExtrait le texte exclusivement à partir du calque de texte PDF intégré. Si aucun calque de texte n’existe, Vantage bascule automatiquement vers l’OCR.À utiliser lorsque vous disposez de calques de texte fiables et de haute qualité et souhaitez une extraction plus rapide, sans OCR complet. Utile dans les environnements réglementés où le calque de texte existant fait autorité.
Utiliser uniquement l’OCRIgnore tout calque de texte PDF intégré et effectue un OCR complet sur chaque page du document.À utiliser lorsque les calques de texte PDF sont connus pour être peu fiables ou corrompus, ou lorsque vous avez besoin d’une extraction homogène basée sur l’OCR pour tous les documents, quelle que soit leur structure.

Exemples de scénarios

Les exemples suivants illustrent des situations typiques dans lesquelles chaque mode constitue le meilleur choix.
Votre organisation traite des factures PDF créées nativement au format numérique, exportées depuis le système ERP d’un fournisseur. Le calque de texte intégré est fiable et généré automatiquement. L’utilisation de utiliser uniquement le calque de texte permet une extraction rapide et fiable, sans lancer inutilement l’OCR.
Vous traitez, dans le même workflow, un volume important de documents papier numérisés et de PDF créés nativement au format numérique. Certains fichiers disposent d’un calque de texte propre, d’autres non. par défaut gère automatiquement les deux, sans configuration document par document.
Votre ensemble de documents se compose de PDF produits par un ancien système de numérisation qui intègre un calque de texte de mauvaise qualité lors du scan. Ce calque contient des erreurs de reconnaissance qui dégradent l’extraction des champs. utiliser uniquement l’OCR l’ignore entièrement et extrait un texte propre directement à partir de l’image de la page.
Vous travaillez dans un secteur réglementé (par exemple les services financiers ou la santé), où les résultats d’extraction doivent être entièrement reproductibles et auditables. Le fait de verrouiller le mode sur utiliser uniquement le calque de texte ou utiliser uniquement l’OCR garantit que le même processus de traitement est toujours utilisé, quelle que soit la façon dont les documents sont reçus.

Où configurer

Le paramètre mode de traitement PDF est disponible aux emplacements suivants :
  • Paramètres du Skill OCR — onglet Général, sous traitement des images
  • Paramètres de l’activité OCR dans une Compétence de processus — onglet Général, sous traitement des images

Versions prises en charge de Technology Core

Le mode de traitement PDF est pris en charge pour les compétences qui utilisent Technology Core 3. Il n’est pas disponible pour les versions antérieures de Technology Core.