Configurer une compétence OCR - ABBYY Documentation

Pour créer une compétence OCR, suivez ces étapes :

Créer une nouvelle compétence OCR

Dans le Skill Catalog, cliquez sur le bouton Create dans la barre d’outils.

Sélectionner le type de compétence OCR

Sélectionnez le type de compétence compétence OCR. La boîte de dialogue Create compétence OCR s’ouvre.

Configurer les paramètres généraux

Dans l’onglet General :

Saisissez un nom et une description pour la nouvelle compétence.
Sélectionnez la version de Technology Core. Nous vous recommandons de choisir la version la plus récente.

Traitement des imagesSous Traitement des images, ouvrez la liste déroulante mode de traitement PDF et sélectionnez le mode de traitement des documents PDF :

Default (recommandé) — Utilise le calque de texte PDF intégré lorsqu’il est disponible et le complète avec l’OCR si nécessaire. Il s’agit du paramètre par défaut.
Use Text Layer Only — Extrait le texte du calque de texte PDF intégré. Si aucun calque de texte n’est présent, Vantage bascule automatiquement vers l’OCR.
Use OCR Only — Ignore tout calque de texte PDF intégré et effectue une OCR complète du document.

Pour en savoir plus sur chaque mode et savoir lequel choisir, consultez mode de traitement PDF.

Sélectionner les langues de reconnaissance

Dans l’onglet Languages :

Dans la section Allowed Languages, sélectionnez une ou plusieurs langues de reconnaissance des documents. Pendant le traitement, la langue du document sera automatiquement choisie parmi celles spécifiées lors de la configuration. Notez que le nombre de langues sélectionnées peut affecter la vitesse et la qualité de la reconnaissance.
Si le document contient du texte manuscrit, activez l’option Handwritten dans la section Text Appearance.

Configurer les améliorations d’image

Dans l’onglet Image Enhancements, Crop Image et Correct Page Orientation sont activés par défaut. Si vos documents n’en ont pas besoin, vous pouvez désactiver ces fonctionnalités.

Crop Image recadre l’image sur les bords du document d’origine.
Correct Page Orientation fait pivoter automatiquement l’image pour rétablir son orientation d’origine.

Activer la reconnaissance des code-barres

Dans l’onglet Barcodes, activez les types de code-barres susceptibles d’apparaître dans vos documents. Le nombre de types de code-barres sélectionnés peut affecter la vitesse de reconnaissance. Si vous n’avez pas besoin de reconnaître de code-barres, cliquez sur le bouton indiquant le nombre d’options sélectionnées dans l’en-tête du tableau Barcode Types, puis cliquez sur Deselect all.

Si vous traitez plusieurs fichiers de document à l’aide d’une compétence OCR dans le cadre d’une seule transaction, tous les fichiers seront fusionnés en un seul. Par conséquent, le nombre de fichiers de sortie sera identique au nombre de formats d’export spécifié.

Choisir les formats d’export

Dans l’onglet Export, sélectionnez un ou plusieurs formats d’export de document.

Formats d’export disponibles

JSON (format par défaut) :
- Texte uniquement (option par défaut). Le fichier JSON exporté ne contiendra que le texte reconnu, sans préserver la mise en page du document. Si vous sélectionnez Texte uniquement, vous ne pourrez pas exporter vers DOCX, XLSX et PPTX.
- Préserver la structure du document. Le fichier JSON exporté contiendra le texte reconnu et la mise en page du document sera également préservée.
XML :
- Texte uniquement. Le fichier XML exporté ne contiendra que le texte reconnu. La mise en page du document ne sera pas préservée. Si vous sélectionnez Texte uniquement, vous ne pourrez pas exporter vers DOCX, XLSX et PPTX.
- Préserver la structure du document. Le fichier XML exporté contiendra le texte reconnu et la mise en page du document sera préservée.
ALTOXML :
- Texte uniquement. Le fichier ALTO XML exporté ne contiendra que le texte reconnu ; la mise en page du document ne sera pas préservée. Si vous sélectionnez Texte uniquement, vous ne pourrez pas exporter vers DOCX, XLSX et PPTX.
- Préserver la structure du document. Le fichier ALTO XML exporté contiendra le texte reconnu et la mise en page du document sera préservée.

Les options d’export (Texte uniquement et Préserver la structure du document) pour JSON, XML et ALTOXML doivent être identiques. Si vous choisissez une autre option d’export pour l’un de ces formats, elle sera appliquée aux autres.

PDF :
- PDF/A-3a (format d’export PDF par défaut)
- PDF/A-3b
- Image uniquement. PDF non modifiable conforme au standard PDF/A-3b

Pour chaque option d’export PDF, choisissez entre « taille de fichier plus petite » (option par défaut) et « qualité maximale ». La taille de fichier réduite est obtenue grâce à la compression Mixed Raster Content (MRC), qui optimise séparément les taux de compression pour le texte, les images et l’arrière-plan.

TXT
DOCX (Microsoft Word) :
- Modifiable. Le fichier DOCX exporté préserve le format d’origine et le flux du texte tout en permettant une modification aisée. Le document de sortie peut différer de l’image d’origine.
- Exact. Le fichier DOCX exporté maintient la mise en forme du document d’origine. Cela peut limiter les modifications apportées au texte et à la mise en forme du document de sortie.
XLSX (Microsoft Excel)
TIFF
JPEG :
- Qualité maximale. Le fichier exporté contient un JPEG avec un taux de compression de 95 %.
- Taille réduite. Le fichier exporté contient un JPEG avec un taux de compression de 75 %.
PPTX (Microsoft PowerPoint)
HTML

​Formats d’export disponibles

​Rubriques connexes

Formats d’export disponibles

Rubriques connexes