Pour créer une compétence OCR, suivez ces étapes :Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
Créer une nouvelle compétence OCR
Dans le Skill Catalog, cliquez sur le bouton Create dans la barre d’outils.
Sélectionner le type de compétence OCR
Sélectionnez le type de compétence compétence OCR. La boîte de dialogue Create compétence OCR s’ouvre.
Configurer les paramètres généraux
Dans l’onglet General :
- Saisissez un nom et une description pour la nouvelle compétence.
- Sélectionnez la version de Technology Core. Nous vous recommandons de choisir la version la plus récente.
- Default (recommandé) — Utilise le text layer PDF intégré lorsqu’il est disponible et le complète avec l’OCR si nécessaire. Il s’agit du paramètre par défaut.
- Use Text Layer Only — Extrait le texte du text layer PDF intégré. Si aucun text layer n’est présent, Vantage bascule automatiquement vers l’OCR.
- Use OCR Only — Ignore tout text layer PDF intégré et effectue une OCR complète du document.
Pour en savoir plus sur chaque mode et savoir lequel choisir, consultez mode de traitement PDF.
Sélectionner les langues de reconnaissance
Dans l’onglet Languages :
- Dans la section Allowed Languages, sélectionnez une ou plusieurs langues de reconnaissance des documents. Pendant le traitement, la langue du document sera automatiquement choisie parmi celles spécifiées lors de la configuration. Notez que le nombre de langues sélectionnées peut affecter la vitesse et la qualité de la reconnaissance.
- Si le document contient du texte manuscrit, activez l’option Handwritten dans la section Text Appearance.
Configurer les améliorations d’image
Dans l’onglet Image Enhancements, Crop Image et Correct Page Orientation sont activés par défaut. Si vos documents n’en ont pas besoin, vous pouvez désactiver ces fonctionnalités.
- Crop Image recadre l’image sur les bords du document d’origine.
- Correct Page Orientation fait pivoter automatiquement l’image pour rétablir son orientation d’origine.
Activer la reconnaissance des code-barres
Dans l’onglet Barcodes, activez les types de code-barres susceptibles d’apparaître dans vos documents. Le nombre de types de code-barres sélectionnés peut affecter la vitesse de reconnaissance. Si vous n’avez pas besoin de reconnaître de code-barres, cliquez sur le bouton indiquant le nombre d’options sélectionnées dans l’en-tête du tableau Barcode Types, puis cliquez sur Deselect all.
Formats d’export disponibles
- JSON (format par défaut) :
- Texte uniquement (option par défaut). Le fichier JSON exporté ne contiendra que le texte reconnu, sans préserver la mise en page du document. Si vous sélectionnez Texte uniquement, vous ne pourrez pas exporter vers DOCX, XLSX et PPTX.
- Préserver la structure du document. Le fichier JSON exporté contiendra le texte reconnu et la mise en page du document sera également préservée.
- XML :
- Texte uniquement. Le fichier XML exporté ne contiendra que le texte reconnu. La mise en page du document ne sera pas préservée. Si vous sélectionnez Texte uniquement, vous ne pourrez pas exporter vers DOCX, XLSX et PPTX.
- Préserver la structure du document. Le fichier XML exporté contiendra le texte reconnu et la mise en page du document sera préservée.
- ALTOXML :
- Texte uniquement. Le fichier ALTO XML exporté ne contiendra que le texte reconnu ; la mise en page du document ne sera pas préservée. Si vous sélectionnez Texte uniquement, vous ne pourrez pas exporter vers DOCX, XLSX et PPTX.
- Préserver la structure du document. Le fichier ALTO XML exporté contiendra le texte reconnu et la mise en page du document sera préservée.
- PDF :
- PDF/A-3a (format d’export PDF par défaut)
- PDF/A-3b
- Image uniquement. PDF non modifiable conforme au standard PDF/A-3b
- TXT
- DOCX (Microsoft Word) :
- Modifiable. Le fichier DOCX exporté préserve le format d’origine et le flux du texte tout en permettant une modification aisée. Le document de sortie peut différer de l’image d’origine.
- Exact. Le fichier DOCX exporté maintient la mise en forme du document d’origine. Cela peut limiter les modifications apportées au texte et à la mise en forme du document de sortie.
- XLSX (Microsoft Excel)
- TIFF
- JPEG :
- Qualité maximale. Le fichier exporté contient un JPEG avec un taux de compression de 95 %.
- Taille réduite. Le fichier exporté contient un JPEG avec un taux de compression de 75 %.
- PPTX (Microsoft PowerPoint)
- HTML
Compétence OCR
Présentation de la compétence OCR et de ce qu’elle peut extraire.
Mode de traitement PDF
Définissez si Vantage utilise le calque de texte PDF intégré, l’OCR ou une combinaison des deux.
Activité OCR
Exécutez une compétence OCR dans le cadre du workflow d’une compétence de processus.
Formats d’export des données
Référence de tous les formats d’export et de leurs options.
Versions de Technology Core
Choisissez la version du moteur utilisée par une compétence.
