- Dans le Skill Catalog, cliquez sur le bouton Create dans la barre d’outils.
- Sélectionnez le type OCR Skill. La boîte de dialogue Create OCR Skill s’ouvre.
- Dans l’onglet General, saisissez un nom et une description pour la nouvelle Skill.
- Dans l’onglet Languages :
a. Dans la section Allowed Languages, sélectionnez une ou plusieurs langues de reconnaissance de documents. Lors du traitement, la langue du document sera automatiquement choisie parmi celles définies lors de la configuration. Notez que le nombre de langues sélectionnées peut affecter la vitesse et la qualité de la reconnaissance.
b. Si le document contient du texte manuscrit, activez l’option Handwritten dans la section Text Appearance. - Dans l’onglet Image Enhancements, Crop Image et Correct Page Orientation sont activés par défaut. Désactivez-les si vos documents n’en ont pas besoin.
Crop Image recadre l’image jusqu’aux bords du document d’origine. Correct Page Orientation fait pivoter automatiquement l’image pour rétablir son orientation d’origine. - Dans l’onglet Barcodes, activez les types de codes-barres susceptibles d’apparaître sur vos documents. Le nombre de types de codes-barres sélectionnés peut affecter la vitesse de reconnaissance.
Important ! Si vous traitez plusieurs fichiers de documents à l’aide d’une Skill OCR dans le cadre d’une seule transaction, tous les fichiers seront fusionnés en un seul. Par conséquent, le nombre de fichiers de sortie sera identique au nombre de formats d’export spécifiés. - Dans l’onglet Export, sélectionnez un ou plusieurs formats d’export de documents. Pour plus d’informations, voir Available Export Formats.
Formats d’export disponibles
- JSON (format par défaut) :
- Texte uniquement (option par défaut). Le fichier JSON exporté ne contiendra que le texte reconnu, sans préserver la mise en page du document. Si vous sélectionnez Texte uniquement, vous ne pourrez pas exporter vers DOCX, XLSX et PPTX.
- Préserver la structure du document. Le fichier JSON exporté contiendra le texte reconnu et la mise en page du document sera également préservée.
- XML :
- Texte uniquement. Le fichier XML exporté ne contiendra que le texte reconnu. La mise en page du document ne sera pas préservée. Si vous sélectionnez Texte uniquement, vous ne pourrez pas exporter vers DOCX, XLSX et PPTX.
- Préserver la structure du document. Le fichier XML exporté contiendra le texte reconnu et la mise en page du document sera préservée.
- ALTOXML :
- Texte uniquement. Le fichier ALTO XML exporté ne contiendra que le texte reconnu ; la mise en page du document ne sera pas préservée. Si vous sélectionnez Texte uniquement, vous ne pourrez pas exporter vers DOCX, XLSX et PPTX.
- Préserver la structure du document. Le fichier ALTO XML exporté contiendra le texte reconnu et la mise en page du document sera préservée.
Important ! Les options d’export (Texte uniquement et Préserver la structure du document) pour JSON, XML et ALTOXML doivent être identiques. Si vous choisissez une autre option d’export pour l’un de ces formats, elle sera appliquée aux autres.
- PDF :
- PDF/A-3a (format d’export PDF par défaut)
- PDF/A-3b
- Image uniquement. PDF non modifiable conforme au standard PDF/A-3b
Conseil : Pour chaque option d’export PDF, choisissez entre « taille de fichier plus petite » (option par défaut) et « qualité maximale ». La taille de fichier réduite est obtenue grâce à la compression Mixed Raster Content (MRC), qui optimise séparément les taux de compression pour le texte, les images et l’arrière-plan.
- TXT
- DOCX (Microsoft Word) :
- Modifiable. Le fichier DOCX exporté préserve le format d’origine et le flux du texte tout en permettant une modification aisée. Le document de sortie peut différer de l’image d’origine.
- Exact. Le fichier DOCX exporté maintient la mise en forme du document d’origine. Cela peut limiter les modifications apportées au texte et à la mise en forme du document de sortie.
- XLSX (Microsoft Excel)
- TIFF
- JPEG :
- Qualité maximale. Le fichier exporté contient un JPEG avec un taux de compression de 95 %.
- Taille réduite. Le fichier exporté contient un JPEG avec un taux de compression de 75 %.
- PPTX (Microsoft PowerPoint)
- HTML
