Assistant définition de document

Pour créer une nouvelle définition de document ou un jeu de documents à partir de définitions de document déjà activées, sélectionnez Project → Document Definitions… dans le menu principal, puis cliquez sur New… Sélectionnez ensuite le type de documents à traiter. Forms Les formulaires sont des documents à mise en page fixe, c’est-à-dire que les champs sont positionnés au même endroit sur toutes les copies, chacune étant une réplique exacte du formulaire maître créé par un concepteur.

Comment créer une définition de document pour des formulaires

Sélectionnez une image qui servira de copie de référence.

Une définition de document pour des formulaires est créée à partir d’une image obtenue en numérisant un formulaire vierge. Dans le cas des formulaires, vous devez disposer d’une image d’un formulaire vierge, car c’est sur cette image que vous indiquerez la position de chaque champ.

L’image doit être de haute qualité et ne présenter aucune déformation, comme une inclinaison, un décalage, etc. Pour les formulaires en couleur, n’appliquez aucun filtre de couleur lors de la numérisation d’un formulaire vierge, car vous devez conserver l’arrière-plan intact afin de créer une définition de document. Les filtres de suppression de l’arrière-plan devront être appliqués plus tard, lors de la numérisation des formulaires remplis.

Si votre document contient plusieurs pages, chargez la première page et suivez les recommandations fournies dans la section Création de définitions de document pour des documents multipages pour ajouter les pages restantes.Cliquez sur Next pour passer à l’étape suivante.

Spécifiez les principales propriétés de la définition de document, notamment son nom, sa description et la langue de vos documents.

Par défaut, seules les langues pour lesquelles des dictionnaires sont fournis sont affichées dans la liste déroulante des langues. Pour voir toutes les langues disponibles, sélectionnez l’option Show all languages. Veillez à indiquer la langue correcte. Si vous indiquez une langue incorrecte, cela entraînera des erreurs de reconnaissance. Les langues accompagnées de l’abréviation “ICR” peuvent être utilisées pour reconnaître le texte manuscrit, écrit en lettres moulées et le texte imprimé. Si vous ne connaissez pas à l’avance la langue de vos documents, vous pouvez spécifier plusieurs langues possibles parmi lesquelles le programme sélectionnera ensuite la langue appropriée.

Spécifier un trop grand nombre de langues peut ralentir le traitement des documents et entraîner des erreurs de reconnaissance.

Le type de texte spécifié à cette étape sera utilisé par défaut, mais vous pourrez toujours le modifier ultérieurement pour n’importe quel champ (cela peut être nécessaire si différents champs contiennent du texte dans différentes langues).Sélectionnez l’option Use recognition settings from batch type si vous souhaitez utiliser les paramètres de reconnaissance spécifiés pour le type de lot.

La désactivation de la synchronisation peut ralentir la mise en correspondance de la définition de document.

Cliquez sur Next pour passer à l’étape suivante.

Spécifiez les types de champs que vous souhaitez voir détectés automatiquement. Le programme n’aura aucun mal à trouver les champs de saisie de texte spécialement marqués ou les coches à l’intérieur de cases. Toutefois, si les champs de saisie de texte de votre formulaire ne comportent aucun marquage spécial ou s’il n’y a pas de cases spéciales pour les coches à côté du texte explicatif, vous pouvez indiquer manuellement leurs positions possibles.

Le programme tentera toujours de détecter les repères sur les formulaires.

Cliquez sur Finish. Le Document Definition Editor s’ouvrira, et vous devrez y baliser les champs et les éléments statiques sur l’image de la page et définir leurs propriétés.

Documents semi-structurés ou non structurés Dans le cas des documents semi-structurés et non structurés, la disposition des champs peut varier d’un document à l’autre. Pour extraire les champs de ce type de documents, un FlexiLayout sera utilisé. De plus, des technologies de traitement automatique du langage naturel (NLP) peuvent être utilisées pour extraire des champs de documents non structurés.

Comment créer un définition de document pour des documents semi-structurés ou non structurés

Sélectionnez une image qui sera utilisée comme exemplaire de référence (facultatif si vous créez un FlexiLayout).

Si vous souhaitez utiliser un FlexiLayout créé dans ABBYY FlexiLayout Studio, sélectionnez l’option Load FlexiLayout et indiquez le chemin du fichier contenant le FlexiLayout. Pour plus de détails, consultez la section Création d’un définition de document basé sur une description flexible.Un FlexiLayout peut être créé automatiquement si l’option Allow field location training est sélectionnée.Cliquez sur Next pour passer à l’étape suivante.

Indiquez les principales propriétés du définition de document, notamment son nom, sa description et la langue de vos documents.

Par défaut, seules les langues pour lesquelles des dictionnaires sont fournis sont affichées dans la liste déroulante des langues. Pour voir toutes les langues disponibles, sélectionnez l’option Show all languages. Veillez à indiquer la bonne langue. Si vous indiquez une langue incorrecte, cela entraînera des erreurs de reconnaissance. Les langues accompagnées de l’abréviation “ICR” peuvent être utilisées pour reconnaître le texte manuscrit, écrit en lettres moulées et le texte imprimé. Si vous ne connaissez pas à l’avance la langue de vos documents, vous pouvez indiquer plusieurs langues candidates parmi lesquelles le programme sélectionnera ensuite la langue appropriée.

Indiquer un trop grand nombre de langues peut ralentir le traitement des documents et entraîner des erreurs de reconnaissance.

Le type de texte indiqué à cette étape sera utilisé par défaut, mais vous pourrez toujours le modifier ultérieurement pour n’importe quel champ (cela peut être nécessaire si différents champs contiennent du texte dans différentes langues).Sélectionnez l’option Use recognition settings from type de lot si vous souhaitez utiliser les paramètres de reconnaissance indiqués pour le type de lot.

La désactivation de la synchronisation peut ralentir la mise en correspondance du définition de document.

Cliquez sur Finish. Le définition de document Editor s’ouvrira.

Documents ne nécessitant pas d’extraction automatique des données Il s’agit de documents qui ne nécessitent pas de détection automatique des champs. La technologie OCR peut être utilisée pour rendre la recherche en texte intégral possible, ou les documents peuvent être laissés non reconnus. Le traitement de ces documents a pour but de les numériser et de permettre aux utilisateurs d’y effectuer des recherches à partir de la valeur des champs principaux. Pour plus de détails, consultez la section définition de documents sans extraction de champs.

Comment créer un définition de document pour des documents ne nécessitant pas d’extraction automatique des données

Sélectionnez la source de l’image utilisée pour l’échantillon du document (facultatif).

Cliquez sur Next pour passer à l’étape suivante.

Indiquez les principales propriétés du définition de document, notamment son nom, sa description et la langue de vos documents.

Par défaut, seules les langues pour lesquelles des dictionnaires sont fournis sont affichées dans la liste déroulante des langues. Pour voir toutes les langues disponibles, sélectionnez l’option Show all languages. Veillez à indiquer la bonne langue. Si vous indiquez une langue incorrecte, cela entraînera des erreurs de reconnaissance. Les langues accompagnées de l’abréviation “ICR” peuvent être utilisées pour reconnaître le texte manuscrit, écrit en lettres moulées et le texte imprimé. Si vous ne connaissez pas à l’avance la langue de vos documents, vous pouvez indiquer plusieurs langues candidates parmi lesquelles le programme sélectionnera ensuite la langue appropriée.

Indiquer un trop grand nombre de langues peut ralentir le traitement des documents et entraîner des erreurs de reconnaissance.

Le type de texte indiqué à cette étape sera utilisé par défaut, mais vous pourrez toujours le modifier ultérieurement pour n’importe quel champ (cela peut être nécessaire si différents champs contiennent du texte dans différentes langues).Sélectionnez l’option Use recognition settings from type de lot si vous souhaitez utiliser les paramètres de reconnaissance indiqués pour le type de lot.

La désactivation de la synchronisation peut ralentir la mise en correspondance du définition de document.

Cliquez sur Finish.

Jeu de documents Un jeu de documents est une collection de documents logiquement liés. Pour un jeu de documents, un définition de document est créé ; il inclut d’autres définition de documents et, éventuellement, une section de synthèse contenant les informations recueillies à partir des documents du jeu. Pour plus de détails, consultez la section Création et configuration de jeux de documents.

Comment créer une définition de document pour un jeu de documents

Dans la liste de tous les documents disponibles dans le projet, sélectionnez les documents qui appartiennent au jeu de documents. Si nécessaire, ajoutez une section de synthèse pour regrouper les principaux champs du jeu dans une seule section, afin qu’ils puissent tous être vérifiés dans le même formulaire de données.

Cliquez sur Suivant pour passer à l’étape suivante.

Spécifiez les principales propriétés de la définition de document, notamment son nom, sa description et la langue de vos documents.

Par défaut, seules les langues pour lesquelles des dictionnaires sont fournis s’affichent dans la liste déroulante des langues. Pour voir toutes les langues disponibles, sélectionnez l’option Afficher toutes les langues. Veillez à indiquer la langue correcte. Si vous indiquez une langue incorrecte, cela entraînera des erreurs de reconnaissance. Les langues accompagnées de l’abréviation “ICR” peuvent être utilisées pour reconnaître le texte manuscrit, écrit en lettres moulées et imprimé. Si vous ne connaissez pas à l’avance la langue de vos documents, vous pouvez indiquer plusieurs langues candidates parmi lesquelles le programme sélectionnera ensuite la langue appropriée.

Indiquer un trop grand nombre de langues peut ralentir le traitement des documents et entraîner des erreurs de reconnaissance.

Le type de texte spécifié à cette étape sera utilisé par défaut, mais vous pourrez toujours le modifier ultérieurement pour n’importe quel champ (cela peut être nécessaire si différents champs contiennent du texte dans différentes langues).Sélectionnez l’option Utiliser les paramètres de reconnaissance du type de lot si vous souhaitez utiliser les paramètres de reconnaissance spécifiés pour le type de lot.

La désactivation de la synchronisation peut ralentir la mise en correspondance de la définition de document.

Cliquez sur Finish.