Passer au contenu principal
Pour entraîner et tester une compétence, vous avez besoin d’un ensemble de documents étiquetés, c’est-à-dire de documents où les emplacements des champs et leurs types de données sont explicitement indiqués. La manière la plus simple d’obtenir un tel ensemble consiste à étiqueter manuellement certains documents, mais cela peut prendre du temps — surtout si vous envisagez d’utiliser le Deep Learning, qui nécessite de grands ensembles de documents étiquetés. Pour gagner du temps et des efforts, ABBYY propose plusieurs moyens de réutiliser des documents étiquetés provenant d’autres compétences ou de résultats de traitement revus manuellement.

Étiquetage manuel des documents

Étiquetez chaque document importé en indiquant l’emplacement de tous les champs et en précisant les types de données qu’ils sont censés contenir. Pour garantir des résultats d’apprentissage fiables, suivez ces consignes.

Importation de documents annotés à partir d’un dossier

Les documents annotés peuvent également être obtenus à partir des sources suivantes : Dans chaque cas, vous devrez exporter les documents annotés vers un dossier. Ensuite, vous pourrez importer les documents annotés depuis ce dossier et les utiliser pour entraîner votre compétence.

Ensembles d’entraînement de Skill

Lors de la publication d’un Skill pour une utilisation en production, vous supprimez généralement l’ensemble d’entraînement, en ne laissant que quelques documents d’exemple dans la version publiée. Vous pouvez également exporter votre ensemble d’entraînement vers un dossier si vous prévoyez d’utiliser le même ensemble pour entraîner une nouvelle version de votre Skill. Pour exporter des documents et leur annotation vers un dossier, cliquez sur l’icon more à côté du nom de l’ensemble de documents et sélectionnez Export Set with Labeling. Le dossier de destination contiendra les fichiers et sous-dossiers suivants :
  • documentdefinition.json.
  • skillsettings.json.
  • Un sous-dossier <Document name> contenant les images des documents, ainsi que les fichiers documentinfo.json et labeling.json pour chaque document.

Résultats de traitement relus manuellement

Lorsque les résultats de traitement sont corrigés lors de la relecture manuelle, un ensemble de documents annotés est créé. Pour réutiliser ces documents annotés, configurez l’export des données de champ au format JSON avec l’option Valeurs, métadonnées et structure des champs pour chaque document activée, ainsi que l’export des images du document dans n’importe quel format d’image. Le dossier de destination contiendra un sous-dossier distinct pour chaque transaction. Chaque sous-dossier <Transaction ID> contiendra les éléments suivants :
  • Le fichier <Applied skill name>.json avec les données de champ.
  • Les images exportées, selon le format choisi : <Applied skill name>.pdf, <Applied skill name>.tiff, ou le sous-dossier <Applied skill name>/Pages contenant des fichiers page_*.jpg pour chaque page.

FlexiCapture

Vous pouvez réutiliser des documents qui ont été annotés précédemment dans FlexiCapture. Pour plus d’informations, voir Importer des documents annotés depuis FlexiCapture.

Comment importer

Pour importer des documents étiquetés à partir du dossier créé lors de l’exportation, sélectionnez l’ensemble All Documents, cliquez sur le menu déroulant à côté du bouton Upload, puis choisissez l’option Import Labeled Documents From Folder… dans la liste. Ensuite, sélectionnez le dossier que vous avez créé précédemment. Remarque : N’apportez aucune modification au dossier créé lors de l’exportation. Si vous modifiez la structure des sous-dossiers ou renommez certains fichiers, la procédure d’importation peut échouer.

Traitement des doublons

Si l’un des documents importés porte le même nom qu’un document existant, Advanced Designer vous demandera si vous souhaitez mettre à jour le libellé du document existant ou importer le doublon comme un nouveau document. Si vous sélectionnez Mettre à jour le libellé :
  • En cas de champs portant le même nom, leur emplacement et leurs paramètres dans le document existant seront remplacés par ceux du document importé.
  • Tous les champs présents dans le document importé mais absents du document existant seront ajoutés au document existant.
Si vous sélectionnez Importer comme nouveaux documents, les doublons seront renommés et importés en conservant leur libellé.