Passer au contenu principal
Pour l’extraction de données depuis des documents semi-structurés, Advanced Designer est utilisé pour des ensembles de documents complexes (par exemple, ceux qui comportent de nombreuses variantes de documents très différentes). Le flux de traitement des documents inclura des activités visant à extraire des données depuis des documents semi-structurés.

De nouvelles variantes de documents peuvent apparaître après le développement

Supposons que vous deviez traiter des documents du même type avec des mises en page différentes et que vous ne puissiez pas fournir toutes les variantes lors du développement du Skill. C’est notamment le cas lorsque vous créez un Skill pour traiter des factures de différents fournisseurs. En général, chaque fournisseur a son propre modèle de facture, et vous pouvez être certain que de nouveaux modèles apparaîtront à l’avenir. Si vous disposez d’un volume suffisant d’exemples de documents, vous pouvez utiliser une activité Deep Learning suivie d’une activité Fast Learning. L’activité Deep Learning sera chargée de traiter les variantes de documents imprévues, tandis que l’activité Fast Learning apprendra les variantes spécifiques fournies par le client, ce qui se traduira par une qualité encore meilleure pour ces documents. L’activité Fast Learning peut également être entraînée via la boucle de rétroaction Online Learning issue de la relecture manuelle. Deep Learning with Fast Learning

Étapes pour créer une Compétence de document

  1. Ouvrez Advanced Designer. Créez une nouvelle compétence en cliquant sur Create Document Skill sur la page d’accueil.
  2. Utilisez l’onglet Documents qui s’ouvre pour téléverser les documents qui serviront à configurer votre compétence.
  3. Une fois vos images téléversées, accédez à l’onglet Fields et définissez une structure de champs pour la compétence en créant et en configurant les champs qui seront extraits à l’aide de la compétence. Étiquetez les documents dans la section Reference.
  4. Accédez à l’onglet Activities et ajoutez une activité Deep Learning pour des documents semi-structurés au flux de traitement de documents.
  5. Ouvrez l’Activity Editor pour configurer et entraîner l’activité Deep Learning. Gardez à l’esprit que l’ensemble de documents utilisé pour l’entraînement de cette activité doit contenir au moins 100 documents étiquetés.
  6. Revenez à l’onglet Activities et ajoutez une activité Fast Learning au flux de traitement de documents.
  7. Ouvrez l’Activity Editor pour configurer et entraîner l’activité.
  8. Testez votre compétence en cliquant sur Test Skill Using Selected Documents et analysez les résultats obtenus.
  9. Lorsque les résultats des tests sont suffisamment satisfaisants, publiez votre compétence.

Certains documents contiennent des structures qui ne peuvent pas être extraites à l’aide de l’apprentissage automatique

Supposons que la majorité des variantes de documents de votre jeu de documents puissent être traitées avec les activités Deep Learning et Fast Learning. Toutefois, quelques documents peuvent comporter des tableaux imbriqués ou être, d’une autre manière, complètement différents de tous les autres documents utilisés pour l’entraînement. Pour traiter ces documents, vous devez les séparer du jeu de documents principal à l’aide de l’activité Classification :
  • Utilisez l’activité Classify By Company si les variantes de documents sont émises par différentes entreprises et que le nom et/ou l’adresse de l’entreprise figure sur le document. Par exemple, lors du traitement de relevés bancaires provenant de différentes banques, vous pouvez facilement fournir une liste de ces banques issue d’une base de données, en prenant en charge toutes les variantes devant être traitées séparément.
  • Utilisez l’activité Classify By Text and Image dans tous les autres cas. Cette technologie de classification multimodale utilise le texte, la structure spatiale et les motifs d’image pour distinguer les différentes variantes de documents entre elles, et reconnaîtra ainsi facilement les variantes qui s’écartent de la norme.
Utilisez une activité IF pour créer une branche dans le flux de traitement des documents et isoler les variantes présentant une qualité de traitement médiocre (par exemple, comme mentionné précédemment, des documents avec des tableaux imbriqués), puis utilisez une activité Extraction Rules pour extraire des champs et des tableaux ciblés à partir de ces documents. IF avec Deep Learning et Extraction Rules

Étapes pour créer une Compétence de document

  1. Ouvrez Advanced Designer. Créez une nouvelle compétence en cliquant sur Create Document Skill sur la page d’accueil.
  2. Utilisez l’onglet Documents qui s’ouvre pour importer des documents qui serviront à configurer votre compétence. Pour vous assurer que votre jeu de documents est suffisant pour configurer un classificateur, ajoutez un nombre à peu près égal de documents pour chaque variante.
  3. Une fois vos images importées, accédez à l’onglet Fields et définissez une structure de champs pour la compétence en créant et en configurant les champs qui seront extraits à l’aide de la compétence. Annotez les documents dans la section Reference.
  4. Accédez à l’onglet Activities et ajoutez une activité Classify au flux de traitement des documents.
  5. Ouvrez Activity Editor et configurez l’activité Classify. Pour ce faire, créez une classe correspondante pour chaque variante, associez ces classes à vos documents et entraînez l’activité.
  6. Revenez à l’onglet Activities et définissez un branchement conditionnel pour le flux de traitement en ajoutant une activité IF, ainsi que des activités distinctes pour traiter chaque variante de document.
  7. Configurez les activités que vous avez créées.
  8. Testez votre compétence en cliquant sur Test Skill Using Selected Documents et analysez les résultats obtenus.
  9. Lorsque les résultats des tests sont suffisamment concluants, publiez votre compétence.

Vous n’avez pas assez de documents pour utiliser l’apprentissage automatique

Supposons que vous deviez extraire des données à partir d’un petit nombre de variantes de document, mais que vous ne disposiez pas d’assez de documents pour entraîner une activité d’apprentissage profond. En revanche, vous possédez un savoir‑faire qui vous permet de décrire les principes essentiels d’extraction de données pour chaque variante. Par exemple, si vous créez une Skill pour traiter des formulaires fiscaux de différentes années, vous pouvez répartir tous vos documents en variantes distinctes à l’aide d’une activité Classify. Cette étape doit être suivie d’un ensemble d’activités Extraction Rules, chacune étant adaptée à une variante donnée. Ajoutez une Fast Learning activity si vous souhaitez que Vantage continue d’entraîner votre Skill. Multiple Extraction Rules

Étapes pour créer une Compétence de document

  1. Ouvrez Advanced Designer. Créez une nouvelle compétence en cliquant sur Create Document Skill sur la page d’accueil.
  2. Utilisez l’onglet Documents qui s’ouvre pour importer les documents qui serviront à configurer votre compétence. Pour vous assurer que votre jeu de documents est suffisant pour entraîner un classificateur, ajoutez un nombre à peu près égal de documents pour chaque variante.
  3. Une fois vos images importées, accédez à l’onglet Fields et définissez la structure des Field de la compétence en créant et en configurant les fields qui seront extraits à l’aide de la compétence. Étiquetez les documents dans la section Reference.
  4. Accédez à l’onglet Activities et ajoutez une activité Classify au flux de traitement des documents.
  5. Ouvrez l’Activity Editor et configurez l’activité Classify. Pour ce faire, créez une classe correspondante pour chaque variante, associez ces classes à vos documents et entraînez l’activité.
  6. Revenez à l’onglet Activities et créez une activité Extraction Rules. Ajoutez d’autres activités Extraction Rules à cet élément de workflow. Configurez des conditions de branchement en sélectionnant le champ rempli par l’activité Classify et en faisant correspondre ses valeurs aux activités Extraction Rules. Vous pouvez aussi ignorer cette étape pour les documents de certaines classes qui ne nécessitent pas de règles d’extraction particulières.
  7. Configurez les activités d’extraction que vous avez créées.
  8. Testez votre compétence en cliquant sur Test Skill Using Selected Documents et analysez les résultats obtenus.
  9. Lorsque les résultats des tests sont satisfaisants, publiez votre compétence.