Passer au contenu principal
ABBYY Vantage propose un mode d’apprentissage automatique pour le traitement des documents structurés, par exemple des documents où l’emplacement des champs est identique pour chaque exemplaire. Des exemples de tels documents incluent des questionnaires, des formulaires de demande et des déclarations d’impôt. Certains documents structurés peuvent comporter plusieurs variantes, avec de légères différences dans les champs et leur emplacement.

Exemples d’images

Form 1040 de l’IRS - 2020 Form 1040 de l’IRS - 2019 Deux variantes du formulaire 1040 de l’IRS pour les années 2020 et 2019.

Création de Skills pour les documents structurés

Vous pouvez créer des Skills pour traiter des documents structurés aussi bien dans Vantage que dans Advanced Designer. Cependant, pour modifier ces Skills, vous devrez utiliser Advanced Designer. Dans Vantage, vous pouvez créer un Skill pour le traitement de documents structurés en activant l’option Fixed-form documents pour ce Skill. Vous devrez également téléverser et annoter quelques formulaires vierges.
Remarque : Pour des instructions détaillées sur la création d’un Skill pour traiter des documents structurés comportant plusieurs variantes, voir Setting up a Document skill for processing structured documents.
Le Skill que vous créez dans Vantage apparaîtra dans Advanced Designer. Son flux de traitement de documents inclura une activité Forms conçue spécifiquement pour le traitement de documents structurés.
Remarque : Si vous n’avez pas activé l’option Fixed-form documents, le flux de traitement des documents de votre Skill se composera uniquement de l’activité Fast Learning.
Dans Advanced Designer, vous pouvez créer et modifier des Skills pour des documents structurés lorsque vous devez combiner le traitement de documents structurés avec d’autres technologies Vantage. Dans ce cas, une activité Forms doit être accompagnée d’autres activités créées et configurées dans Advanced Designer.
Remarque : Si votre flux de traitement de documents inclut une activité Forms accompagnée d’autres activités, ou s’il contient plusieurs activités Forms, vos options de modification dans Vantage se limiteront au changement des propriétés du Skill, et l’entraînement ne sera pas disponible. Pour des modifications plus avancées, utilisez Advanced Designer.

Extraction de données à partir de formulaires contenant des éléments non structurés ou des structures mixtes

Un document structuré peut parfois contenir un élément non structuré, comme un code-barres ou un cachet placé n’importe où sur le document, qui doit également être détecté. Un autre exemple est un document mixte : une partie est structurée, tandis qu’une autre est un tableau de longueur variable (par exemple, un tableau avec un nombre de lignes variable). Pour traiter ce type de documents, utilisez une activité Forms suivie d’une activité qui gère les éléments non structurés. Dans les étapes ci-dessous, nous utilisons une activité Forms pour traiter les champs structurés et une activité Extraction Rules pour détecter les codes-barres.

Étapes pour créer une Compétence de document

  1. Ouvrez Advanced Designer. Sur la page d’accueil, créez une nouvelle compétence en cliquant sur Create Document Skill.
  2. Accédez à l’onglet Activities et ajoutez une activité Forms au flux de traitement du document.
  3. Cliquez sur Activity Editor. Dans l’onglet Blank Form, téléversez un formulaire vierge d’exemple pour chaque variante de votre document (nous ne recommandons pas d’en téléverser plus de 10). Marquez les champs dont les données doivent être extraites. Pour des consignes de marquage, voir Labeling documents.
  4. Cliquez sur Train Activity.
  5. Cliquez sur l’onglet Test Set et téléversez des documents de test remplis. Assurez‑vous que tous les champs sont correctement marqués sur chaque document. Cliquez sur Test Activity. Une fois l’opération terminée, examinez les résultats.
  6. Revenez à l’onglet Activities et ajoutez une activité Extraction Rules au flux de traitement du document.
  7. Cliquez sur Activity Editor et configurez l’activité Extraction Rules.
  8. Cliquez sur Test Skill Using Selected Documents. Une fois l’opération terminée, examinez les résultats. Si les résultats vous conviennent, publiez votre compétence. Sinon, ajustez le marquage, puis réentraînez et testez de nouveau l’activité.

Travailler avec les tableaux et les groupes répétitifs

Lors du traitement de documents structurés, Vantage peut gérer les tableaux et les groupes répétitifs si le nombre maximal de lignes du tableau ou d’instances du groupe est connu à l’avance et si les limites du tableau ou du groupe sont fixes. Vous devrez étiqueter toutes les lignes susceptibles d’apparaître dans toutes les variantes du formulaire.
Remarque : Seules les lignes contenant des données seront affichées dans les résultats de traitement. Les lignes vides seront ignorées.
Si le nombre de lignes ou d’instances dans un groupe n’est pas connu à l’avance, vous devez utiliser une autre technologie Vantage.
Remarque : Actuellement, seuls les tableaux contenant des valeurs de type texte peuvent être gérés. Si votre tableau comporte des colonnes avec des cases à cocher ou des codes-barres, utilisez plutôt un groupe répétitif.

Extraction des données à partir de formulaires et de documents non structurés en un seul flux

Il arrive que des informations soient collectées à la fois à l’aide de formulaires et de documents non structurés. Par exemple, les réponses à un questionnaire peuvent être reçues soit sur des formulaires imprimés, soit sous forme de documents non structurés rédigés librement. Pour traiter un mélange de tels documents, utilisez une combinaison d’une activité Forms, qui traitera les formulaires, et d’une activité Fast Learning ou Extraction Rules, qui traitera les documents non structurés. Vous devez ensuite appliquer une activité Classify pour séparer les formulaires des documents non structurés.

Étapes pour créer une Compétence de document

  1. Ouvrez Advanced Designer. Sur la page d’accueil, créez une nouvelle compétence en cliquant sur Create Document Skill.
  2. Accédez à l’onglet Activities et ajoutez une activité Forms au flux de traitement de documents.
  3. Cliquez sur Activity Editor. Dans l’onglet Blank Form, chargez un formulaire vierge d’exemple et étiquetez les champs à partir desquels les données doivent être extraites. Pour des recommandations sur l’étiquetage, voir Labeling documents.
  4. Cliquez sur Train Activity.
  5. Cliquez sur l’onglet Test Set et chargez des documents de test remplis. Assurez-vous que tous les champs sont correctement étiquetés sur chaque document. Cliquez sur Test Activity. Une fois l’opération terminée, examinez les résultats.
  6. Accédez à l’onglet Activities et ajoutez une activité Fast Learning au flux de traitement de documents.
  7. Ouvrez Activity Editor pour configurer et entraîner l’activité.
  8. Accédez à l’onglet Activities et ajoutez une activité Classify au début du flux de traitement de documents.
  9. Cliquez sur Activity Editor et configurez l’activité Classify. Vous devrez créer une classe pour chaque variante de document, attribuer des classes à vos documents et entraîner l’activité.
  10. Revenez à l’onglet Activities et ajoutez une activité IF pour configurer une branche conditionnelle dans le flux de traitement de documents. Connectez cette activité aux activités Forms et Fast Learning.
  11. Cliquez sur Test Skill Using Selected Documents. Une fois l’opération terminée, examinez les résultats. Si vous êtes satisfait des résultats, publiez votre compétence. Sinon, ajustez l’étiquetage et réentraînez l’activité.