Passer au contenu principal
Pour scinder un flux de pages provenant de fichiers contenant plusieurs documents en documents distincts prêts pour un traitement ultérieur, créez un Skill de séparation de documents.

Séparer des documents du même type

Supposons que vous disposiez d’un fichier contenant plusieurs documents du même type (par exemple, un ensemble de factures d’un même fournisseur sur une période donnée). Chaque facture aura son propre numéro et pourra comporter des numéros de page imprimés. Ces données, entre autres, peuvent être utilisées pour séparer les documents les uns des autres. Vous pouvez utiliser une activité Extraction Rules pour configurer l’extraction des numéros de facture et des numéros de page. Vous pouvez également utiliser une activité Classify si la première page d’un document diffère sensiblement des autres pages. Vous pouvez ensuite utiliser l’activité Splitter Script pour analyser les valeurs extraites et déterminer si la page actuelle est la première page d’un nouveau document.

Séparer les documents et supprimer les annexes

Supposons que les documents à traiter soient accompagnés de documents explicatifs qui doivent être archivés, mais dont aucune donnée ne doit être extraite. Dans ce cas, vous pouvez utiliser une activité Classify pour classer les pages en documents du type requis et en annexes. Vous pouvez également utiliser une activité Extraction Rules pour vérifier si des données utiles sont présentes sur une page. Une page ne contenant aucune donnée utile est probablement une page d’annexe. Ensuite, vous pouvez utiliser l’activité Splitter Script pour ajouter les pages d’annexe à chaque document ou les placer dans des documents séparés.

Séparer les documents et déterminer leur type

Supposons que vous disposiez d’un fichier contenant plusieurs documents de types différents (par exemple, une demande de prêt accompagnée de pièces d’identité, d’attestations de revenus, de relevés bancaires, de factures de services publics et d’autres documents). Dans ce cas, vous pouvez utiliser une activité Classify pour classer chaque Page, puis une activité Extraction Rules pour extraire les données nécessaires pour déterminer si la Page actuelle est la première Page d’un nouveau document. Vous pouvez ensuite utiliser l’activité Splitter Script pour définir des règles de séparation des documents et de détermination de leur type.

Réorganiser les Pages et supprimer les pages vides

Supposons que vous deviez réorganiser des pages ou supprimer des pages vides ou indésirables issues d’une numérisation désordonnée. En pratique, la réorganisation n’est possible que si les pages contiennent des données indiquant l’ordre correct (par exemple des numéros de page). Dans ce cas, vous pouvez créer un champ pour extraire les numéros de page. Vous pouvez aussi créer un champ qui recherche du texte sur une page afin d’écarter les pages vides comme indésirables. En utilisant l’activité Splitter Script, vous pouvez réorganiser les pages selon leur numéro et créer un document distinct qui contiendra toutes les pages vides ou indésirables. Document Splitter Workflow

Étapes pour créer une compétence de séparation de documents

  1. Ouvrez ABBYY Vantage Advanced Designer et créez une nouvelle compétence de séparation de documents en cliquant sur Create Splitter Skill sur la page d’accueil.
  2. Dans l’onglet Documents, importez vos fichiers. Chaque ensemble de documents doit contenir des fichiers appartenant à une seule transaction métier. L’ensemble des fichiers source sera converti en Pages distinctes. Notez que toutes les activités, à l’exception de l’activité Splitter Script, traitent chaque Page séparément.
  3. Configurez le flux de traitement des documents pour extraire les données qui aideront à déterminer le type de document de chaque Page dans la transaction et à identifier où se termine un document et où commence le suivant. a. Configurez une activité Classify pour classer les Pages si le flux de Pages source contient plusieurs types de documents ou si la première Page de chaque document diffère sensiblement des autres Pages. b. Si nécessaire, annotez des champs ou ajoutez d’autres activités pour extraire des données pouvant être utilisées pour séparer des documents du même type ou déterminer la classe d’un document.
  4. Configurez l’activité Splitter Script en ajoutant des types de documents dans le volet Splitter Script Properties et en configurant le script qui convertira le flux de Pages en un ensemble de documents. Le script a accès à toutes les Pages d’une transaction et peut analyser les données des autres activités pour déterminer quelles Pages sont les premières Pages de nouveaux documents.
  5. Testez votre compétence en cliquant sur Test Skill Using Selected Documents, puis analysez les résultats.
  6. Lorsque vous êtes satisfait des résultats, publiez votre compétence.