Passer au contenu principal

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Pour scinder un flux de pages issu d’un fichier contenant plusieurs documents en documents distincts prêts à être traités, créez une Skill Document Splitter. Les Skills Document Splitter ne peuvent être créés que dans Advanced Designer. Les scénarios ci-dessous combinent les activités Classify, Extraction Rules et Splitter Script pour identifier les limites entre documents.

Choisissez un scénario

ScénarioQuand l’utiliserActivités clés
Documents du même type dans un même fluxPlusieurs factures dans un même fichierExtraction Rules + Splitter Script (+ Classify)
Séparer les documents et conserver les annexesLes documents comportent des pages annexes explicatives à conserverClassify + Splitter Script (+ Extraction Rules)
Séparer les documents et déterminer leur typeLe flux contient des documents de types différents (par ex., un dossier de demande de prêt)Classify + Extraction Rules + Splitter Script
Réordonner et nettoyer les pagesLes pages arrivent dans le désordre, avec des pages vides ou des pages parasitesExtraction Rules + Splitter Script

Documents du même type dans un même flux

Utilisez ce scénario lorsqu’un fichier contient plusieurs documents du même type — par exemple, une pile de factures d’un même fournisseur pour une période de facturation. Chaque facture possède son propre numéro et peut comporter des numéros de page ; utilisez ces données pour repérer les limites entre les documents.
  • Ajoutez une activité Extraction Rules pour extraire les numéros de facture et les numéros de page.
  • Ajoutez une Classify activity si la première page de chaque document se distingue visuellement des autres.
  • Utilisez l’activité Splitter Script pour comparer les valeurs extraites d’une page à l’autre et déterminer où commence chaque nouveau document.

Séparer les documents et conserver les annexes

Utilisez ce scénario lorsque des documents sont accompagnés de pages explicatives (annexes) qui doivent être conservées, mais dont il ne faut pas extraire les données.
  • Utilisez une Classify activity pour étiqueter chaque page comme une page du document principal ou comme une annexe.
  • Vous pouvez éventuellement ajouter une activité Extraction Rules pour signaler les pages ne contenant aucune donnée extractible ; il s’agit probablement d’annexes.
  • Utilisez l’activité Splitter Script pour rattacher chaque annexe à son document parent ou l’exporter comme document distinct.

Séparer les documents et déterminer leur type

Utilisez ce scénario lorsque le flux contient des documents de différents types — par exemple, un dossier de demande de prêt comprenant des documents d’identité, des justificatifs de revenus, des relevés bancaires et des factures de services publics.
  • Utilisez une Classify activity pour attribuer à chaque page son type de document.
  • Ajoutez une activité Extraction Rules pour extraire toute donnée indiquant le début d’un nouveau document.
  • Utilisez l’activité Splitter Script pour définir des règles permettant à la fois de segmenter et d’étiqueter chaque document de sortie.

Réorganiser et nettoyer les pages

Utilisez ce scénario lorsque les pages arrivent dans le désordre ou qu’elles comprennent des pages vides ou parasites provenant d’une numérisation mal effectuée. La réorganisation n’est possible que si les pages comportent un indicateur d’ordre — par exemple, des numéros de page imprimés.
  • Ajoutez un champ pour extraire les numéros de page (ou tout autre indicateur d’ordre).
  • Ajoutez un champ qui détecte si la page contient du texte — les pages qui n’en contiennent pas peuvent être considérées comme vides ou parasites.
  • Utilisez l’activité Splitter Script pour réorganiser les pages et rediriger les pages vides/parasites vers un document de sortie distinct.

Créer le Skill Document Splitter

Flux de traitement du Skill Document Splitter avec les activités Classify, Extraction Rules et Splitter Script
1

Créer un Skill Document Splitter

Ouvrez Advanced Designer et cliquez sur Create Splitter Skill sur la page d’accueil.
2

Téléverser des documents

Dans l’onglet Documents, téléversez vos fichiers. Chaque ensemble de documents doit contenir les fichiers d’une seule transaction métier. Les fichiers source sont convertis en pages distinctes — chaque activité, à l’exception de l’activité Splitter Script, traite ensuite chaque page individuellement.
3

Ajouter des activités de classification et d’extraction

Configurez le flux de traitement pour extraire les données nécessaires à l’identification des limites et des types de documents. Ajoutez une Classify activity lorsque le flux contient plusieurs types de documents, ou lorsque les premières pages se distinguent visuellement des suivantes. Ajoutez des champs et d’autres activités selon les besoins pour capturer les données qui aident à séparer des documents du même type ou à étiqueter des classes de documents.
4

Configurer l’activité Splitter Script

Ajoutez des types de documents dans le volet Splitter Script Properties, puis écrivez le script qui transforme le flux de pages en un ensemble de documents. Le script a accès à chaque page de la transaction et peut lire les données produites par d’autres activités pour déterminer quelles pages commencent un nouveau document.
5

Tester et publier

Cliquez sur Test Skill Using Selected Documents pour évaluer les résultats. Lorsque ceux-ci sont satisfaisants, publier la compétence.

activité Splitter Script

Définir les limites des documents en analysant les données extraites de chaque page.

activités Classify

Étiqueter chaque page avec son type de document ou son statut de première page.

activité Extraction Rules

Extraire des identifiants tels que les numéros de page, les numéros de facture ou les mots-clés du document.

Skills Document Splitter

Référence sur la structure, les paramètres et la publication du Skill Document Splitter.