Pour scinder un flux de pages issu d’un fichier contenant plusieurs documents en documents distincts prêts à être traités, créez une Skill Document Splitter. Les Skills Document Splitter ne peuvent être créés que dans Advanced Designer. Les scénarios ci-dessous combinent les activités Classify, Extraction Rules et Splitter Script pour identifier les limites entre documents.Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
Choisissez un scénario
| Scénario | Quand l’utiliser | Activités clés |
|---|---|---|
| Documents du même type dans un même flux | Plusieurs factures dans un même fichier | Extraction Rules + Splitter Script (+ Classify) |
| Séparer les documents et conserver les annexes | Les documents comportent des pages annexes explicatives à conserver | Classify + Splitter Script (+ Extraction Rules) |
| Séparer les documents et déterminer leur type | Le flux contient des documents de types différents (par ex., un dossier de demande de prêt) | Classify + Extraction Rules + Splitter Script |
| Réordonner et nettoyer les pages | Les pages arrivent dans le désordre, avec des pages vides ou des pages parasites | Extraction Rules + Splitter Script |
Documents du même type dans un même flux
- Ajoutez une activité Extraction Rules pour extraire les numéros de facture et les numéros de page.
- Ajoutez une Classify activity si la première page de chaque document se distingue visuellement des autres.
- Utilisez l’activité Splitter Script pour comparer les valeurs extraites d’une page à l’autre et déterminer où commence chaque nouveau document.
Séparer les documents et conserver les annexes
- Utilisez une Classify activity pour étiqueter chaque page comme une page du document principal ou comme une annexe.
- Vous pouvez éventuellement ajouter une activité Extraction Rules pour signaler les pages ne contenant aucune donnée extractible ; il s’agit probablement d’annexes.
- Utilisez l’activité Splitter Script pour rattacher chaque annexe à son document parent ou l’exporter comme document distinct.
Séparer les documents et déterminer leur type
- Utilisez une Classify activity pour attribuer à chaque page son type de document.
- Ajoutez une activité Extraction Rules pour extraire toute donnée indiquant le début d’un nouveau document.
- Utilisez l’activité Splitter Script pour définir des règles permettant à la fois de segmenter et d’étiqueter chaque document de sortie.
Réorganiser et nettoyer les pages
- Ajoutez un champ pour extraire les numéros de page (ou tout autre indicateur d’ordre).
- Ajoutez un champ qui détecte si la page contient du texte — les pages qui n’en contiennent pas peuvent être considérées comme vides ou parasites.
- Utilisez l’activité Splitter Script pour réorganiser les pages et rediriger les pages vides/parasites vers un document de sortie distinct.
Créer le Skill Document Splitter

Créer un Skill Document Splitter
Ouvrez Advanced Designer et cliquez sur Create Splitter Skill sur la page d’accueil.
Téléverser des documents
Dans l’onglet Documents, téléversez vos fichiers. Chaque ensemble de documents doit contenir les fichiers d’une seule transaction métier. Les fichiers source sont convertis en pages distinctes — chaque activité, à l’exception de l’activité Splitter Script, traite ensuite chaque page individuellement.
Ajouter des activités de classification et d’extraction
Configurez le flux de traitement pour extraire les données nécessaires à l’identification des limites et des types de documents. Ajoutez une Classify activity lorsque le flux contient plusieurs types de documents, ou lorsque les premières pages se distinguent visuellement des suivantes. Ajoutez des champs et d’autres activités selon les besoins pour capturer les données qui aident à séparer des documents du même type ou à étiqueter des classes de documents.
Configurer l’activité Splitter Script
Ajoutez des types de documents dans le volet Splitter Script Properties, puis écrivez le script qui transforme le flux de pages en un ensemble de documents. Le script a accès à chaque page de la transaction et peut lire les données produites par d’autres activités pour déterminer quelles pages commencent un nouveau document.
Tester et publier
Cliquez sur Test Skill Using Selected Documents pour évaluer les résultats. Lorsque ceux-ci sont satisfaisants, publier la compétence.
activité Splitter Script
Définir les limites des documents en analysant les données extraites de chaque page.
activités Classify
Étiqueter chaque page avec son type de document ou son statut de première page.
activité Extraction Rules
Extraire des identifiants tels que les numéros de page, les numéros de facture ou les mots-clés du document.
Skills Document Splitter
Référence sur la structure, les paramètres et la publication du Skill Document Splitter.
