Passer au contenu principal

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Un ensemble de documents « mixte » peut désigner deux choses dans Advanced Designer :
  • Un même ensemble qui contient à la fois des documents semi-structurés et non structurés (différents types de documents).
  • Un seul document qui présente une structure mixte — par exemple, un contrat non structuré avec des tableaux intégrés, des titres, des en-têtes ou des pieds de page.

Choisissez un scénario

ScénarioQuand l’utiliserActivités clés
Documents semi-structurés et non structurés dans un même ensembleLes deux relèvent d’un même type logique avec des champs de sortie communsClassify + IF + Fast Learning + Segmentation + Deep Learning for NLP
Cellules de tableau contenant des champsExtraire des valeurs à l’intérieur de cellules de tableau (p. ex., des noms dans un Closing Disclosure)Fast Learning + NER (+ Address Parsing)
Documents non structurés avec tableaux/titres/en-têtes/pieds de page intégrésPrincipalement des documents non structurés avec des fragments semi-structurésSegmentation + Extraction Rules
Chaque scénario ci-dessous suit une structure commune ; seules les activités que vous ajoutez au flux de traitement diffèrent.

Workflow type

1

Créer une compétence de document

Ouvrez Advanced Designer et cliquez sur Créer une compétence de document dans la page d’accueil.
2

Téléverser des documents

Dans l’onglet Documents, téléversez les documents que vous utiliserez pour configurer la compétence.
3

Définir les champs et étiqueter les documents

Dans l’onglet Fields, créez et configurez les champs que la compétence extraira. Étiquetez les documents dans la section Reference.
4

Ajouter et configurer des activités

Dans l’onglet Activities, ajoutez les activités adaptées à votre scénario (décrit ci-dessous). Ouvrez chaque activité dans l’Éditeur d’activité pour la configurer et l’entraîner.
5

Tester et publier

Cliquez sur Test Skill Using Selected Documents pour évaluer les résultats. Lorsque ceux-ci sont suffisamment bons, publier la compétence.

Documents semi-structurés et non structurés dans un même ensemble

Utilisez ce scénario lorsqu’une Compétence de document doit traiter à la fois des documents semi-structurés et non structurés — ils appartiennent au même type logique et partagent le même ensemble de champs de sortie. Classez chaque document avec une activité Classify By Text and Image, qui combine le texte et la géométrie pour prendre en charge les images de mauvaise qualité et les documents qui ne se distinguent que par des éléments graphiques (signatures, sceaux). Pour obtenir les meilleurs résultats, téléversez un nombre à peu près équivalent de documents pour chaque variante, afin que le classificateur dispose de données d’entraînement équilibrées. Ensuite, créez un branchement dans le flux à l’aide d’une activité IF :
Flux de traitement des documents avec Classify et branchement IF vers Fast Learning et Segmentation + Deep Learning for NLP

Cellules de tableau avec des champs intégrés au texte de la cellule

Utilisez ce scénario lorsque vous devez extraire des valeurs spécifiques à l’intérieur de cellules de tableau dans des documents semi-structurés — par exemple, le nom d’un emprunteur et une partie de son adresse intégrés dans une cellule de Closing Disclosure. Extrayez la cellule comme un bloc de texte unique avec une activité Fast Learning, puis exécutez des activités NLP sur ce bloc pour en extraire les champs intégrés :
Flux de traitement des documents avec Fast Learning alimentant les activités Named Entities (NER) et Address Parsing

Documents non structurés avec des tableaux, des titres, des en-têtes ou des pieds de page

Utilisez ce scénario pour des documents essentiellement non structurés (par exemple, des contrats) qui contiennent toutefois des fragments semi-structurés imbriqués, comme des tableaux, des titres, des en-têtes ou des pieds de page. Détectez les paragraphes de texte brut avec une activité Segmentation et les fragments semi-structurés avec une activité Extraction Rules. Une fois chaque fragment isolé, utilisez l’activité appropriée pour en extraire les champs.
Exemple de document avec des paragraphes de texte non structuré à côté d’un tableau semi-structuré

Classify By Text and Image

Classer les documents en combinant des caractéristiques textuelles et visuelles.

Activité Fast Learning

Extraire des champs de documents semi-structurés et de cellules de tableau.

Activité Segmentation

Isoler les paragraphes contenant des champs non structurés.

Activité Deep Learning for NLP

Extraire des entités personnalisées ou difficiles à distinguer dans du texte non structuré.

Activité Named Entities (NER)

Extraire des entités préentraînées comme des noms, des organisations et des dates.

Activité Extraction Rules

Définir une extraction fondée sur des règles pour des fragments semi-structurés.