Capture de données depuis des documents non structurés

Un document contient des champs à remplir à la main ou par machine. Les documents peuvent comporter une ou plusieurs pages. On peut distinguer les documents à structure fixe et les documents semi-structurés.

Documents à structure fixe

Dans les documents à structure fixe, les champs identiques se trouvent exactement au même emplacement dans tous les documents d’un lot. Les documents à structure fixe peuvent être traités par des applications de traitement des documents qui lisent les informations contenues dans les champs de données et les exportent vers des bases de données, des systèmes de gestion documentaire ou des applications d’archivage. Les données sont capturées à partir de documents à structure fixe à l’aide d’une Document Definition, qui décrit les emplacements des champs et le type d’informations qu’ils peuvent contenir. La même Document Definition est utilisée pour capturer les données de tous les documents d’un lot donné. Elle indique à l’application de traitement des documents où rechercher des données spécifiques dans un document et comment vérifier que les données ont été correctement capturées.

Documents semi-structurés

Dans les documents semi-structurés, la position de champs de données identiques varie d’un document à l’autre. De plus, tous les champs ne sont pas nécessairement présents dans tous les documents d’un lot (par exemple, certains documents peuvent contenir un champ de signature, tandis que d’autres n’en contiennent pas). Les différents documents de paiement en sont de bons exemples. Les lettres, les formulaires d’inscription et les documents juridiques sont d’autres bons exemples de documents semi-structurés. Les documents d’un même type ont une structure similaire, mais il peut subsister des différences au niveau de leurs champs. Par exemple, les lettres comportent le nom et l’adresse de l’expéditeur en haut de la page, et les documents juridiques comportent le nom des parties, leurs informations et la date d’effet. Comme l’emplacement exact des champs dans les documents semi-structurés n’est pas connu à l’avance, il n’est pas possible de capturer les données de ces documents à l’aide d’une Document Definition. Cela signifie que les systèmes traditionnels de capture de données ne peuvent pas extraire de données de ce type de documents.

Comment les FlexiLayouts capturent les données des documents semi-structurés

ABBYY FlexiLayout Studio vous permet de décrire formellement des documents non structurés et de fournir à l’application de capture de données un algorithme de recherche, afin qu’elle puisse localiser les champs de données et en extraire les informations. Une description formelle repose sur les relations entre les champs d’un document non structuré et sur la nature des données qu’ils contiennent. Vous pouvez tester les descriptions que vous créez sur des images de documents afin de vérifier que les informations peuvent être extraites de manière fiable. Les descriptions formalisées créées à l’aide d’ABBYY FlexiLayout Studio sont appelées FlexiLayouts. Pour commencer à capturer des données depuis des documents non structurés à l’aide d’un FlexiLayout, vous devez l’exporter vers une application de capture de données telle qu’ABBYY FlexiCapture. La technologie ABBYY FlexiCapture offre un large éventail de fonctionnalités de capture de données, ce qui vous permet de traiter pratiquement tout type de document.

À propos d’ABBYY FlexiLayout™ Studio

Créer un FlexiLayout

⌘I

Introducing ABBYY FlexiLayout Studio

Program interface

Projects

Batches

FlexiLayouts

Multi-page FlexiLayout

Pre-recognition

Elements

Blocks

Working with tables

Hypotheses and trees of hypotheses

Debugging the FlexiLayout

Classification

Export

FlexiLayout language

Tips and tricks

Appendix

Tutorial

Capture de données depuis des documents non structurés

Documents à structure fixe

Documents semi-structurés

Comment les FlexiLayouts capturent les données des documents semi-structurés

​Documents à structure fixe

​Documents semi-structurés

​Comment les FlexiLayouts capturent les données des documents semi-structurés

Documents à structure fixe

Documents semi-structurés

Comment les FlexiLayouts capturent les données des documents semi-structurés