Introducing ABBYY FlexiLayout Studio
Captura de datos de documentos no estructurados
Capture datos de documentos no estructurados con FlexiLayouts: descripciones formalizadas que localizan campos variables donde las Definiciones de Document fijas no funcionan.
Un documento incluye campos que deben rellenarse a mano o mediante un dispositivo de impresión. Los documentos pueden tener una o más páginas.
Los documentos pueden dividirse en “fijos” y “semiestructurados”. En el caso de los documentos “fijos”, los campos idénticos se encuentran exactamente en la misma ubicación en todos los documentos de un lote. Los documentos fijos pueden procesarse mediante aplicaciones de procesamiento documental que leen información de los campos de datos y la exportan a bases de datos, sistemas de gestión documental o aplicaciones de archivado. Los datos de estos documentos se capturan mediante una Definición de Document, que describe la ubicación de los campos y el tipo de información que pueden contener. Una misma Definición de Document se utiliza para capturar datos de todos los documentos de un lote determinado. Esta indica a la aplicación de procesamiento documental dónde buscar datos concretos en un documento y cómo comprobar que los datos se han capturado correctamente.
En el caso de los documentos “semiestructurados”, la ubicación de los mismos campos de datos varía de un documento a otro. Además, puede que no todos los campos estén presentes en todos los documentos de un lote (p. ej., algunos documentos pueden contener un campo de firma, mientras que otros no). Un buen ejemplo de documento semiestructurado son los distintos documentos de pago.
Las cartas, los formularios de registro y los documentos legales son otros buenos ejemplos de documentos semiestructurados. Los documentos del mismo tipo tendrán estructuras similares, pero aun así puede haber diferencias entre sus campos. Por ejemplo, las cartas contendrán el nombre y la dirección del remitente en la parte superior de la página; los documentos legales contendrán los nombres de las partes y sus datos, la fecha de entrada en vigor, etc.
Dado que la ubicación exacta de los campos en los documentos semiestructurados no se conoce de antemano, no es posible capturar datos de estos documentos mediante una Definición de Document. Esto significa que los sistemas tradicionales de captura de datos no pueden extraer datos de este tipo de documentos.
ABBYY FlexiLayout Studio le permite describir formalmente documentos no estructurados y proporcionar al programa un algoritmo de búsqueda que le permite encontrar campos de datos y extraer información de ellos. Una descripción formal se basa en las relaciones mutuas entre los campos de un documento no estructurado y en la naturaleza de los datos contenidos en esos campos. Las descripciones creadas pueden probarse en imágenes de documentos para asegurarse de que la información pueda extraerse de forma fiable.
Las descripciones formalizadas creadas mediante ABBYY FlexiLayout Studio se denominan FlexiLayouts. Para empezar a capturar datos de documentos no estructurados mediante un FlexiLayout, debe exportarlo a una aplicación de captura de datos como ABBYY FlexiCapture. La tecnología ABBYY FlexiCapture ofrece una amplia gama de capacidades de captura de datos, lo que le permite procesar prácticamente cualquier tipo de documento.
