Uso del NLP para procesar documentos no estructurados

El procesamiento del lenguaje natural (NLP) es una subdisciplina de la inteligencia artificial y la lingüística computacional. El NLP se ocupa del análisis y la síntesis computacionales de los lenguajes naturales. Una posible aplicación práctica del NLP es la extracción de datos relevantes a partir de texto. La manera en que se procesa un documento depende de su estructura. A nuestros efectos, podemos distinguir tres tipos de documentos: estructurados, semiestructurados y no estructurados.

Los documentos estructurados contienen un conjunto de campos de datos bien definidos cuyo diseño, número y ubicación no cambian de un documento a otro. Algunos ejemplos de documentos estructurados son los formularios, cuestionarios y solicitudes.
Los documentos semiestructurados contienen un conjunto de campos de datos cuyo diseño, número y ubicación pueden variar considerablemente de un documento a otro. A veces también se denominan “documentos flexibles”. Un ejemplo de documentos semiestructurados son las facturas, en las que el número de elementos y el formato suelen depender de la empresa emisora.
Los documentos no estructurados contienen información que no está estructurada de ningún modo. Tampoco contienen campos de datos explícitos. Algunos ejemplos de documentos no estructurados son contratos, cartas y pedidos.

Para obtener más información sobre los tipos de documentos, consulte Tipos de documentos procesados con ABBYY FlexiCapture. La tecnología NLP debe utilizarse para procesar documentos no estructurados. Por ejemplo, el NLP puede usarse para extraer los siguientes tipos de datos de un contrato: números de referencia, nombres de las partes, fechas importantes (fecha de firma, fecha de entrada en vigor, plazo y fecha de terminación), precio del contrato, comisiones, condiciones de pago, etc. Para extraer información de tablas y de documentos estructurados y semiestructurados, deben utilizarse otros métodos (por ejemplo, FlexiLayouts). Extracción de información de textos Los productos de software de ABBYY utilizan modelos NLP para extraer información de textos no estructurados. Un modelo NLP indica al programa qué entidades deben extraerse de un documento. Cuando entrena un modelo NLP con documentos de ejemplo, se determinan el área temática de sus textos y el algoritmo de extracción adecuado para que la información que necesita pueda extraerse con mayor eficiencia. El esfuerzo necesario para crear un modelo NLP depende de la diversidad de sus documentos, del contexto disponible para el programa y de la complejidad y la cantidad de la información que necesita extraer. La extracción de datos de textos no estructurados requiere una gran capacidad de procesamiento. Los textos más largos tardarán más en analizarse. Sin embargo, a menudo la información necesaria puede encontrarse en una determinada página o en un determinado párrafo de un texto muy extenso. El proceso de encontrar esas partes útiles del texto se denomina segmentación. Este proceso requiere mucho menos tiempo y recursos informáticos que la extracción de entidades, por lo que a veces puede resultar conveniente segmentar un documento antes de extraer información de él. Para obtener más información sobre cómo identificar segmentos útiles, consulte Creación de un modelo NLP de segmentación. Para procesar documentos no estructurados con NLP, complete los siguientes pasos:

Instale el módulo NLP.
Cree una Definición de Document.
Cree y entrene un modelo NLP.
Como alternativa, cargue un modelo NLP existente en su Definición de Document.