Cuándo usar scripts de extracción

A veces, los resultados de la extracción pueden mejorarse usando scripts de extracción junto con un modelo de NLP. Quizá le convenga usar scripts de extracción si:

Necesita extraer entidades de una tabla.
No tiene suficientes documentos de muestra para entrenar su modelo de NLP.
No está satisfecho con la calidad de la extracción en algunos campos.

Los scripts de extracción le permiten

Identificar fragmentos de texto que coincidan con
- determinadas expresiones regulares
- determinadas palabras o frases de diccionarios de usuario que aparezcan en el texto en cualquiera de sus formas flexionadas
- cualquiera de los objetos NER integrados:
Personas (NerPerson)
- Organizaciones (NerOrg)
- Ubicaciones (NerGeo)
- Direcciones (NerAddress)
- Montos monetarios (NerMoney)
- Fechas (NerDate)
Duración (NerDuration, disponible solo para textos en ruso e inglés)
- Números de cuenta (NERAccountNumber, disponible solo para textos en ruso) Nota: Los objetos NerMoney, NerDate, NerDuration y NERAccountNumber se usan solo en scripts de extracción.
Ejecutar consultas en texto y fragmentos de texto donde las palabras y frases de búsqueda pueden aparecer en cualquiera de sus formas flexionadas.
Guardar cualquier fragmento de texto identificado en los campos del documento.
Extraer direcciones y los siguientes componentes de dirección de los documentos:
- Código postal (NerZipCode)
- País (NerCountry)
- Estado (NerState)
- Ciudad (NerCity)
- Calle (NerStreet)

Para crear un script de extracción o seleccionar los diccionarios de usuario que se usarán, siga estos pasos:

Abra el editor de Definición de Document.
Seleccione una sección del documento, haga clic con el botón derecho sobre ella y, en el menú contextual, haga clic en Propiedades….
Haga clic en la pestaña NLP.
En scripts de extracción, haga clic en Create…
En el cuadro de diálogo script de extracción.
- Haga clic en el botón Load… para cargar un diccionario de usuario, o
- Haga clic en el botón Edit… para abrir el editor de scripts.

Los diccionarios de usuario deben estar codificados en UTF-8 con BOM o ANSI.

Extracción de los componentes de dirección de un documento

Para extraer los componentes de dirección, haga lo siguiente:

Especifique el área del documento que contiene la dirección.

Le recomendamos restringir el área de búsqueda con un campo de FlexiLayout y luego usar esa área como origen para un script de extracción. Para obtener más información, consulte Restricciones de búsqueda. Una dirección solo puede contener una instancia de cada uno de los siguientes componentes: código postal, país, estado, ciudad y calle. Sin embargo, un script de extracción puede devolver varias instancias de un mismo componente. Cuanto más precisamente defina el área de búsqueda de una dirección, menos instancias se devolverán. 2. Aplique el script de extracción adecuado. Puede buscar componentes de dirección en todo el campo o en una parte del campo. Al usar los métodos ParseAddressInPosition( resultCollectionNamePrefix : string, startPos : int, endPos : int ) y ParseAddressInSpan( resultCollectionNamePrefix : string, span : IInterval ) para analizar una dirección, cada palabra de los componentes detectados recibe los siguientes atributos durante la indexación, que luego pueden usarse en consultas XML:

El nombre de la colección con el formato [resultCollectionNamePrefix]_[NerTypeOfComponent].
El prefijo resultCollectionNamePrefix.
El tipo del objeto NER.

Consulte a continuación una consulta XML de ejemplo para extraer direcciones.

Actualmente, solo puede extraer componentes de direcciones alemanas y de US.

​Extracción de los componentes de dirección de un documento

Extracción de los componentes de dirección de un documento