- Necesita extraer entidades de una tabla.
- No tiene suficientes documentos de muestra para entrenar su modelo de NLP.
- No está satisfecho con la calidad de la extracción en algunos campos.
-
Identificar fragmentos de texto que coincidan con
- determinadas expresiones regulares
- determinadas palabras o frases de diccionarios de usuario que aparezcan en el texto en cualquiera de sus formas flexionadas
- cualquiera de los objetos NER integrados:
-
Personas (NerPerson)
- Organizaciones (NerOrg)
- Ubicaciones (NerGeo)
- Direcciones (NerAddress)
- Montos monetarios (NerMoney)
- Fechas (NerDate)
-
Duración (NerDuration, disponible solo para textos en ruso e inglés)
- Números de cuenta (NERAccountNumber, disponible solo para textos en ruso) Nota: Los objetos NerMoney, NerDate, NerDuration y NERAccountNumber se usan solo en scripts de extracción.
- Ejecutar consultas en texto y fragmentos de texto donde las palabras y frases de búsqueda pueden aparecer en cualquiera de sus formas flexionadas.
- Guardar cualquier fragmento de texto identificado en los campos del documento.
-
Extraer direcciones y los siguientes componentes de dirección de los documentos:
- Código postal (NerZipCode)
- País (NerCountry)
- Estado (NerState)
- Ciudad (NerCity)
- Calle (NerStreet)
- Abra el editor de Definición de Document.
- Seleccione una sección del documento, haga clic con el botón derecho sobre ella y, en el menú contextual, haga clic en Propiedades….
- Haga clic en la pestaña NLP.
- En Extraction Scripts, haga clic en Create…
- En el cuadro de diálogo Extraction Script,
- Haga clic en el botón Load… para cargar un diccionario de usuario, o
- Haga clic en el botón Edit… para abrir el editor de scripts.
Los diccionarios de usuario deben estar codificados en UTF-8 con BOM o ANSI.
Extracción de los componentes de dirección de un documento
- Especifique el área del documento que contiene la dirección.
- El nombre de la colección con el formato [resultCollectionNamePrefix]_[NerTypeOfComponent].
- El prefijo resultCollectionNamePrefix.
- El tipo del objeto NER.
Actualmente, solo puede extraer componentes de direcciones alemanas y de US.
