Ejemplos de scripts de extracción

Estos ejemplos muestran cómo usar scripts de extracción con el objeto FieldExtractor para detectar entidades nombradas, ejecutar consultas XML y desglosar los componentes de la dirección en campos separados.

Ejemplo de script de extracción en C#

El siguiente ejemplo de C# ejecuta varios métodos de extracción en el objeto FieldExtractor. Busca palabras clave y personas, escribe segmentos de texto en campos y ejecuta una consulta XML para frases del diccionario de dos palabras.

FieldExtractor.ExtractRegularExpression( "(grant(s))|(convey to)|(grant)", "keyWords" );
FieldExtractor.ExtractWordsFromUserDictionary("dictionary", "English");
FieldExtractor.ExtractNerObjects();

// Acceder a los objetos identificados por nombre de colección
IExtractedObjects personObjects = FieldExtractor.ExtractedObjects( "NerPerson" );
IExtractedObjects keyWordsObjects = FieldExtractor.ExtractedObjects( "keyWords" );

// Buscar persona coincidente a la izquierda de la palabra clave
for( int i = 0; i < keyWordsObjects.Count; i++ ) {
    IExtractedObject keyWord = personObjects.Item( i );
    IInterval span = keyWord.Span;
    IExtractedObject grantor = personObjects.Find( span.StartPos, false );
    string grantorName = grantor.Value;
    if ( grantorName.Length > 2 && grantorName != "Doug Darrell" ) {
        FieldExtractor.PutSpanToField( grantor.Span, "NlpField1" );
    }
}

// Acceder al texto fuente
string sourceText = FieldExtractor.SourceText;

// Escribir cualquier intervalo de texto en el campo
FieldExtractor.PutTextToField( 0, sourceText.Length - 1, "NlpField2" );

// Consulta XML que busca frases de dos palabras del diccionario
string query = "<Request> " +
    "<Query>" +
    "<Contain MaxDistance=\"1\">" +
    "<Required>" +
    "<Form><Attributes><Attribute>dictionary1</Attribute></Attributes></Form>" +
    "</Required>" +
    "<Required>" +
    "<Form><Attributes><Attribute>dictionary2</Attribute></Attributes></Form>" +
    "</Required>" +
    "</Contain>" +
    "</Query>" +
    "</Request>";

// Ejecutar la consulta, obtener la colección de resultados y guardarlos en el campo
FieldExtractor.RunQueryAndSaveToField( query, "query1", "NlpField3");

// Ejecutar la consulta y obtener la colección de resultados
IExtractedObjects queryResults1 = FieldExtractor.RunQuery( query, "query2" );

// Forma alternativa de acceder a los resultados de la consulta tras ejecutarla
IExtractedObjects queryResults2 = FieldExtractor.QueryResults( "query2" );

Parámetros del script

Name	Tipo	Permisos	Value
`FieldExtractor`	IFieldExtractor	Lectura	Identifica campos en el texto de un documento

Script de ejemplo de extracción de direcciones del campo completo

Este script se ejecuta sobre el campo de origen completo. Analiza la dirección y extrae el código postal y la calle en campos separados.

// Analizar la dirección
this.ParseAddress();

// Extraer los componentes en campos separados
var zip = this.ExtractedObjects( "NerZipCode" );
var street = this.ExtractedObjects( "NerStreet" );

for( var i = 0; i < zip.Count; i++ ) {
    this.PutSpanToField( zip.Item(i).Span, "ZipCode" );
}

for( var j = 0; j < street.Count; j++ ) {
    this.PutSpanToField( street.Item(j).Span, "Street" );
}

Script de ejemplo de extracción de direcciones para una parte de un campo

Este script se ejecuta para una parte del campo de origen. Detecta el objeto de dirección de NER, lo descompone en componentes y guarda el código postal y la calle en campos separados.

// Detectar todos los objetos NER en el texto del campo o sección
this.ExtractNerObjects();

// Extraer el objeto Address
var address = this.ExtractedObjects( "NerAddress" );

// Dividir la dirección en componentes
for( var addressSpanIndex = 0; addressSpanIndex < address.Count; addressSpanIndex++ ) {
    this.PutSpanToField( address.Item(addressSpanIndex).Span, "Address" );

    // Asignar un prefijo único a los nombres de todas las colecciones de componentes para la dirección indicada
    var collectionName = "nerAddress" + String(addressSpanIndex);

    // Extraer la dirección
    this.ParseAddressInPosition( collectionName, address.Item(addressSpanIndex).Span.StartPos, address.Item(addressSpanIndex).Span.EndPos );

    // Guardar los componentes en campos independientes
    var zip = this.ExtractedObjects( collectionName, "NerZipCode" );
    var street = this.ExtractedObjects( collectionName, "NerStreet" );
    RunQueryAndSaveToField
    for( var i = 0; i < zip.Count; i++ ) {
        this.PutSpanToField( zip.Item(i).Span, "ZipCode" );
    }
    for( var j = 0; j < street.Count; j++ ) {
        this.PutSpanToField( street.Item(j).Span, "Street" );
    }
}

​Ejemplo de script de extracción en C#

​Parámetros del script

​Script de ejemplo de extracción de direcciones del campo completo

​Script de ejemplo de extracción de direcciones para una parte de un campo

Ejemplo de script de extracción en C#

Parámetros del script

Script de ejemplo de extracción de direcciones del campo completo

Script de ejemplo de extracción de direcciones para una parte de un campo