Saltar al contenido principal
Vantage puede normalizar los datos extraídos para garantizar la uniformidad en su representación. Se pueden normalizar los siguientes tipos de datos: Para normalizar los datos extraídos de un campo, debe especificar su tipo de datos. Para hacerlo:
  1. En el formulario de datos, haga clic en el botón junto al campo.
  2. En el cuadro de diálogo Field options, seleccione el tipo de datos deseado en la lista desplegable.
Para que la normalización funcione, asegúrese de seleccionar las propiedades adicionales correctas para cada campo, de modo que se extraigan todos los datos que se van a normalizar. Puede modificar las propiedades adicionales de un campo haciendo clic en el botón Advanced en el cuadro de diálogo Field options. Para obtener más información, consulte Propiedades adicionales del campo de texto. Para ver un valor normalizado, sitúe el cursor sobre su campo: Ejemplo de normalización

Normalización de fechas

Las fechas extraídas pueden incluir fecha y hora en cualquier formato. Se pueden usar los siguientes caracteres como separadores: el punto (.), el espacio ( ), el guion (-), la barra invertida (), y la barra (/). Al normalizar las fechas, Vantage convierte las fechas extraídas a un formato ISO 8601 estandarizado:
  • YYYY-MM-DD para fechas: año seguido de mes y de día.
  • HH:MM:SS para horas: horas seguidas de minutos y de segundos.

Ejemplos de fechas normalizadas

Datos extraídosDatos normalizados
15.06.20232023-06-15
2023/06/15 22:172023-06-15 22:17:00
06-15-20232023-06-15
02/11/20222022-02-11 o 2022-11-02
Nota: Si los formatos de fecha Día-Mes-Año y Mes-Día-Año están habilitados para la fecha, Vantage puede no poder normalizarla de forma inequívoca. En ese caso, se presentará una opción entre dos fechas posibles.
Saturday, December 3rd, 20222022-12-03
The second of May 20222022-05-02
Nota: Las fechas escritas con palabras solo se normalizarán si están en inglés y si el inglés está seleccionado en la configuración de la skill.
Vantage puede no poder normalizar fechas por cualquiera de los siguientes motivos:
  • La fecha está incompleta, por ejemplo: “4:39 am” (los valores de hora solo se normalizarán si se extraen junto con sus fechas).
  • Se usan adverbios de tiempo en lugar de fechas exactas, por ejemplo: “el mes pasado”, “hace unos días”.
  • Aparecen palabras o caracteres adicionales junto a la fecha u hora, por ejemplo: “2016/06/15 22”.
  • Se usan representaciones de fecha poco comunes, por ejemplo: “14 Jumada Al-Awwal 1445”.

Normalización de números

Los números extraídos pueden contener dígitos, separadores decimales y el signo de porcentaje (%). Se pueden utilizar los siguientes caracteres como separadores decimales: el punto (.), la coma (,), el guion (-), el signo igual (=) y el espacio ( ). Se pueden utilizar los siguientes caracteres como separadores de miles (millones, etc.): el punto (.), la coma (,), la comilla simple (’) y el espacio ( ). Se pueden normalizar números que usan los sistemas de agrupación de dígitos occidental o indio. El sistema occidental agrupa los dígitos de tres en tres, de derecha a izquierda, y usa comas para separar miles y millones. El sistema indio también usa comas; primero agrupa los tres dígitos desde la derecha y luego continúa agrupando de dos en dos para decenas de miles, lakhs, decenas de lakhs, crores, decenas de crores, y así sucesivamente. Al normalizar números en cualquiera de estos sistemas, Vantage analiza las cadenas extraídas de datos numéricos y las convierte al formato estandarizado que se muestra en la tabla a continuación, utilizando el punto (.) para separar las partes entera y fraccionaria.

Ejemplos de números normalizados

Datos extraídosDatos normalizados
12,345,67812345678
-12,345.678-12345.678
12.000012
1.0001000 o 1
Tip: Si la parte después del punto tiene tres dígitos, deberá elegir uno de los dos valores posibles y decidir si el punto separa los miles o la parte entera de la fraccionaria.
12,345.678 %12345.678
1,23,45,67,890 (sistema de numeración indio)1234567890
twenty-first21
Nota: Los números escritos con palabras se normalizarán solo si están escritos en inglés y si se selecciona inglés en la configuración de la skill. Vantage puede no poder normalizar números por cualquiera de las siguientes razones:
  • Aparecen palabras o caracteres adicionales junto al número; por ejemplo: “EURO12,345.678” o “5 kilos”.
  • Hay un número irregular de dígitos entre las partes fraccionaria y entera, o entre las partes decimal y de miles; por ejemplo: “123,456,7890”. En este caso, la parte fraccionaria debe contener 3 dígitos o menos. Además, si se extrae “123,456,789”, el valor normalizado será “123456789”, y si se extrae “123,456,78”, el valor normalizado será “123456.78”.
  • Se utilizan representaciones numéricas irregulares.

Normalización de montos de dinero

Un monto de dinero puede incluir tanto un valor numérico como un símbolo de divisa. El símbolo de divisa puede colocarse antes o después del monto. Al normalizar montos de dinero, Vantage analiza las cadenas monetarias extraídas (como símbolos de divisa, decimales o separadores de dígitos) y las convierte a un formato de divisa estandarizado, garantizando uniformidad en los símbolos de divisa y en los separadores decimales: el símbolo de divisa aparece primero, seguido del monto normalizado como número. Vantage puede identificar las divisas de distintos países que se expresan de diversas maneras (por ejemplo, el euro puede representarse como E, €, o euros). El valor normalizado de la divisa coincidirá exactamente con el símbolo o el nombre de la divisa presentes en el texto extraído.

Ejemplos de montos de dinero normalizados

Datos extraídosDatos normalizados
12,345.678 EUROEURO 12345.678
12,345.678 ¥¥ 12345.678
13,87EE 13.87
13 euro 87euro 13.87
fifty dollarsdollars 50
₹1,23,455₹ 123455
Nota: Los montos escritos con palabras solo se normalizarán si están en inglés y si se selecciona inglés en la configuración de la skill.
Vantage puede no poder normalizar montos de dinero si se usan palabras no válidas para denotar una divisa, por ejemplo: “12 ttt”.

Véase también

Campo de texto