Pular para o conteúdo principal
O Vantage pode normalizar dados extraídos para garantir uniformidade na representação dos dados. Os seguintes tipos de dados podem ser normalizados: Para normalizar dados extraídos de um campo, você deve especificar seu tipo de dados. Para fazer isso:
  1. No formulário de dados, clique no botão ao lado do campo.
  2. Na caixa de diálogo Opções do Field, selecione o tipo de dados desejado na lista suspensa.
Para que a normalização funcione, certifique-se de selecionar as propriedades adicionais corretas para cada campo, de modo que todos os dados a serem normalizados sejam extraídos. Você pode modificar as propriedades adicionais de um campo clicando no botão Avançado na caixa de diálogo Opções do Field. Para mais informações, consulte Propriedades adicionais do campo de texto. Para ver um valor normalizado, passe o cursor sobre o seu campo: Exemplo de normalização

Normalizando datas

As datas extraídas podem incluir data e hora em qualquer formato. Podem ser usados como separadores: o ponto (.), o espaço ( ), o hífen (-), a barra invertida () e a barra (/). Ao normalizar datas, o Vantage converte as datas extraídas para o formato ISO 8601 padronizado:
  • YYYY-MM-DD para datas: ano seguido de mês e de dia.
  • HH:MM:SS para horário: horas seguidas de minutos e de segundos.

Exemplos de datas normalizadas

Dados extraídosDados normalizados
15.06.20232023-06-15
2023/06/15 22:172023-06-15 22:17:00
06-15-20232023-06-15
02/11/20222022-02-11 ou 2022-11-02
Observação: Se os formatos de data Dia-Mês-Ano e Mês-Dia-Ano estiverem ativados para a data, o Vantage pode não conseguir normalizá-la de forma inequívoca. Nesse caso, será oferecida uma escolha entre duas datas possíveis.
Saturday, December 3rd, 20222022-12-03
The second of May 20222022-05-02
Observação: Datas escritas por extenso serão normalizadas somente se estiverem em inglês e se o inglês estiver selecionado nas configurações da skill.
O Vantage pode não conseguir normalizar datas pelos seguintes motivos:
  • A data está incompleta, por exemplo: “4:39 am” (valores de hora só serão normalizados se extraídos junto com suas datas).
  • São usados advérbios de tempo em vez de datas exatas, por exemplo: “last month”, “a few days ago”.
  • Palavras ou caracteres extras aparecem ao lado da data ou hora, por exemplo: “2016/06/15 22”.
  • São usadas representações de data incomuns, por exemplo: “14 Jumada Al-Awwal 1445”.

Normalizando números

Os números extraídos podem conter dígitos, separadores decimais e o caractere de porcentagem (%). Podem ser usados como separadores decimais: o ponto (.), a vírgula (,), o hífen (-), o sinal de igual (=) e o espaço ( ). Podem ser usados como separadores de milhares (milhões, etc.): o ponto (.), a vírgula (,), o apóstrofo (’), e o espaço ( ). Números que utilizam os sistemas de agrupamento de dígitos ocidental ou indiano podem ser normalizados. O sistema ocidental agrupa dígitos de três em três, da direita para a esquerda, usando vírgulas para separar milhares e milhões. O sistema indiano também usa vírgulas; ele agrupa os três primeiros dígitos a partir da direita e, em seguida, passa a agrupar dígitos de dois em dois para dezenas de milhares, lakhs, dezenas de lakhs, crores, dezenas de crores e assim por diante. Ao normalizar números em qualquer um dos sistemas de numeração, Vantage analisa strings extraídas de dados numéricos e as converte para o formato padronizado mostrado na tabela abaixo, usando o ponto (.) para separar as partes inteira e fracionária.

Exemplos de números normalizados

Dados extraídosDados normalizados
12,345,67812345678
-12,345.678-12345.678
12.000012
1.0001000 ou 1
Dica: Se a parte após o ponto tiver três dígitos, será necessário escolher um dos dois valores possíveis, decidindo se o ponto separa milhares ou a parte inteira da parte fracionária.
12,345.678 %12345.678
1,23,45,67,890 (sistema de numeração indiano)1234567890
twenty-first21
Observação: Números escritos por extenso serão normalizados somente se estiverem em inglês e se o inglês estiver selecionado nas configurações da Skill. O Vantage pode não conseguir normalizar números pelos seguintes motivos:
  • Palavras ou caracteres extras aparecem ao lado do número, por exemplo: “EURO12,345.678” ou “5 kilos”.
  • Há um número irregular de dígitos entre as partes fracionária e inteira, ou entre as partes decimal e de milhares, por exemplo: “123,456,7890”. Nesse caso, a parte fracionária deve conter 3 dígitos ou menos. Além disso, se “123,456,789” for extraído, o valor normalizado será “123456789” e, se “123,456,78” for extraído, o valor normalizado será “123456.78”.
  • São usadas representações numéricas irregulares.

Normalizando valores monetários

Um valor monetário pode conter tanto um valor numérico quanto um símbolo de moeda. O símbolo de moeda pode ser colocado antes ou depois do valor. Ao normalizar valores monetários, o Vantage analisa as strings monetárias extraídas (como símbolos de moeda, casas decimais ou separadores de dígitos) e as converte em um formato de moeda padronizado, garantindo uniformidade nos símbolos de moeda e nos separadores decimais: o símbolo de moeda vem primeiro, seguido pelo valor normalizado como um número. O Vantage pode identificar as moedas de diferentes países que são denotadas de maneiras distintas (por exemplo, euros podem ser representados por E, €, ou euros). O valor normalizado da moeda corresponderá exatamente ao símbolo ou ao nome presente no texto extraído.

Exemplos de valores monetários normalizados

Dados extraídosDados normalizados
12,345.678 EUROEURO 12345.678
12,345.678 ¥¥ 12345.678
13,87EE 13.87
13 euro 87euro 13.87
fifty dollarsdollars 50
₹1,23,455₹ 123455
Observação: Valores escritos por extenso serão normalizados apenas se estiverem em inglês e se o inglês estiver selecionado nas configurações da skill.
Vantage pode não conseguir normalizar valores monetários se forem usadas palavras inválidas para denotar uma moeda, por exemplo: “12 ttt”.

Veja também

Campo de texto