跳转到主要内容
Vantage 可以对提取的数据进行规范化,以确保数据表示的一致性。可以进行规范化的数据类型包括: 要对从字段中提取的数据进行规范化,必须先指定其数据类型。为此,请执行以下操作:
  1. 在数据表单中,单击字段旁边的按钮。
  2. Field options 对话框中,从下拉列表中选择所需的数据类型。
要使规范化生效,请务必为每个字段选择正确的附加属性,以便提取出所有需要规范化的数据。您可以在 Field options 对话框中单击 Advanced 按钮来修改字段的附加属性。有关更多信息,请参见 Text 字段的附加属性 要查看规范化后的值,请将鼠标指针悬停在对应字段上: 规范化示例

规范化日期

提取的日期可以包含任意格式的日期和时间。可以用作分隔符的字符包括:点号 (.)、空格 ( )、连字符 (-)、反斜杠 () 和斜杠 (/)。 在规范化日期时,Vantage 会将提取的日期转换为标准化的 ISO 8601 格式
  • YYYY-MM-DD 表示日期:年份在前,其次是月份,最后是日。
  • HH:MM:SS 表示时间:小时在前,其次是分钟,最后是秒。

规范化日期示例

提取的数据规范化后的数据
15.06.20232023-06-15
2023/06/15 22:172023-06-15 22:17:00
06-15-20232023-06-15
02/11/20222022-02-11 或 2022-11-02
注意: 如果为该日期同时启用了 日-月-年 (Day-Month-Year)月-日-年 (Month-Day-Year) 日期格式,Vantage 可能无法将该日期无歧义地规范化。在这种情况下,系统会让您在两个可能的日期之间进行选择。
Saturday, December 3rd, 20222022-12-03
The second of May 20222022-05-02
注意: 仅当日期以英文书写且在技能设置中选择了英文时,这类文字形式的日期才会被规范化。
Vantage 在以下任一情况下都可能无法规范化日期:
  • 日期不完整,例如:“4:39 am”(只有在与日期一起被提取时,时间值才会被规范化)。
  • 使用时间副词而非精确日期,例如:“last month”、“a few days ago”。
  • 日期或时间旁边出现额外的词语或字符,例如:“2016/06/15 22”。
  • 使用不常见的日期表示形式,例如:“14 Jumada Al-Awwal 1445”。

数字标准化

提取的数字可以包含数字、小数分隔符以及百分号 (%)。以下字符可用作小数分隔符:点号 (.)、逗号 ( , )、连字符 (-)、等号 (=) 和空格 ( )。以下字符可用作千位(百万等)分隔符:点号 (.)、逗号 ( , )、单引号 (’) 和空格 ( )。 使用西方或印度数字分组系统的数字都可以进行标准化。西方系统从右到左每三位一组,用逗号分隔千位和百万位。印度系统同样使用逗号,也从右边开始先将前三位分为一组,但之后按两位一组来分组,用于表示数万、拉克(lakh,十万)、十拉克、克若尔(crore,一千万)、十克若尔等。 在对任一数字分组系统中的数字进行标准化时,Vantage 会解析提取出的数值字符串,并将其转换为标准化格式,如下表所示,其中点号 (.) 用于分隔整数部分和小数部分。

规范化数字示例

提取的数据规范化后的数据
12,345,67812345678
-12,345.678-12345.678
12.000012
1.0001000 或 1
**提示:**如果小数点后有三位数字,则需要在这两个可能的值中进行选择,判断小数点是用于分隔千位,还是用于分隔整数部分和小数部分。
12,345.678 %12345.678
1,23,45,67,890 (Indian numbering system)1234567890
twenty-first21
**注意:**只有当数字以英文单词形式书写且在技能设置中选择了英语时,才会对其进行规范化。 Vantage 可能由于以下任一原因而无法规范化数字:
  • 数字旁出现额外的单词或字符,例如:“EURO12,345.678” 或 “5 kilos”。
  • 小数部分与整数部分,或小数位与千位之间的数字位数不规则,例如:“123,456,7890”。在这种情况下,小数部分必须包含不超过 3 位数字。此外,如果提取的是 “123,456,789”,其规范化值为 “123456789”;如果提取的是 “123,456,78”,其规范化值为 “123456.78”。
  • 使用了不规则的数字表示形式。

规范化货币金额

一笔款项的金额可以同时包含数值和货币符号。货币符号可以位于金额之前或之后。 在规范化货币金额时,Vantage 会解析提取到的货币金额字符串(例如货币符号、小数点或数字分隔符),并将其转换为标准化的货币格式,从而统一货币符号和小数分隔符:货币符号在前,后面是规范化为数字的金额。 Vantage 能够识别以不同方式表示的各国货币(例如,欧元可以表示为 E、€ 或 euros)。货币字段的规范化值将与提取文本中的货币符号或名称完全一致。

规范化后的金额示例

提取的数据规范化的数据
12,345.678 EUROEURO 12345.678
12,345.678 ¥¥ 12345.678
13,87EE 13.87
13 euro 87euro 13.87
fifty dollarsdollars 50
₹1,23,455₹ 123455
注意: 只有在金额以英文书写且在技能设置中选择了英语的情况下,这些金额才会被规范化。
如果用于表示货币的词语无效,Vantage 可能无法对金额进行规范化,例如:“12 ttt”。

另请参见

Text 字段