跳转到主要内容
Vantage 可以对提取的数据进行规范化,以确保数据表示一致。可规范化的数据类型包括: 要对从某个字段提取的数据进行规范化,必须指定其数据类型。请按以下步骤操作:
  1. 在数据表单中,点击该 field 旁的按钮。
  2. Field options 对话框中,从下拉列表选择所需的数据类型。
为使规范化生效,请务必为每个 field 选择正确的附加属性,以确保需要规范化的所有数据均被提取。您可以在 Field options 对话框中点击 Advanced 按钮修改该 field 的附加属性。更多信息,请参见文本字段的附加属性 要查看规范化后的值,将鼠标悬停在其 field 上: 规范化示例

规范化日期

提取的日期可能包含任意格式的日期和时间。以下字符可用作分隔符:点 (.)、空格 ( )、连字符 (-)、反斜杠 () 和正斜杠 (/). 在规范化日期时,Vantage 会将提取的日期转换为标准化的 ISO 8601 格式
  • 日期:YYYY-MM-DD(年-月-日)。
  • 时间:HH:MM:SS(时:分:秒)。

规范化日期示例

提取的数据规范化的数据
15.06.20232023-06-15
2023/06/15 22:172023-06-15 22:17:00
06-15-20232023-06-15
02/11/20222022-02-11 或 2022-11-02
注意: 如果同时为该日期启用了 Day-Month-YearMonth-Day-Year 日期格式,Vantage 可能无法将日期明确规范化。在这种情况下,系统会提供两个可能日期供您选择。
Saturday, December 3rd, 20222022-12-03
The second of May 20222022-05-02
注意: 仅当日期以英文书写且在 Skill 设置中选择了英语时,用文字写出的日期才会被规范化。
Vantage 可能因以下任一原因无法规范化日期:
  • 日期不完整,例如:“4:39 am”(仅当时间与其对应的日期一并提取时,时间值才会被规范化)。
  • 使用了时间副词而非精确日期,例如:“last month”、“a few days ago”。
  • 日期或时间旁出现了额外的词或字符,例如:“2016/06/15 22”。
  • 使用了不常见的日期表示法,例如:“14 Jumada Al-Awwal 1445”。

数字规范化

提取的数字可能包含数字字符、小数分隔符以及百分号(%)。以下字符可用作小数分隔符:点号(.)、逗号(,)、连字符(-)、等号(=)以及空格( )。以下字符可用作千位(百万等)分隔符:点号(.)、逗号(,)、单引号(‘)以及空格( )。 采用西式或印度式数字分组系统的数字都可以被规范化。西式分组从右向左每三位一组,使用逗号分隔千位、百万位等。印度式分组也使用逗号,从右侧开始先分组三位,随后对更高位按每两位分组,用于表示万、十万(lakh、lakhs)、千万(crore、tens of crores)等。 在对任一分组系统的数字进行规范化时,Vantage 会解析提取的数值字符串,并将其转换为下表所示的标准格式,其中点号(.)用于分隔整数部分和小数部分。

规范化数字示例

提取的数据规范化的数据
12,345,67812345678
-12,345.678-12345.678
12.000012
1.0001000 或 1
提示: 若小数点后的部分为三位数字,您需要在两种可能值中进行选择,判断小数点是分隔千位,还是分隔整数与小数部分。
12,345.678 %12345.678
1,23,45,67,890 (印度数字分组系统)1234567890
twenty-first21
注意: 仅当数字以英文拼写且在 Skill 设置中选择了英语时,才会对其进行规范化。 Vantage 可能无法规范化数字,原因包括但不限于:
  • 数字旁有额外的词或字符,例如:“EURO12,345.678”或“5 kilos”。
  • 整数与小数部分或小数分隔与千位分隔之间的位数不规则,例如:“123,456,7890”。在这种情况下,小数部分必须不超过 3 位。此外,若提取到“123,456,789”,规范化值为“123456789”;若提取到“123,456,78”,规范化值为“123456.78”。
  • 使用了不规则的数字表示方式。

规范化货币金额

一笔金额可以同时包含数值和币种符号。币种符号可以位于金额前或后。 在规范化货币金额时,Vantage 会解析提取到的货币字符串(例如币种符号、小数点或数字分隔符),并将其转换为标准化的货币格式,以确保币种符号和小数分隔符的一致性:币种符号在前,其后为规范化为数字的金额。 Vantage 能识别以不同方式表示的各国货币(例如,欧元可表示为 E、€ 或 euros)。币种的规范化值将与提取文本中的币种符号或名称完全一致。

规范化金额示例

提取的数据规范化的数据
12,345.678 EUROEURO 12345.678
12,345.678 ¥¥ 12345.678
13,87EE 13.87
13 euro 87euro 13.87
fifty dollarsdollars 50
₹1,23,455₹ 123455
注意: 仅当金额以英文形式书写且在 Skill 设置中选择了英语时,才会进行规范化。
如果使用无效词语表示币种,Vantage 可能无法规范化金额,例如:“12 ttt”。

另请参见

Text 字段