跳轉到主要內容
Vantage 可以將擷取的資料正規化,以確保資料呈現的一致性。可正規化的資料類型包括: 若要正規化從欄位擷取的資料,必須先指定其資料類型。請依下列步驟操作:
  1. 在資料表單中,按一下欄位旁邊的按鈕。
  2. Field options 對話方塊中,從下拉式清單選取所需的資料類型。
為了讓正規化功能正常運作,請務必為每個欄位選擇正確的附加屬性,以確保所有要正規化的資料都能被擷取。您可以在 Field options 對話方塊中按一下 Advanced 按鈕來修改欄位的附加屬性。欲了解更多資訊,請參閱 Text 欄位的附加屬性 若要查看正規化後的值,請將游標懸停在對應欄位上: Normalization Example

正規化日期

擷取出的日期可以包含任意格式的日期和時間。可使用下列字元作為分隔符號:句點 (.)、空格 ( )、連字號 (-)、反斜線 () 和斜線 (/)。 在正規化日期時,Vantage 會將擷取出的日期轉換為標準化的 ISO 8601 格式
  • YYYY-MM-DD 表示日期:年後接月,再接日。
  • HH:MM:SS 表示時間:時後接分,再接秒。

正規化日期範例

擷取的資料正規化後的資料
15.06.20232023-06-15
2023/06/15 22:172023-06-15 22:17:00
06-15-20232023-06-15
02/11/20222022-02-11 或 2022-11-02
注意: 如果同時為日期啟用了 日-月-年 (Day-Month-Year)月-日-年 (Month-Day-Year) 的日期格式,Vantage 可能無法明確地將該日期正規化。在這種情況下,系統會提供兩個可能的日期供您選擇。
Saturday, December 3rd, 20222022-12-03
The second of May 20222022-05-02
注意: 以文字拼寫的日期,只有在以英文書寫且在 skill 設定中選擇了英文時,才會被正規化。
Vantage 可能因以下任一原因而無法將日期正規化:
  • 日期不完整,例如:「4:39 am」(時間值只有在與其日期一併擷取時才會被正規化)。
  • 使用時間副詞而不是確切日期,例如:「last month(上個月)」、「a few days ago(幾天前)」。
  • 在日期或時間旁出現多餘的文字或字元,例如:「2016/06/15 22」。
  • 使用不常見的日期表示方式,例如:「14 Jumada Al-Awwal 1445」。

數值正規化

擷取的數值可以包含數字、小數分隔符號以及百分比符號 (%)。以下字元可用作小數分隔符號:句點 (.)、逗號 ( , )、連字號 (-)、等號 (=) 以及空格 ( )。以下字元可用作千位(百萬等)分隔符號:句點 (.)、逗號 ( , )、單引號 (’) 以及空格 ( )。 使用西式或印度式位數分組系統的數值都可以正規化。西式系統自右向左每三位數分組,並使用逗號分隔千位與百萬位。印度式系統同樣使用逗號,也會先自右側起將前三位數分組,但之後改為每兩位數分組,用於表示萬、十萬、拉克(lakh)、十拉克、克若爾(crore)、十克若爾等數量級。 在對任一種位數系統的數值進行正規化時,Vantage 會解析擷取出的數值 string,並將其轉換為下表所示的標準化格式,其中使用句點 (.) 分隔整數與小數部分。

正規化數值的範例

擷取的資料正規化的資料
12,345,67812345678
-12,345.678-12345.678
12.000012
1.0001000 或 1
提示: 如果小數點後有三位數,您需要在兩個可能的值中選擇一個,判斷小數點是用來分隔千位數,還是用來分隔整數部分與小數部分。
12,345.678 %12345.678
1,23,45,67,890 (Indian numbering system)1234567890
twenty-first21
注意: 以文字寫出的數字,只有在以英文書寫且在 skill 設定中選擇英文時才會被正規化。 Vantage 可能無法正規化數字的原因包括:
  • 數字旁出現額外的文字或字元,例如:“EURO12,345.678” 或 “5 kilos”。
  • 整數與小數部分,或千位與小數位之間的數字位數不規則,例如:“123,456,7890”。在此情況下,小數部分必須包含 3 位或更少的數字。另外,如果擷取到 “123,456,789”,正規化值將為 “123456789”;如果擷取到 “123,456,78”,正規化值將為 “123456.78”。
  • 使用了不規則的數字表示方式。

正規化金額

一筆金額可以同時包含數值與貨幣符號。貨幣符號可以出現在金額之前或之後。 在正規化金額時,Vantage 會解析擷取出的金額字串(例如含有貨幣符號、小數點或數字分隔符的字串),並將其轉換為標準化的貨幣格式,確保貨幣符號與小數分隔符的一致性:貨幣符號會先出現,其後是正規化為數字的金額。 Vantage 可以識別以不同方式表示的各國貨幣(例如歐元可以表示為 E、€ 或 euros)。貨幣的正規化值將與擷取文字中的貨幣符號或名稱完全相符。

正規化後的金額範例

抽取的資料正規化後的資料
12,345.678 EUROEURO 12345.678
12,345.678 ¥¥ 12345.678
13,87EE 13.87
13 euro 87euro 13.87
fifty dollarsdollars 50
₹1,23,455₹ 123455
注意: 以文字方式書寫的金額,只有在以英文書寫,且在 skill 設定中選擇英文時,才會進行正規化。
如果使用不正確的詞彙來表示貨幣單位,例如:「12 ttt」,Vantage 可能無法對金額進行正規化。

相關內容

Text 欄位