메인 콘텐츠로 건너뛰기
Vantage는 추출된 데이터를 정규화하여 데이터 표현을 일관되게 유지할 수 있습니다. 다음 데이터 유형을 정규화할 수 있습니다: field에서 추출된 데이터를 정규화하려면 해당 field의 데이터 유형을 지정해야 합니다. 이를 위해 다음을 수행합니다.
  1. 데이터 폼에서 field 옆에 있는 버튼을 클릭합니다.
  2. Field options 대화 상자에서 드롭다운 목록에서 원하는 데이터 유형을 선택합니다.
정규화가 올바르게 작동하려면, 정규화할 모든 데이터가 추출되도록 각 field에 대해 올바른 추가 속성을 선택해야 합니다. Field options 대화 상자의 Advanced 버튼을 클릭하여 field의 추가 속성을 수정할 수 있습니다. 자세한 내용은 Text field의 추가 속성을 참조하세요. 정규화된 값을 보려면 해당 field 위에 마우스를 올려 놓습니다. 정규화 예시

날짜 정규화

추출된 날짜에는 날짜와 시간이 어떤 형식으로든 포함될 수 있습니다. 다음 문자를 구분 기호로 사용할 수 있습니다: 점(.), 공백( ), 하이픈(-), 백슬래시(), 슬래시(/). 날짜를 정규화할 때 Vantage는 추출된 날짜를 표준화된 ISO 8601 형식으로 변환합니다:
  • 날짜의 경우 YYYY-MM-DD: 연도, 월, 일이 이 순서로 옵니다.
  • 시간의 경우 HH:MM:SS: 시, 분, 초가 이 순서로 옵니다.

정규화된 날짜의 예

추출된 데이터정규화된 데이터
15.06.20232023-06-15
2023/06/15 22:172023-06-15 22:17:00
06-15-20232023-06-15
02/11/20222022-02-11 또는 2022-11-02
참고: 해당 날짜 필드에 대해 Day-Month-Year 형식과 Month-Day-Year 형식이 모두 활성화되어 있는 경우, Vantage가 날짜를 모호함 없이 정규화하지 못할 수 있습니다. 이 경우 두 가지 가능한 날짜 중에서 선택하라는 메시지가 표시됩니다.
Saturday, December 3rd, 20222022-12-03
The second of May 20222022-05-02
참고: 날짜가 영어로, 그리고 숫자가 아닌 단어로 표기된 경우에는 Skill 설정에서 영어가 선택되어 있을 때에만 정규화됩니다.
Vantage가 다음과 같은 이유로 날짜를 정규화하지 못할 수 있습니다.
  • 날짜가 불완전한 경우. 예: “4:39 am” (시간 값은 날짜와 함께 추출된 경우에만 정규화됩니다).
  • 정확한 날짜 대신 시간을 나타내는 부사 표현이 사용된 경우. 예: “last month”, “a few days ago”.
  • 날짜나 시간 옆에 불필요한 단어나 문자가 함께 나타나는 경우. 예: “2016/06/15 22”.
  • 일반적이지 않은 날짜 표기가 사용된 경우. 예: “14 Jumada Al-Awwal 1445”.

숫자 정규화

추출된 숫자는 자릿수, 소수점 구분 기호, 퍼센트 기호 (%)를 포함할 수 있습니다. 다음 문자는 소수점 구분 기호로 사용할 수 있습니다: 점 (.), 쉼표 (,), 하이픈 (-), 등호 (=), 공백 ( ). 다음 문자는 천 단위(백만 단위 등) 구분 기호로 사용할 수 있습니다: 점 (.), 쉼표 (,), 작은따옴표 (’), 공백 ( ). 서양식 또는 인도식 자릿수 구분 체계를 사용하는 숫자는 정규화할 수 있습니다. 서양식 체계는 오른쪽에서 왼쪽으로 세 자리씩 숫자를 묶고, 쉼표를 사용해 천 단위와 백만 단위를 구분합니다. 인도식 체계도 쉼표를 사용하지만, 오른쪽에서 처음 세 자리를 묶은 뒤 그 이후 자릿수는 두 자리씩 묶어 만 단위, lakh, ten lakh, crore, ten crore 등으로 구분합니다. 어느 자릿수 구분 체계를 사용하든 숫자를 정규화할 때 Vantage는 추출된 숫자 데이터 string을 파싱하여, 아래 표에 표시된 것처럼 점 (.)을 사용해 정수 부분과 소수 부분을 구분하는 표준화된 형식으로 변환합니다.

정규화된 숫자 예시

추출된 데이터정규화된 데이터
12,345,67812345678
-12,345.678-12345.678
12.000012
1.0001000 또는 1
Tip: 점 뒤 부분에 세 자리 숫자가 있는 경우, 점이 천 단위 구분자인지, 아니면 정수부와 소수부를 나누는 소수점인지를 판단해 두 가능한 값 중 하나를 선택해야 합니다.
12,345.678 %12345.678
1,23,45,67,890 (Indian numbering system)1234567890
twenty-first21
참고: 숫자가 영어로 철자로만(단어 형태로) 쓰여 있는 경우, 스킬 설정에서 영어가 선택된 언어일 때에만 정규화됩니다. Vantage가 다음과 같은 이유로 숫자를 정규화하지 못할 수 있습니다:
  • 숫자 옆에 추가 단어 또는 문자가 함께 나타나는 경우. 예: “EURO12,345.678” 또는 “5 kilos”.
  • 소수부와 정수부, 또는 소수점과 천 단위 구분자 사이의 자릿수 개수가 불규칙한 경우. 예: “123,456,7890”. 이 경우, 소수 부분은 최대 3자리까지만 포함할 수 있습니다. 또한 “123,456,789”가 추출되면 정규화된 값은 “123456789”가 되고, “123,456,78”이 추출되면 정규화된 값은 “123456.78”이 됩니다.
  • 비정규(불규칙한) 숫자 표기가 사용된 경우.

금액 정규화

금액에는 숫자 값과 통화 기호가 모두 포함될 수 있습니다. 통화 기호는 금액 앞이나 뒤에 올 수 있습니다. 금액을 정규화할 때 Vantage는 추출된 통화 문자열(예: 통화 기호, 소수점, 숫자 구분 기호)을 파싱하고, 이를 표준화된 통화 형식으로 변환하여 통화 기호와 소수점 구분 기호의 일관성을 보장합니다. 통화 기호가 먼저 오고, 그 뒤에 number로 정규화된 금액이 옵니다. Vantage는 서로 다른 방식으로 표기된 여러 국가의 통화를 식별할 수 있습니다(예: 유로는 E, €, euros로 표기될 수 있음). 통화에 대해 정규화된 값은 추출된 텍스트에 있는 통화 기호 또는 이름과 정확히 일치합니다.

정규화된 금액 예시

Extracted dataNormalized data
12,345.678 EUROEURO 12345.678
12,345.678 ¥¥ 12345.678
13,87EE 13.87
13 euro 87euro 13.87
fifty dollarsdollars 50
₹1,23,455₹ 123455
참고: 금액이 영어로, 숫자가 아닌 영어 단어로 작성되어 있고 Skill 설정에서 영어가 선택된 경우에만 정규화됩니다.
예를 들어 “12 ttt”처럼 통화를 나타내는 잘못된 단어가 사용된 경우, Vantage가 금액을 정규화하지 못할 수 있습니다.

함께 보기

텍스트 필드