メインコンテンツへスキップ
Vantage は、抽出データを正規化してデータ表現の一貫性を確保できます。正規化できるデータ型は次のとおりです: field から抽出されたデータを正規化するには、そのデータ型を指定します。操作手順:
  1. データ フォームで、field の横にあるボタンをクリックします。
  2. Field options ダイアログ ボックスで、ドロップダウン リストから目的のデータ型を選択します。
正規化を機能させるには、正規化対象のすべてのデータが抽出されるよう、各 field に対して適切な追加プロパティを選択してください。Field options ダイアログ ボックスの Advanced ボタンをクリックすると、field の追加プロパティを変更できます。詳細は、テキスト field の追加プロパティを参照してください。 正規化後の値を確認するには、その field にマウス ポインターを重ねます: Normalization Example

日付の正規化

抽出された日付は、さまざまな形式で日付と時刻を含むことがあります。区切り文字として使用できるのは、ドット (.)、スペース ( )、ハイフン (-)、バックスラッシュ ()、スラッシュ (/) です。 日付を正規化する際、Vantage は抽出された日付を標準化された ISO 8601 形式に変換します。
  • 日付: YYYY-MM-DD(年-月-日の順)
  • 時刻: HH:MM:SS(時-分-秒の順)

正規化された日付の例

抽出データ正規化データ
15.06.20232023-06-15
2023/06/15 22:172023-06-15 22:17:00
06-15-20232023-06-15
02/11/20222022-02-11 または 2022-11-02
注: 該当の日付に対して Day-Month-YearMonth-Day-Year の両方の形式が有効な場合、Vantage では一意に正規化できないことがあります。この場合、2 つの候補日付から選択するよう促されます。
Saturday, December 3rd, 20222022-12-03
The second of May 20222022-05-02
注: 英語で記述され、かつ Skill 設定で英語が選択されている場合にのみ、単語で書かれた日付は正規化されます。
Vantage が日付を正規化できない場合がある理由:
  • 日付が不完全である(例: “4:39 am”。時刻は日付と一緒に抽出された場合にのみ正規化されます)。
  • 正確な日付の代わりに時間を表す語が使われている(例: “last month”、“a few days ago”)。
  • 日付や時刻の直前直後に余分な語や文字が含まれている(例: “2016/06/15 22”)。
  • 一般的でない日付表記が使われている(例: “14 Jumada Al-Awwal 1445”)。

数値の正規化

抽出された数値には、数字、小数点記号、パーセント記号 (%) が含まれる場合があります。小数点記号として使用できる文字は、ドット (.)、カンマ ( , )、ハイフン (-)、等号 (=)、スペース ( ) です。千位区切り(百万などを含む)の区切り文字として使用できるのは、ドット (.)、カンマ ( , )、シングルクォーテーション (’)、スペース ( ) です。 西洋式またはインド式の桁区切り法を用いる数値は正規化できます。西洋式では、右から左へ3桁ごとに区切り、千や百万の区切りにカンマを使用します。インド式でもカンマを使用し、右端から最初の3桁を区切った後は2桁ごとに区切って、万、lakh、ten lakh、crore、ten crore といった単位を表します。 どちらの体系で数値を正規化する場合でも、Vantage は抽出された数値データの string を解析し、以下の表に示す標準化形式に変換します。このとき、整数部と小数部の区切りにはドット (.) を使用します。

正規化された数値の例

抽出されたデータ正規化されたデータ
12,345,67812345678
-12,345.678-12345.678
12.000012
1.0001000 または 1
Tip: 小数点の後が 3 桁の場合、その点が千位の区切りか、小数点かを判断し、どちらか一方の値を選択する必要があります。
12,345.678 %12345.678
1,23,45,67,890 (Indian numbering system)1234567890
twenty-first21
Note: 数字が英語の単語で記述されている場合は、記述が英語であり、かつ Skill の設定で英語が選択されているときのみ正規化されます。 Vantage では、次の理由により数値を正規化できない場合があります:
  • 数値の直前・直後に余分な語や文字がある場合(例: “EURO12,345.678”、“5 kilos”)。
  • 整数部と小数部、または小数点と千位区切りの間の桁数が不規則な場合(例: “123,456,7890”)。この場合、小数部は 3 桁以下である必要があります。さらに、“123,456,789” が抽出された場合、正規化値は “123456789”、“123,456,78” が抽出された場合、正規化値は “123456.78” になります。
  • 不規則な数値表記が使用されている場合。

金額の正規化

金額には数値と通貨記号の両方が含まれる場合があります。通貨記号は金額の前後いずれに置かれることもあります。 金額を正規化する際、Vantage は抽出された金額の文字列(通貨記号、小数点、桁区切りなど)を解析し、通貨記号や小数点区切りを統一した標準的な通貨形式に変換します。通貨記号を先頭に置き、その後にnumberとして正規化された金額が続きます。 Vantage は、表記がさまざまな各国の通貨を識別できます(たとえば、ユーロは E、€、または euros と表記されることがあります)。通貨の正規化後の値は、抽出されたテキスト内の通貨記号または名称と完全に一致します。

正規化された金額の例

抽出データ正規化データ
12,345.678 EUROEURO 12345.678
12,345.678 ¥¥ 12345.678
13,87EE 13.87
13 euro 87euro 13.87
fifty dollarsdollars 50
₹1,23,455₹ 123455
注: 金額が英語の単語で表記されている場合、英語で書かれており、かつ Skill 設定で英語が選択されているときにのみ正規化されます。
Vantage は、通貨を示す語が不正な場合(例: “12 ttt”)、金額を正規化できないことがあります。

関連項目

Text field