メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Vantage では、抽出されたデータを正規化して、表記を統一できます。正規化できるデータ型は次のとおりです。 field から抽出したデータを正規化するには、そのデータ型を指定します。
1

Field options を開く

データ フォームで、field の横にある field 設定ボタンをクリックします。
2

データ型を選択する

Field options ダイアログで、ドロップダウンからデータ型を選択します。
正規化を機能させるには、各 field でデータ型固有のプロパティを設定し、Vantage が正規化が必要なすべてのデータを抽出できるようにします。これらのプロパティにアクセスするには、Field options ダイアログで Advanced をクリックします。データ型ごとのプロパティ を参照してください。
field にカーソルを合わせると正規化された値が表示される

日付の正規化

日付を正規化する際、Vantage は抽出された日付を ISO 8601 形式に変換します。
  • 日付には YYYY-MM-DD
  • 時刻には HH:MM:SS
使用できる区切り文字については、データ型を参照してください。

抽出されたデータ正規化されたデータ
15.06.20232023-06-15
2023/06/15 22:172023-06-15 22:17:00
06-15-20232023-06-15
02/11/20222022-02-11 または 2022-11-02
Saturday, December 3rd, 20222022-12-03
The second of May 20222022-05-02
日-月-年 形式と 月-日-年 形式の両方が有効になっている場合、Vantage では日付を曖昧さなく正規化できないことがあります。その場合は、2 つの候補の日付のいずれかを選択できます。
語句で書かれた日付が正規化されるのは、その日付が英語で記述されており、かつ Skill Settings で英語が選択されている場合のみです。 Vantage では、次のような場合に日付を正規化できないことがあります。
  • 日付が不完全な場合 — たとえば 4:39 am (時刻の値が正規化されるのは、日付と一緒に抽出された場合のみです) 。
  • 正確な日付ではなく時を表す副詞が使われている場合 — たとえば last montha few days ago
  • 日付または時刻の横に余分な単語や文字がある場合 — たとえば 2016/06/15 22
  • 一般的でない日付表記が使われている場合 — たとえば 14 Jumada Al-Awwal 1445

数値の正規化

Vantageでは、欧米式またはインド式の桁区切りを使用して数値を正規化できます。
  • Western — 右から3桁ごとに数字を区切り、千、百万などの区切りにコンマを使用します。
  • Indian — 右から最初の3桁を区切り、その後は1万、ラーク、10ラーク、クロールなどに対応して2桁ごとに区切ります。
Vantageは抽出された文字列を解析し、整数部と小数部の区切りにドット (.) を使用する標準形式に変換します。使用できる区切り文字については、データ型を参照してください。

抽出データ正規化されたデータ
12,345,67812345678
-12,345.678-12345.678
12.000012
1.0001000 または 1
12,345.678 %12345.678
1,23,45,67,890 (インド式位取り記数法)1234567890
twenty-first21
ピリオドの後ろの部分が 3 桁の場合 (1.000 のように) は、ピリオドが千の位の区切りなのか、それとも整数部と小数部の区切りなのかに応じて、2 つの候補値のいずれかを選択する必要があります。
単語で表記された数値が正規化されるのは、その数値が英語で書かれており、かつ Skill Settings で英語が選択されている場合のみです。 Vantage は、次のような場合、数値を正規化できないことがあります。
  • 数値の隣に余分な単語や文字がある場合。たとえば、EURO12,345.6785 kilos です。
  • 小数部と整数部の間、または小数点と千区切りの間の桁数が不規則な場合。たとえば、123,456,7890 です。小数部は 3 桁以下でなければなりません。123,456,789 が抽出された場合、正規化後の値は 123456789 です。123,456,78 が抽出された場合、正規化後の値は 123456.78 です。
  • 不規則な数値表現が使われている場合。

金額を正規化する

金額は、数値と通貨記号で構成され、通貨記号は金額の前または後に付く場合があります。正規化すると、Vantage はまず通貨記号を出力し、その後に 数値 として正規化された金額を出力します。 通貨は、記号または名称によって識別されます。EUROeuros はいずれもユーロとして認識されます。正規化された値には、抽出されたテキストで見つかった記号または名称がそのまま使用されます。

抽出データ正規化データ
12,345.678 EUROEURO 12345.678
12,345.678 ¥¥ 12345.678
13,87EE 13.87
13 euro 87euro 13.87
fifty dollarsdollars 50
₹1,23,455₹ 123455
金額が英語の単語で表記されている場合、英語で書かれており、かつ Skill Settings で英語が選択されているときにのみ正規化されます。
Vantage は、通貨を示す語が不正な場合、金額を正規化できないことがあります。たとえば、12 ttt です。

Text field

Text fieldを追加し、データ型を選択して、認識プロパティを設定します。

文書のラベル付け

学習時に構造化文書および半構造化文書のラベル付けを行うためのガイドライン。

サポートされている認識言語

Vantageの各SkillでサポートされているOCR言語の一覧。