Vantage では、抽出されたデータを正規化して、表記を統一できます。正規化できるデータ型は次のとおりです。 field から抽出したデータを正規化するには、そのデータ型を指定します。Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
正規化を機能させるには、各 field でデータ型固有のプロパティを設定し、Vantage が正規化が必要なすべてのデータを抽出できるようにします。これらのプロパティにアクセスするには、Field options ダイアログで Advanced をクリックします。データ型ごとのプロパティ を参照してください。

日付の正規化
- 日付には
YYYY-MM-DD - 時刻には
HH:MM:SS
例
| 抽出されたデータ | 正規化されたデータ |
|---|---|
| 15.06.2023 | 2023-06-15 |
| 2023/06/15 22:17 | 2023-06-15 22:17:00 |
| 06-15-2023 | 2023-06-15 |
| 02/11/2022 | 2022-02-11 または 2022-11-02 |
| Saturday, December 3rd, 2022 | 2022-12-03 |
| The second of May 2022 | 2022-05-02 |
日-月-年 形式と 月-日-年 形式の両方が有効になっている場合、Vantage では日付を曖昧さなく正規化できないことがあります。その場合は、2 つの候補の日付のいずれかを選択できます。
- 日付が不完全な場合 — たとえば
4:39 am(時刻の値が正規化されるのは、日付と一緒に抽出された場合のみです) 。 - 正確な日付ではなく時を表す副詞が使われている場合 — たとえば
last month、a few days ago。 - 日付または時刻の横に余分な単語や文字がある場合 — たとえば
2016/06/15 22。 - 一般的でない日付表記が使われている場合 — たとえば
14 Jumada Al-Awwal 1445。
数値の正規化
- Western — 右から3桁ごとに数字を区切り、千、百万などの区切りにコンマを使用します。
- Indian — 右から最初の3桁を区切り、その後は1万、ラーク、10ラーク、クロールなどに対応して2桁ごとに区切ります。
.) を使用する標準形式に変換します。使用できる区切り文字については、データ型を参照してください。
例
| 抽出データ | 正規化されたデータ |
|---|---|
| 12,345,678 | 12345678 |
| -12,345.678 | -12345.678 |
| 12.0000 | 12 |
| 1.000 | 1000 または 1 |
| 12,345.678 % | 12345.678 |
| 1,23,45,67,890 (インド式位取り記数法) | 1234567890 |
| twenty-first | 21 |
- 数値の隣に余分な単語や文字がある場合。たとえば、
EURO12,345.678や5 kilosです。 - 小数部と整数部の間、または小数点と千区切りの間の桁数が不規則な場合。たとえば、
123,456,7890です。小数部は 3 桁以下でなければなりません。123,456,789が抽出された場合、正規化後の値は123456789です。123,456,78が抽出された場合、正規化後の値は123456.78です。 - 不規則な数値表現が使われている場合。
金額を正規化する
€、EURO、euros はいずれもユーロとして認識されます。正規化された値には、抽出されたテキストで見つかった記号または名称がそのまま使用されます。
例
| 抽出データ | 正規化データ |
|---|---|
| 12,345.678 EURO | EURO 12345.678 |
| 12,345.678 ¥ | ¥ 12345.678 |
| 13,87E | E 13.87 |
| 13 euro 87 | euro 13.87 |
| fifty dollars | dollars 50 |
| ₹1,23,455 | ₹ 123455 |
金額が英語の単語で表記されている場合、英語で書かれており、かつ Skill Settings で英語が選択されているときにのみ正規化されます。
12 ttt です。
Text field
Text fieldを追加し、データ型を選択して、認識プロパティを設定します。
文書のラベル付け
学習時に構造化文書および半構造化文書のラベル付けを行うためのガイドライン。
サポートされている認識言語
Vantageの各SkillでサポートされているOCR言語の一覧。
