Text field は、文書から文字列値 (名前、住所、ID、その他のテキストなど) を抽出します。field のデータ型 (Text、Date、Number、または Money) によって、Vantage が値をどのように認識し、検証するかが決まります。Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
Text fieldを追加する
文書画像上で領域をマーキングする
空の field を追加して、その領域を指定します
1 つの field に複数の領域を追加する
一般プロパティ
| Property | Description |
|---|---|
| field名 | Skill 内で一意です。次の文字は使用できません: . , / : * ? " < > |。最大長: 90 文字。 |
| データ型 | fieldに含まれるデータの種類です。認識精度に影響します。使用可能なオプションについては データ型 を参照してください。 |
| 複数項目を許可 | fieldが繰り返し可能かどうかを指定します (例: 複数の子どもの名前やアカウント番号) 。 |
| 必須field | 有効にすると、抽出後にfieldが空の場合、ドキュメントはエラー付きで手動確認に送られます。 |
| キーfield | 値を検索可能としてマークします。ドキュメントの検索に使用されます。 |
| ディメンションfield | 値を Skill Monitor のレポートディメンションとして利用できるようにします。注: 申告データベースでは値は 100 文字に切り詰められます (ただし、ドキュメント内ではそのまま保持されます)。 |
データ型
| データ型 | 説明 |
|---|---|
| Text | ラテン文字、キリル文字、数字、象形文字、特殊文字を含むことができます。 |
| Date | 任意の形式の日付と時刻。区切り文字として使用できるのは、ドット (.) 、スペース、ハイフン (-) 、バックスラッシュ (\) 、フォワードスラッシュ (/) です。 |
| Number | 数字、小数点区切り文字、パーセント文字 (%) を含むことができます。小数点区切り文字として使用できるのは、ドット (.) 、カンマ (,) 、ハイフン (-) 、等号 (=) 、スペースです。千の位区切り文字として使用できるのは、ドット (.) 、カンマ (,) 、単一引用符 (') 、スペースです。 |
| Money | 数値と通貨記号の両方を含みます。通貨記号は金額の前または後に配置できます。 |
小文字の「l」 (L) 、大文字の「I」 (i) 、数字の「1」は同じように見えることがあります。Number または Money fieldでは、文字は使用できないため、判別しにくい文字は「1」として認識されます。
外観設定
- テキストの種類 — フィールドに印字文字のみ、手書き文字のみ、またはその両方が含まれるかどうかを示します。長方形をドラッグしてフィールドを追加した場合、Vantage は検出した文字に基づいてこの値を推定します。Add Field でフィールドを追加した場合、この値のデフォルトは Printed です。手書き文字認識でサポートされている言語を参照してください。
- フィールドの背景を除去 — フィールドに枠線、文字ごとのボックス、またはプレースホルダーテキストがある場合に、認識精度が向上します。このオプションを有効にする場合は、背景テンプレートとして使用する空白フォームのドキュメントをアップロードし、その空白フォーム上で対応するフィールドにラベルを付けます。空白フォームは、アイコン付きで Document Set に表示されます。
- 特殊フォント — フィールドで特定のフォントが使用されている場合に、認識精度が向上します。複数のフォントを選択できます。
対応フォント
| Font | Description | Font sample |
|---|---|---|
| Fax | ファクス機で一般的に使用されるフォントです。 | ![]() |
| Gothic | ゴシック体で印字されたテキストです。 | ![]() |
| Index | 郵便番号のような形式で書かれた数字だけを含む特殊な文字セットです。 | ![]() |
| Matrix printer | ドットマトリクスプリンターで印字されたテキストです。 | ![]() |
| MICR CMC-7 | 特殊なMICRバーコードフォント (CMC-7) です。 | ![]() |
| MICR E-13B | 磁気インクで印字された数字です。MICR (磁気インク文字認識) の文字は、個人小切手をはじめとするさまざまな文書で使用されます。 | ![]() |
| OCR-A | Optical Character Recognition (OCR) 用に設計された等幅フォントです。銀行、クレジットカード会社、および同様の業種で広く使用されています。 | ![]() |
| OCR-B | Optical Character Recognition (OCR) 用に設計されたフォントです。 | ![]() |
| Receipt | 低品質な文字向けで、通常はレシートで使用される等幅フォントまたは一般的なフォントに対応します。 | ![]() |
| Typewriter | タイプライターで打たれたテキストです。 | ![]() |
データ型別のプロパティ
Text
- 最大長 — 許可される最大文字数です。抽出された値がこの長さを超えると、Vantage にエラーが表示されます。プロセスに手動確認ステージがある場合、ドキュメントは手動確認に送られます。
- 正規表現 — field で有効な文字セットを絞り込むパターンで、抽出精度の向上に役立ちます。たとえば、すべての文字を数字として認識させたり、特定の電話番号形式に一致させたり、field に単位付きの数値の重量が含まれていることを検証したりできます。
1-(234)-567-8900 や 2 (987) 654 3211 のような電話番号:
50lb、50lbs、50Lb、50Lbs、50 lb、50 lbs のような重量の値:
正規表現は、PDF文書内のテキスト認識に影響しません。
Date
- Time — 時刻を含めることを許可します。無効にすると、時刻は抽出されません。
- Day of week — field に曜日を含めることを許可します。無効にすると、曜日は抽出されません。
- Month by name — 月を名前で表記することを許可します。
コンポーネントの許容順序
許容されるDate
Number
- 整数のみ — 値は整数である必要があります。検出された数値内の区切り記号は、すべて桁区切りとして扱われます。
- 小数部に 2 桁を超える桁数を含めることができる — 小数部が 2 桁を超えることが想定される場合に有効にします。使用できる小数点区切り記号: ピリオド (
.)、カンマ (,)、ハイフン (-)、等号 (=)、空白。 - 負の値を使用できる — マイナス記号またはかっこで表される負の値を許可します。
- ’%’ 記号を含めることができる — 値の前または後ろにパーセント記号を使用できます。
Numberは指定した範囲内でなければならない
Money field では Number と同じプロパティを使用しますが、パーセント記号は使用できません。
文書のラベル付け
学習時の構造化文書および半構造化文書のラベル付けに関するガイドライン。
サポートされている認識言語
Vantageの各SkillでサポートされているOCR言語の一覧。










