メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt

Use this file to discover all available pages before exploring further.

Text field は、文書から文字列値 (名前、住所、ID、その他のテキストなど) を抽出します。field のデータ型 (Text、Date、Number、または Money) によって、Vantage が値をどのように認識し、検証するかが決まります。

Text fieldを追加する

Text fieldは2つの方法で追加できます。

文書画像上で領域をマーキングする

値 (マウスオーバー時に緑色で強調表示) をクリックするか、その周囲を長方形で囲むようにドラッグします。新しいfieldがデータ フォームに表示されます。

空の field を追加して、その領域を指定します

ツールバーの Add Field をクリックし、画像上の値を囲むように長方形をドラッグします。領域内のデータが field の値になります。
field の名前を変更するには、データ フォーム内の名前をダブルクリックするか、field のプロパティにある名前をクリックします。名前全体を選択するには、トリプルクリックします。field のプロパティを開くには、Field options をクリックします。

1 つの field に複数の領域を追加する

値が複数の行やページにまたがる場合があるため、1 つの field に複数の領域が必要になることがあります。 新しい field に複数の領域を追加するには:
1

field を追加する

上記のいずれかのメソッドを使用します。
2

追加の領域を選択する

Shift キーを押しながら、同じ field の追加の領域をクリックまたはドラッグします。
既存の field に領域を追加するには、データ フォームでその field を選択し、画像上の該当する位置をクリックまたはドラッグします。値が複数の単語にまたがる場合は、それらすべてを 1 つの領域として選択します。 領域は複数のページにまたがることも、別の領域の内側に配置されることもあります。入れ子になった領域は濃い色で強調表示され、フォーカスされると黄色で強調表示されます。

一般プロパティ

PropertyDescription
field名Skill 内で一意です。次の文字は使用できません: . , / : * ? " < > |。最大長: 90 文字。
データ型fieldに含まれるデータの種類です。認識精度に影響します。使用可能なオプションについては データ型 を参照してください。
複数項目を許可fieldが繰り返し可能かどうかを指定します (例: 複数の子どもの名前やアカウント番号) 。
必須field有効にすると、抽出後にfieldが空の場合、ドキュメントはエラー付きで手動確認に送られます。
キーfield値を検索可能としてマークします。ドキュメントの検索に使用されます。
ディメンションfield値を Skill Monitor のレポートディメンションとして利用できるようにします。注: 申告データベースでは値は 100 文字に切り詰められます (ただし、ドキュメント内ではそのまま保持されます)。

データ型

データ型説明
Textラテン文字、キリル文字、数字、象形文字、特殊文字を含むことができます。
Date任意の形式の日付と時刻。区切り文字として使用できるのは、ドット (.) 、スペース、ハイフン (-) 、バックスラッシュ (\) 、フォワードスラッシュ (/) です。
Number数字、小数点区切り文字、パーセント文字 (%) を含むことができます。小数点区切り文字として使用できるのは、ドット (.) 、カンマ (,) 、ハイフン (-) 、等号 (=) 、スペースです。千の位区切り文字として使用できるのは、ドット (.) 、カンマ (,) 、単一引用符 (') 、スペースです。
Money数値と通貨記号の両方を含みます。通貨記号は金額の前または後に配置できます。
小文字の「l」 (L) 、大文字の「I」 (i) 、数字の「1」は同じように見えることがあります。Number または Money fieldでは、文字は使用できないため、判別しにくい文字は「1」として認識されます。

外観設定

これらのプロパティは、フィールド内に含まれることが想定される文字の外観を示します。
  • テキストの種類 — フィールドに印字文字のみ、手書き文字のみ、またはその両方が含まれるかどうかを示します。長方形をドラッグしてフィールドを追加した場合、Vantage は検出した文字に基づいてこの値を推定します。Add Field でフィールドを追加した場合、この値のデフォルトは Printed です。手書き文字認識でサポートされている言語を参照してください。
  • フィールドの背景を除去 — フィールドに枠線、文字ごとのボックス、またはプレースホルダーテキストがある場合に、認識精度が向上します。このオプションを有効にする場合は、背景テンプレートとして使用する空白フォームのドキュメントをアップロードし、その空白フォーム上で対応するフィールドにラベルを付けます。空白フォームは、アイコン付きで Document Set に表示されます。
  • 特殊フォント — フィールドで特定のフォントが使用されている場合に、認識精度が向上します。複数のフォントを選択できます。
新しい Document skills では、手書き文字認識がデフォルトで有効になっています。切り替えるには、スキル名の右側にある Skill Settings アイコンをクリックし、Languages タブを開いて、Text Appearance セクションの Handwritten を選択または解除します。

対応フォント

FontDescriptionFont sample
Faxファクス機で一般的に使用されるフォントです。Faxフォントのサンプル
Gothicゴシック体で印字されたテキストです。Gothicフォントのサンプル
Index郵便番号のような形式で書かれた数字だけを含む特殊な文字セットです。Indexフォントのサンプル
Matrix printerドットマトリクスプリンターで印字されたテキストです。Matrix printerフォントのサンプル
MICR CMC-7特殊なMICRバーコードフォント (CMC-7) です。MICR CMC-7フォントのサンプル
MICR E-13B磁気インクで印字された数字です。MICR (磁気インク文字認識) の文字は、個人小切手をはじめとするさまざまな文書で使用されます。MICR E-13Bフォントのサンプル
OCR-AOptical Character Recognition (OCR) 用に設計された等幅フォントです。銀行、クレジットカード会社、および同様の業種で広く使用されています。OCR-Aフォントのサンプル
OCR-BOptical Character Recognition (OCR) 用に設計されたフォントです。OCR-Bフォントのサンプル
Receipt低品質な文字向けで、通常はレシートで使用される等幅フォントまたは一般的なフォントに対応します。Receiptフォントのサンプル
Typewriterタイプライターで打たれたテキストです。Typewriterフォントのサンプル

データ型別のプロパティ

追加プロパティは、データ型によって異なります。

Text

の設定:
  • 最大長 — 許可される最大文字数です。抽出された値がこの長さを超えると、Vantage にエラーが表示されます。プロセスに手動確認ステージがある場合、ドキュメントは手動確認に送られます。
  • 正規表現 — field で有効な文字セットを絞り込むパターンで、抽出精度の向上に役立ちます。たとえば、すべての文字を数字として認識させたり、特定の電話番号形式に一致させたり、field に単位付きの数値の重量が含まれていることを検証したりできます。
例 11-(234)-567-89002 (987) 654 3211 のような電話番号:
/^(1|2)(\-|\s)\([\d]{3}\)(\-|\s)[\d]{3}(\-|\s)[\d]{4}$/
例 250lb50lbs50Lb50Lbs50 lb50 lbs のような重量の値:
/^[\d]*(\s)?(L|l)b(s)?$/
正規表現は、PDF文書内のテキスト認識に影響しません。

Date

Value may include 設定:
  • Time — 時刻を含めることを許可します。無効にすると、時刻は抽出されません。
  • Day of week — field に曜日を含めることを許可します。無効にすると、曜日は抽出されません。
  • Month by name — 月を名前で表記することを許可します。

コンポーネントの許容順序

1 つ以上の日付形式を選択します: Day-Month-YearMonth-Day-Year、または Year-Month-Day。検出された形式が選択した形式のいずれにも一致しない場合、ドキュメントは手動確認に送られます。

許容されるDate

ドキュメントが処理された日を基準に、前後何か月を有効なDate範囲とするかを指定します。整数を使用します。ルールによって、抽出されたDateがこの範囲内かどうかが確認され、範囲外のDateは手動確認に送られます。

Number

の設定では、検出された値がどの種類のNumberか (整数または小数) 、およびそのfieldで許可される数値形式を指定します。要件を満たさない値がある場合、文書は手動確認に送られます。
  • 整数のみ — 値は整数である必要があります。検出された数値内の区切り記号は、すべて桁区切りとして扱われます。
  • 小数部に 2 桁を超える桁数を含めることができる — 小数部が 2 桁を超えることが想定される場合に有効にします。使用できる小数点区切り記号: ピリオド (.)、カンマ (,)、ハイフン (-)、等号 (=)、空白。
  • 負の値を使用できる — マイナス記号またはかっこで表される負の値を許可します。
  • ’%’ 記号を含めることができる — 値の前または後ろにパーセント記号を使用できます。

Numberは指定した範囲内でなければならない

最小値と最大値 (整数または小数、正または負) を設定します。ルールによって値が範囲内にあるかどうかがチェックされ、範囲外の値がある場合、文書は手動確認に送られます。
Money field では Number と同じプロパティを使用しますが、パーセント記号は使用できません。

文書のラベル付け

学習時の構造化文書および半構造化文書のラベル付けに関するガイドライン。

サポートされている認識言語

Vantageの各SkillでサポートされているOCR言語の一覧。