メインコンテンツへスキップ
次のいずれかの方法でテキストのfieldを追加できます。
  • ドキュメント画像上で、fieldの値(マウスオーバー時に緑色で強調表示)をクリックするか、field値の周囲を長方形で囲んでfield領域を指定します。すると、新しいfieldがデータ フォームに表示されます。データ フォームでそのfieldをダブルクリックするか、fieldプロパティでクリックすると、field名を変更できます。名前全体を選択するには、トリプルクリックします。fieldプロパティを開くには、Field options ボタンをクリックします。
  • ツールバーの Add Field をクリックしてデータ フォームに新しいfieldを追加し、画像上でfield領域をマーキングします。これにより、選択した領域内で検出されたデータが、データ フォームでそのfield値として設定されます。
また、データ フォームで該当するfieldを選択し、ドキュメント画像上のその位置をクリックすることで、既存のfieldに新しいテキストのfield領域を追加することもできます。fieldに複数の語を含める必要がある場合は、field全体の領域をマーキングして複数語を選択します。

複数の領域を持つテキスト field の追加

以下の理由により、1つのドキュメント上で複数の領域が必要となるテキスト field があります:
  • ある field の値が、あるテキスト行で始まり、別の行で終わる場合があります。
  • ある field の値が、あるページで始まり、別のページで終わる場合があります。
複数の領域を持つテキスト field を追加するには、次の操作を行います:
  • 上記で説明した方法で field を追加します。
  • Shift キーを押しながら、追加した field に対して追加の領域を選択します。
テキスト field の領域は次のようにマークアップすることもできます:
  • 異なるページ上
  • field の別の領域内(この場合、内側の領域はより濃い色で強調表示され、フォーカス時は黄色で強調表示されます)。

Textフィールドの一般的なプロパティ

  • Field名. 特定のSkill内でのfieldの一意の名前。Field名には、ピリオド、カンマ、スラッシュ、コロン、アスタリスク、疑問符、引用符、小なり記号、大なり記号、縦棒などの特殊文字を含めることはできません。Field名の最大許可長は90文字です。
  • データ型. fieldに含まれるデータの種類。これは認識精度に影響するため、重要なTextフィールドのパラメータです。各データ型には、field値に対する独自の制限があり、文字の可能な値を絞り込み、データ抽出をより正確にします。
データ型説明
Textラテン文字、キリル文字、数字、象形文字、特殊文字を含むことができます。
Date任意の形式の日付と時刻。区切り文字として次の文字を使用できます:ピリオド(.)、スペース( )、ハイフン(-)、バックスラッシュ(\)、フォワードスラッシュ(/)。
Number数字、小数点区切り文字、パーセント文字(%)を含むことができます。小数点区切り文字として次の文字を使用できます:ピリオド(.)、カンマ(,)、ハイフン(-)、等号(=)、スペース( )。千の位区切り文字として次の文字を使用できます:ピリオド(.)、カンマ(,)、単一引用符(’)、スペース( )。
Money数値と通貨記号の両方を含みます。通貨記号は金額の前または後に配置できます。
例: 小文字の「l」(L)、大文字の「I」(i)、数字の「1」はすべて似た外観を持つ場合があります。このような文字がNumberまたは通貨合計金額fieldで検出された場合、この種類のfieldには文字を含めることができないため、「1」として認識されます。
  • 複数項目を許可. fieldが繰り返しかどうかを指定します。繰り返しfieldのインスタンスは、同じ種類の複数のオブジェクトを参照する場合があります。例えば、子供の名前やアカウント番号などです。
  • 必須field. fieldの値を空のままにできないことを指定します。このプロパティを有効にすると、ページに検証ルールが追加されます。抽出後にfieldが空の場合、Documentはエラーとして手動確認に送信されます。
  • キーfield. fieldの値がDocumentの検索に使用されるかどうかを指定します。
  • ディメンションfield. fieldの値がSkill MonitorでSkillトランザクションの詳細情報を取得するために使用されるかどうかを指定します。

テキストの外観

このプロパティグループは、field 内で想定される文字の見た目に関するものです。
  • Text origin。field に印字文字のみ、手書き文字のみ、または両方を含められるかを指定します。ドキュメント上で長方形の領域をマーキングして field を追加した場合、このプロパティの値はその領域で検出された文字種に応じて設定されます。Add Field をクリックして field を追加した場合、このプロパティの値はデフォルトで Printed に設定されます。
手書き文字認識がサポートされているすべての言語の一覧はこちらをご覧ください。
Note: 新しい Document skills では、手書き文字認識がデフォルトで有効になっています。無効化または再度有効化するには、Skill 名の右側にある設定アイコンをクリックし、Languages タブに移動して Text Appearance セクションの Handwritten オプションを選択します。
  • Eliminate field background。field に枠、マス目(各文字用のボックス)、またはプレースホルダーテキストがある場合に、認識精度の向上に利用できるオプションです。このオプションを有効にする場合、背景除去のテンプレートとして使用する空白のフォームドキュメントをアップロードし、空白フォーム上で対応する field にラベル付けする必要があります。空白フォームドキュメントは Document Set に表示され、アイコンでマークされます。
  • Special fonts。field に特定のフォントで入力されたテキストが含まれることが想定される場合、このオプションでフォントタイプを選択することで認識精度を向上できます。複数のフォントを選択することも可能です。

サポートされているフォント

フォント説明フォントサンプル
Fax主にファクス機で使用されるフォントです。Fax Font
Gothicゴシック体で印刷されたテキストです。Gothic Font
Index郵便番号スタイルで書かれた数字のみを含む特殊な文字セットです。Index Font
Matrix printerドットマトリクスプリンターで印字されたテキストです。Matrix Font
MICR CMC-7特殊な MICR バーコードフォント(CMC-7)です。CMC-7 Font
MICR E-13B磁気インクで印字された特殊な数字文字セットです。MICR(Magnetic Ink Character Recognition)文字は、個人用小切手を含むさまざまな文書で使用されています。E-13B Font
OCR-AOptical Character Recognition(OCR)用に設計された等幅フォントです。主に銀行、クレジットカード会社などで広く使用されています。OCR-A Font
OCR-BOptical Character Recognition(OCR)用に設計されたフォントです。OCR-B Font
Receipt低品質なテキストを想定して認識します。レシートで一般的に使われる、主に等幅または標準的なフォントに対応します。Receipt Font
Typewriterタイプライターで打たれたテキストです。Typewriter Font

text field の追加プロパティ

追加プロパティは、その field に指定されたデータ型によって異なります。

Text

Value」設定グループ:
  • Maximum length。field に許容される最大文字数です。抽出された値の文字数がこの長さを超えると、エラーメッセージが表示されます。プロセスに手動確認のステージがある場合、Document は手動確認に送られます。
  • Regular expression。このオプションでは、正規表現(つまり、field 値の構造を形式的に記述したもの)を追加できます。正規表現で設定された field には、データ フォームで定義されたとおり、文字、数字、その他の記号を含めることができます。
正規表現を使用すると、Text 内のパターンを見つけて有効な文字集合を制限することで、抽出精度を向上できます。例えば、Text の field に数字のみが含まれる場合、その field の構造が数字のみであることを表す正規表現を指定できます。この場合、field の認識時に、プログラムは各文字を数字として認識しようとします。また、特定の電話番号形式(例 1)を指定したり、field に2語が含まれ、そのうち1つが数値であること(例: 50 lbs、例 2)を検証したりすることもできます: 例 1(1-(234)-567-8900 や 2 (987) 654 3211 のような電話番号の場合)
/^(1|2)(\-|\s)\([\d]{3}\)(\-|\s)[\d]{3}(\-|\s)[\d]{4}$/
例 2(50lb/50lbs/50Lb/50Lbs/50 lb/50 lbs などの重量値の場合)
/^[\d]*(\s)?(L|l)b(s)?$/
注意: 正規表現は PDF ドキュメントのテキスト認識に影響しません。

日付

含まれる可能性のある値」設定グループ:
  • 時刻。日付 field に時刻も含める可能性がある場合に選択します。時刻が許可されていない場合、認識時には抽出されません。
  • 曜日。このオプションを有効にすると、日付 field に曜日を指定できます。曜日が許可されていない場合、認識時には抽出されません。
  • 月(名称)。このオプションを有効にすると、月を文字表記で指定できます。
要素の許容順序」設定グループでは、次の中から適切な日付形式を選択できます: 日-月-年度月-日-年度年度-月-日。複数の形式を同時に指定することも可能です。検出された日付形式が指定した形式に一致しない場合、ドキュメントはエラーとともに手動確認に送られます。 許容日付」設定グループでは、有効な日付の範囲を指定できます。ドキュメントが処理された日を基準として、その前後の月数を選択して有効範囲を設定できます。月数は整数で指定する必要があります。指定した日付が指定範囲内かどうかをチェックするルールが適用され、範囲外の場合はエラーが表示され、ドキュメントは手動確認に送られます。

数値

Value の設定グループでは、検出された値がどの種類の数値(整数か小数)か、またこの field で検出可能な数値の書式を指定できます。この field の値が指定した要件を満たさない場合、ドキュメントは手動確認に送られます。
  • 整数のみ は、値を整数のみに制限します。このオプションが有効で、区切り文字付きの数値が field に検出された場合、それらは千の位の区切りとして扱われます。
  • 小数部は2桁を超える場合がある。抽出値の小数部が2桁を超えることが想定される場合に有効にします。小数点の区切りとして使用できる文字は、ドット (.)、カンマ (,)、ハイフン (-)、等号 (=)、スペース ( ) です。
  • 負の値を許可。このオプションにより、抽出値として負の値を許可します。負の値はマイナス記号または括弧で表すことができます。
  • 「%」記号を含む場合がある。このオプションにより、抽出値の前後にパーセント記号を含められます。
Number must be within interval の設定グループでは、有効と判断されるために値が収まるべき範囲(インターバル)を指定できます。範囲は最小値と最大値を指定して設定します。これらの値は整数でも小数でも構いません。負の値も指定できます。設定後、ルールによって値が指定範囲内かどうかが検証され、範囲外の場合はエラーが表示され、ドキュメントは手動確認に送られます。

金額

金額のプロパティは数値のプロパティと同一ですが、唯一の例外は、金額 field にはパーセント記号を含められない点です。

関連項目