文書をラベル付けするには、field の値を含む領域をマークし、各 field に含まれるデータの型を Skill に指定します。始める前に、field の形状に適した選択方法を選び、構造化、半構造化、または 非構造化 文書の種類に応じたガイドラインに従ってください。Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
選択方法
構造化文書
- 各fieldの領域は正確に指定してください。学習にはfield valuesだけでは不十分です。
- 値そのものではなく、プレースホルダー全体を指定してください。
- fieldに値がない場合でも、空のプレースホルダーを指定してください。
- 複数の部分で構成されるfieldでは、Shift を押しながら追加の部分を加えます。すべての部分は同じページ上になければなりません。
- 固定フォーム上のテーブルでは、空の行も含めてすべての行をラベル付けしてください。
- ラベル付け後に新しいfieldを追加した場合は、トレーニングセット内のすべての文書に戻ってそのfieldをラベル付けしてください。
半構造化文書
- 各fieldの領域を正確に指定してください。学習にはfieldの値だけでは不十分です。
- fieldの値 (含まれる単語) をクリックしてください。領域は自動的に自動的に作成されます。
- fieldに値がない場合は、その領域を作成しないでください。
- 単語の一部だけをマークしないでください。トレーナーは完全な単語だけを対象に学習します。
- 複数パートのfieldでは、Shiftを押したまま追加のパートを加えます。すべてのパートが同じページ上になければなりません。
- 別のfieldの領域の内側にあるfieldsを見つけるようプログラムに指示しないでください (住所のような個別のfieldでも、Descriptionのようなテーブルセルでも同様です) 。大きな領域から抽出するには、activitiesを連結します。まず半構造化文書の extraction activityで領域を見つけ、その後にNLP Extraction Rules activityまたはscript ruleを使って、そこから特定のfieldsを抽出します。
- ラベル付け後に新しいfieldを追加した場合は、トレーニングセット内のすべての文書に戻ってそのfieldをラベル付けしてください。
テーブルと繰り返しグループ
| Use this | When |
|---|---|
| テーブル | 共通のヘッダーがあり、値の横にキーワードがない表形式のデータ |
| 繰り返しグループ with the 複数項目を許可 option | キーワードが値の横に配置される、あまり構造化されていないデータ |
非構造化文書
- 各 field の領域を正確に指定してください。学習には field values だけでは不十分です。
- セグメント (Segmentation アクティビティ で学習させる fields) の場合は、1 つ以上の段落全体を含めてください。セグメントには段落の一部だけを含めることはできません。
- field の値 (含まれている単語) をクリックしてください。領域は自動的に作成されます。
- field に値がない場合は、その領域を作成しないでください。
- 単語の一部だけをマークしないでください。トレーナーが学習するのは単語全体だけです。
- 単語の後に句読点が続く場合は、句読点が含まれないように領域を調整してください。
- field の領域は複数ページにまたがることがあります (たとえば契約条項) 。最初の部分を 1 ページ目でラベル付けし、その後 Shift を押しながら次のページで続けてください。
- 別の field の領域内にある field (たとえばセグメント内の field) にラベル付けするには、内側の field を選択してラベル付けを開始してください。すると、外側の領域を選択するのではなく、新しい領域が作成されます。
これは上記の半構造化文書のガイドラインとは逆です。非構造化文書のセグメントは内側の fields を含むように設計されているため、その中でラベル付けすることが想定されています。半構造化文書では、同様の入れ子構造によって学習の競合が生じます。
文書のラベル付け
トレーニングセット、手動確認、または FlexiCapture でラベル付けされた文書を再利用します。
FlexiCapture からのインポート
FlexiCapture でラベル付けされた文書を再利用するための形式と手順。
文書カテゴリ
構造化文書、半構造化文書、非構造化文書、混合文書の概要。
Segmentation アクティビティ
非構造化文書内の field をセグメント化するために使用します。
