メインコンテンツへスキップSkill を学習およびテストするには、所定の数のドキュメントにラベル付けする必要があります。以下のガイドラインに従うと、適切にラベル付けできます。
Tip: 非構造化ドキュメントのラベル付けに関するガイドラインは、Advanced Designer Guide を参照してください。
構造化ドキュメントには、常にまったく同じ種類の情報が、まったく同じ位置に含まれます。構造化ドキュメントの例としては、あらかじめ書式設定されたフォームがあります。レイアウトに差異がないため、学習用としてはサンプルドキュメントを少数だけラベル付けすれば十分です。
構造化ドキュメントにラベル付けする際は、次のガイドラインに従ってください。
- 各fieldの領域を正確に指定してください。値だけでは学習に不十分です。
- fieldの領域を指定する際は、その値をクリックせず、プレースホルダー全体を囲んでください。
- fieldに値がない場合は、空のプレースホルダーを囲んでください。
- fieldが複数の部分で構成されている場合は、Shift キーを押しながら部分を追加します。すべての部分が同一のページ上にある必要がある点に注意してください。
- 固定フォームにテーブルが含まれている場合は、空の行も含めてすべての行を囲んでください。
- 一部のラベル付けを行った後でfieldが追加された場合は、この新しいfieldを学習用セット内のすべてのドキュメントでラベル付けする必要があります。すべてのドキュメントを見直し、該当する箇所があるすべてのドキュメントで新しいfieldにラベルを付けてください。
セミ構造化ドキュメントには、一般的に同じまたは類似の種類の情報が含まれますが、field の位置、サイズ、数はドキュメントごとに異なる場合があります。セミ構造化ドキュメントの例としては、請求書、支払指図書、インボイスなどがあります。
セミ構造化ドキュメントにラベル付けする際は、次のガイドラインに従ってください。
- 学習には値だけでは不十分なため、各 field の領域を正確に指定してください。
- field の領域を指定するには、その値(すなわち含まれている語や語句)をクリックすると、領域が自動的に作成されます。
- 値を含まない field には、領域を作成しないでください。
- 語の一部分をマークしないでください。プログラムは語全体でのみ学習できます。
- field が複数の部分で構成される場合は、Shift キーを押しながら部分を追加します。すべての部分が同じページ上にある必要がある点に注意してください。
- 繰り返し構造がある場合は、まずドキュメントを分析し、表か繰り返しグループのいずれかを作成します。共通のヘッダーがあり、値の横にキーワードがない表がある場合は表を作成します。データの構造化が弱く、値の横にキーワードが配置されている場合は、Allow multiple items オプションを有効にしたグループを作成します。ドキュメントごとにデータの構成が異なる場合は、大多数のドキュメントに最も適合するオプションを選択してください。
- 表にラベル付けする際は、最初の行をマークしてから Continue table from this row をクリックし、表全体が正しくラベル付けされていることを確認します。最初の行のセルをマークするには、セルを一つずつクリックすると、対応する列が自動的に作成されます。表全体がマークされるまで続けてください。
Tip: 表が大きく、ドキュメントのページの見た目が類似している場合は、類似するページを削除し、最初と最後のページ、およびその間のいくつかのページにラベルを付けることができます。
- 個別の field(住所など)であっても、表セル(例えば “Description”)であっても、他の field の領域内で field を検索するようプログラムに指示しないでください。大きなテキスト片からデータを抽出する必要がある場合は、Advanced Designer を使用してください。
- ラベル付けの途中で新たに field を追加した場合は、この新しい field を学習用のすべてのドキュメントでラベル付けする必要があります。すべてのドキュメントを見直し、新しい field が存在するすべてのドキュメントにラベルを付けてください。