メインコンテンツへスキップSkill を学習およびテストするには、所定の数のドキュメントにラベリングする必要があります。これを行うには、ドキュメント上で field 値を含む領域を選択します。領域を選択するには、次のいずれかを実行します。
- 単語にカーソルを合わせてクリックします。これにより領域が作成され、その単語が field にコピーされます。1語のみを含む field をラベリングする場合は、この方法を使用してください。
- いくつかの単語を囲むように Rectangle を描画します。この Rectangle 内のすべての単語が field にコピーされます。半構造化ドキュメントのラベリングには、この方法を推奨します。
- シーケンスの最初の単語をクリックし、左マウスボタンを押しながら最後の単語までカーソルをドラッグして領域を選択します。非構造化ドキュメントのラベリングには、この方法を推奨します。
以下のガイドラインは、ドキュメントの種類に応じて適切にラベリングするのに役立ちます。
構造化ドキュメントには、常に同一の種類の情報が同一の位置に含まれます。構造化ドキュメントの例としては、あらかじめレイアウトが決められたフォームがあります。レイアウトに差異がないため、学習用には少数のサンプルドキュメントにラベル付けするだけで十分です。
構造化ドキュメントにラベル付けする際は、以下のガイドラインに従ってください。
- 各fieldの領域を正確に指定してください。fieldの値だけでは学習には不十分です。
- fieldの領域をマーキングする際は、その値をクリックするのではなく、プレースホルダー全体をマーキングしてください。
- fieldに値がない場合は、空のプレースホルダーをマーキングしてください。
- fieldが複数のパーツで構成される場合は、パーツを追加する際にShiftキーを押し続けてください。すべてのパーツは同じページ上にある必要がある点に注意してください。
- 固定フォームにテーブルが含まれる場合は、空の行も含めてすべての行をマーキングしてください。
- 既に一部のラベリングを行った後に新たなfieldを追加した場合は、このfieldを学習用のすべてのdocumentsに対してラベル付けする必要があります。すべてのドキュメントを見直し、該当するすべてのdocumentsで新しいfieldにラベル付けしてください。
半構造化ドキュメントには、一般的に同一または類似の種類の情報が含まれますが、field の位置、サイズ、数はドキュメントごとに異なる場合があります。半構造化ドキュメントの例として、請求書、支払命令、インボイスがあります。
半構造化ドキュメントにラベル付けする際は、以下のガイドラインに従ってください。
- 各 field の領域を正確に指定してください。field の値だけでは学習に不十分です。
- field の領域をマークするには、その値(含まれる語や語句など)をクリックすると、領域が自動的に作成されます。
- field に値がない場合は、その field の領域を作成しないでください。
- 語の一部だけをマークしないでください。プログラムは語全体に基づいてのみ学習できます。
- field が複数の部分から成る場合は、Shift キーを押しながら部分を追加します。すべての部分が同一のページ上にある必要がある点に注意してください。
- 繰り返し構造がある場合は、まずドキュメントを分析し、table か 繰り返しグループ のいずれかを作成します。共通ヘッダーがあり、値の近くにキーワードが存在しない table が含まれる場合は table を作成します。データの構造化が弱く、値の近くにキーワードが配置されている場合は、Allow multiple items オプションを使用してグループを作成します。ドキュメントごとにデータの構成が異なる場合は、ドキュメントの大半に最も適したオプションを選択してください。
- table にラベル付けする際は、まず最初の行をマークしてから Continue table from this row をクリックし、table 全体が正しくラベル付けされていることを確認します。最初の行のセルをマークするには、セルを一つずつクリックすると、対応する列が自動的に作成されます。table 全体をマークし終えるまで続けてください。
table が大きく、ドキュメントのページが見た目に類似している場合は、類似ページを削除し、最初と最後のページ、および中間のいくつかのページにラベル付けしてかまいません。
- 個別の field(例:住所)であれ、table のセル(例:“Description”)であれ、別の field の領域内で field を検索するようにプログラムに指示しないでください。大きなテキスト断片からデータを抽出する必要がある場合は、一連のアクティビティを使用します。まず、半構造化ドキュメントからデータを抽出するためのアクティビティを使い、目的の領域を見つけるように学習させます。次に、この領域から特定の field を抽出するには、テキスト(NLP)からデータを抽出するアクティビティを使用するか、独自のスクリプトルールを実装します。
- ある程度ラベル付けを行った後に field を追加した場合は、この新しい field をトレーニングセット内のすべてのドキュメントに対してラベル付けする必要があります。すべてのドキュメントを見直し、その field が存在するすべてのドキュメントに新しい field のラベルを付けてください。
非構造化ドキュメントには、まったく構造化されていない情報が含まれます。例としては、契約書、学術論文、電子メールメッセージなどがあります。
非構造化ドキュメントにラベル付けする際は、次のガイドラインに従ってください。
- 各fieldの領域を正確に指定してください。fieldの値だけでは学習には不十分です。
- セグメントにラベル付けする場合(Segmentationアクティビティで学習されるfieldなど)、領域には1つ以上の段落全体を含める必要があります。セグメントに段落の一部だけを含めることはできません。
- fieldの領域を指定するには、その値(含まれる語や語句)をクリックすると、領域が自動的に作成されます。
- fieldに値がない場合は、そのfieldの領域は作成しないでください。
- 語の一部だけをマークしないでください。プログラムは語全体に基づいてのみ学習できます。
語の後に句読点が続く場合(例: ”… and Mary Jones,(“Borrower… ”))は、句読点を囲い込まないように領域を調整してください。
- 場合によっては、fieldの領域が次のページにまたがることがあります(例: 契約書の条項)。この場合、最初のページでfieldの一部にラベル付けし、次のページでShiftキーを押しながらラベル付けを続けてください。
- 別のfieldの領域内にあるfieldの領域を作成する場合(例: セグメント内のfieldをマークする)、目的のfieldを選択し、他のfieldの領域内でそのままラベル付けを開始してください。既存の領域は選択されず、選択したfieldの新しい領域が作成されます。