メインコンテンツへスキップ
Skill をトレーニングおよびテストするには、一定数のドキュメントにラベル付けする必要があります。そのためには、ドキュメント上で field 値を含む領域を選択します。領域を選択するには、次のいずれかを行います。
  • 単語にカーソルを合わせてクリックします。領域が作成され、その単語が field にコピーされます。この方法は、1語のみを含む field のラベリングに使用します。
  • いくつかの単語を囲むように Rectangle を描きます。長方形内のすべての単語が field にコピーされます。半構造化ドキュメントのラベリングには、この方法を推奨します。
  • 連続する語の最初の単語をクリックし、左ボタンを押したままシーケンスの最後の単語までドラッグして領域を選択します。非構造化ドキュメントのラベリングには、この方法を推奨します。
以下のガイドラインは、ドキュメントの種類に応じて適切にラベル付けする際に役立ちます。

構造化ドキュメント

構造化ドキュメントには、常に同一種類の情報がまったく同じ位置に配置されています。構造化ドキュメントの一例は、あらかじめ書式が定義されたフォームです。レイアウトに変動がないため、学習用には少数のサンプルドキュメントにラベル付けするだけで十分です。 構造化ドキュメントにラベル付けする際は、以下のガイドラインに従ってください。
  • 学習には値だけでは不十分なため、各fieldの領域を正確に指定してください。
  • fieldの領域をマーキングする際は、その値をクリックするのではなく、プレースホルダー全体をマーキングしてください。
  • fieldに値がない場合は、空のプレースホルダーをマーキングしてください。
  • fieldが複数のパーツで構成されている場合は、パーツを追加するためにShiftキーを押し続けてください。すべてのパーツは同一のページ上にある必要がある点に注意してください。
  • 固定フォームに表が含まれている場合は、空の行も含めてすべての行をマーキングしてください。
  • いくつかのラベル付けを実施した後にfieldが追加された場合は、この新しいfieldを学習用セット内のすべてのドキュメントに対してラベル付けする必要があります。すべてのドキュメントを見直し、この新しいfieldが存在するすべてのドキュメントでラベル付けしてください。

セミ構造化ドキュメント

セミ構造化ドキュメントは、一般に同一または類似の種類の情報を含みますが、field の位置・サイズ・数はドキュメントごとに異なる場合があります。セミ構造化ドキュメントの例には、請求書、支払指図、インボイスなどがあります。 セミ構造化ドキュメントにラベル付けする際は、次のガイドラインに従ってください。
  • 各 field の領域を正確に指定してください。field の値だけでは学習に十分ではありません。
  • field の領域を指定するには、その値(含まれる語や語句など)をクリックすると、領域が自動的に作成されます。
  • 値を含まない field には、領域を作成しないでください。
  • 語の一部をマーキングしないでください。プログラムは完全な語のみから学習できます。
  • field が複数の部分からなる場合は、Shift キーを押しながら部分を追加します。すべての部分が同一のページ上にある必要がある点に注意してください。
  • 繰り返し構造がある場合は、まず documents を分析し、テーブルまたは繰り返しグループのいずれかを作成してください。共通のヘッダーがあり、値の横にキーワードがないテーブルが含まれる場合はテーブルを作成します。データの構造化度が低く、値の近くにキーワードがある場合は、Allow multiple items オプションでグループを作成します。ドキュメントごとにデータの構成が異なる場合は、documents の大多数に最も適したオプションを選択してください。
  • テーブルにラベル付けする際は、最初の行をマーキングしてから Continue table from this row をクリックし、テーブル全体が正しくラベル付けされていることを確認します。最初の行のセルをマーキングするには、セルを一つずつクリックすると、対応する列が自動的に作成されます。テーブル全体のマーキングが完了するまで続けてください。
テーブルが大きく、ドキュメントのページの見た目が類似している場合は、類似したページを削除し、最初と最後のページ、および途中のいくつかのページにラベル付けできます。
  • 個々の field(例:住所)やテーブルセル(例:“Description”)であるかに関わらず、他の field の領域内で field を検索するようにプログラムに指示しないでください。大きなテキスト断片からデータを抽出する必要がある場合は、一連のアクティビティを使用します。まず、セミ構造化ドキュメントからデータを抽出するためのアクティビティを使用して、目的の領域を検出するように学習させます。次に、この領域から特定の field を抽出するには、テキスト(NLP)からデータを抽出するためのアクティビティを使用するか、独自のスクリプトルールを実装します。
  • ある程度ラベル付けを行った後に field を追加した場合、その新しい field は学習セット内のすべてのドキュメントでラベル付けする必要があります。すべての documents を確認し、新しい field が現れるすべてのドキュメントでその field にラベル付けしてください。

非構造化ドキュメント

非構造化ドキュメントには、体系的な構造がない情報が含まれます。例として、契約書、学術論文、電子メールなどが挙げられます。 非構造化ドキュメントにラベリングする際は、以下のガイドラインに従ってください。
  • 各fieldの領域を正確に指定してください。fieldの値だけでは学習には不十分です。
  • セグメント(Segmentationアクティビティで学習するfieldなど)にラベリングする場合、領域には1つ以上の段落全体を含めてください。セグメントに段落の一部だけを含めることはできません。
  • fieldの領域を指定するには、その値(含まれる語や語句)をクリックすると、領域が自動的に作成されます。
  • fieldに値がない場合、そのfieldの領域は作成しないでください。
  • 語の一部だけをマーキングしないでください。プログラムは語全体に対してのみ学習できます。
語の後に句読点が続く場合(例: ”… and Mary Jones,(“Borrower… “)は、領域に句読点が含まれないように調整してください。
  • 場合によっては、fieldの領域が次のページにまたがることがあります(例: 契約書の条項)。この場合、最初のページでfieldの一部にラベルを付け、次のページでもShiftキーを押しながらラベリングを続けてください。
  • 別のfieldの領域内にあるfieldの領域を作成する場合(例: セグメント内のfieldをマーキングする場合)、目的のfieldを選択し、他方のfieldの領域内でそのままラベリングを開始してください。既存の領域は選択されず、選択したfieldの新しい領域が作成されます。