メインコンテンツへスキップ
Skill を学習およびテストするには、所定の数のドキュメントにラベル付けする必要があります。以下のガイドラインに従うと、適切にラベル付けできます。
Tip: 非構造化ドキュメントのラベル付けに関するガイドラインは、Advanced Designer Guide を参照してください。

構造化ドキュメント

構造化ドキュメントには、常に同じ種類の情報が、同じ位置に配置されています。例としては、定型のフォームが挙げられます。レイアウトに差異がないため、学習用には少数のサンプルドキュメントにラベル付けすれば十分です。 構造化ドキュメントにラベル付けする際は、次のガイドラインに従ってください。
  • 学習には値だけでは不十分なため、各fieldの領域を正確に指定してください。
  • fieldの領域をマーキングする際は、値をクリックするのではなく、プレースホルダー全体を囲んで指定してください。
  • fieldに値がない場合は、空のプレースホルダーをマークしてください。
  • fieldが複数の部分で構成される場合は、Shiftキーを押しながら部分を追加してください。すべての部分が同一のページ上にある必要があります。
  • 固定フォームに表が含まれている場合は、空行も含めてすべての行をマークしてください。
  • いったんラベル付けを行った後に新しいfieldを追加した場合は、学習セット内のすべてのドキュメントでそのfieldにラベル付けする必要があります。すべてのドキュメントを見直し、該当するすべてのドキュメントで新しいfieldにラベル付けしてください。

セミ構造化ドキュメント

セミ構造化ドキュメントには、一般的に同じまたは類似の種類の情報が含まれますが、field の位置、サイズ、数はドキュメントごとに異なる場合があります。セミ構造化ドキュメントの例には、請求書、支払指図、インボイスがあります。 セミ構造化ドキュメントにラベル付けする際は、次のガイドラインに従ってください。
  • 学習には値だけでは不十分なため、各 field の領域を正確に指定してください。
  • field の領域をマークするには、その値(つまり、含まれる語や語句)をクリックすると、領域が自動的に作成されます。
  • field に値が含まれない場合は、そのような field の領域を作成しないでください。
  • 語の一部をマークしないでください。プログラムは語全体でのみ学習できます。
  • field が複数の部分からなる場合は、Shift キーを押しながら部分を追加します。すべての部分が同じページ上にある必要がある点に注意してください。
  • 繰り返し構造がある場合は、まずドキュメントを分析し、表または繰り返しグループのいずれかを作成します。ドキュメントに共通のヘッダーがあり、その横にキーワードがない値を含む表がある場合は、表を作成します。データの構造化が弱く、値の近くにキーワードが配置されている場合は、Allow multiple items オプションを有効にしたグループを作成します。ドキュメントごとにデータの構成が異なる場合は、ドキュメントの大多数に最も適したオプションを選択してください。
  • 表にラベル付けする場合、最初の行をマークしてから Continue table from this row をクリックし、表全体に正しくラベルが付けられていることを確認します。最初の行のセルをマークするには、そのセルを一つずつクリックすると、対応する列が自動的に作成されます。表全体のマークが完了するまで続けてください。
Tip: 表が大きく、ドキュメントのページの見た目が類似している場合は、類似するページを削除し、最初のページ、最後のページ、そして中間のいくつかのページにラベル付けできます。
  • それが個別の field(住所など)であっても、表セル(“Description” など)であっても、別の field の領域内で field を見つけるようプログラムに指示しないでください。大きなテキスト片からデータを抽出する必要がある場合は、Advanced Designer を使用してください。
  • すでに一部のラベル付けが行われた後に field が追加された場合、この新しい field は学習用データセット内のすべてのドキュメントでラベル付けされている必要があります。すべてのドキュメントを確認し、新しい field が出現するすべてのドキュメントでラベル付けしてください。