ラベル付けガイドライン

文書をラベル付けするには、field の値を含む領域をマークし、各 field に含まれるデータの型を Skill に指定します。始める前に、field の形状に適した選択方法を選び、そのうえで構造化、半構造化、または非構造化文書の種類に応じたガイドラインに従ってください。

選択方法

方法	最適な用途
単語にカーソルを合わせてクリック	1単語のfield
単語を囲むようにドラッグして四角形を描く	半構造化文書
最初の単語をクリックしてから、最後の単語までドラッグ (左マウスボタンを押したまま)	非構造化文書

構造化文書

構造化文書 (定型フォームなど) には、常に同じ情報が同じ位置にあります。レイアウトのばらつきがないため、ラベル付けするサンプル文書は数件で十分です。

各fieldの領域は正確に指定してください。学習にはfield valuesだけでは不十分です。
値そのものではなく、プレースホルダー全体を指定してください。
fieldに値がない場合でも、空のプレースホルダーを指定してください。
複数の部分で構成されるfieldでは、Shift を押しながら追加の部分を加えます。すべての部分は同じページ上になければなりません。
固定フォーム上のテーブルでは、空の行も含めてすべての行をラベル付けしてください。
ラベル付け後に新しいfieldを追加した場合は、トレーニングセット内のすべての文書に戻ってそのfieldをラベル付けしてください。

半構造化文書

半構造化文書 — 請求書、支払指図書、インボイス — には類似したfieldが含まれますが、fieldの位置、サイズ、数は文書ごとに異なります。

各fieldの領域を正確に指定してください。学習にはfieldの値だけでは不十分です。
fieldの値 (含まれる単語) をクリックしてください。領域は自動的に自動的に作成されます。
fieldに値がない場合は、その領域を作成しないでください。
単語の一部だけをマークしないでください。トレーナーは完全な単語だけを対象に学習します。
複数パートのfieldでは、Shiftを押したまま追加のパートを加えます。すべてのパートが同じページ上になければなりません。
別のfieldの領域の内側にあるfieldsを見つけるようプログラムに指示しないでください (住所のような個別のfieldでも、Descriptionのようなテーブルセルでも同様です) 。大きな領域から抽出するには、activitiesを連結します。まず半構造化文書の extraction activityで領域を見つけ、その後にNLP Extraction Rules activityまたはscript ruleを使って、そこから特定のfieldsを抽出します。
ラベル付け後に新しいfieldを追加した場合は、トレーニングセット内のすべての文書に戻ってそのfieldをラベル付けしてください。

テーブルと繰り返しグループ

繰り返しデータの場合は、テーブルと繰り返しグループのどちらを使うかを判断します。

Use this	When
テーブル	共通のヘッダーがあり、値の横にキーワードがない表形式のデータ
繰り返しグループ with the 複数項目を許可 option	キーワードが値の横に配置される、あまり構造化されていないデータ

文書ごとに構成が異なる場合は、大半の文書に適したほうを選択します。テーブルにラベル付けするには、最初の行のセルを1つずつ順番にマークします (クリックするたびに列が作成されます) 。その後、この行からテーブルを続ける をクリックし、テーブルの残りの部分が正しくラベル付けされていることを確認します。

見た目が似たページにまたがる大きなテーブルでは、似た中間ページを削除し、最初のページ、最後のページ、その間の数ページだけにラベル付けできます。

非構造化文書

非構造化文書 — 契約書、学術論文、メールメッセージなど — には一貫した構造がありません。

各 field の領域を正確に指定してください。学習には field values だけでは不十分です。
セグメント (Segmentation アクティビティで学習させる fields) の場合は、1 つ以上の段落全体を含めてください。セグメントには段落の一部だけを含めることはできません。
field の値 (含まれている単語) をクリックしてください。領域は自動的に作成されます。
field に値がない場合は、その領域を作成しないでください。
単語の一部だけをマークしないでください。トレーナーが学習するのは単語全体だけです。
単語の後に句読点が続く場合は、句読点が含まれないように領域を調整してください。
field の領域は複数ページにまたがることがあります (たとえば契約条項) 。最初の部分を 1 ページ目でラベル付けし、その後 Shift を押しながら次のページで続けてください。
別の field の領域内にある field (たとえばセグメント内の field) にラベル付けするには、内側の field を選択してラベル付けを開始してください。すると、外側の領域を選択するのではなく、新しい領域が作成されます。

これは上記の半構造化文書のガイドラインとは逆です。非構造化文書のセグメントは内側の fields を含むように設計されているため、その中でラベル付けすることが想定されています。半構造化文書では、同様の入れ子構造によって学習の競合が生じます。

​選択方法

​構造化文書

​半構造化文書

​テーブルと繰り返しグループ

​非構造化文書

​関連トピック

選択方法

構造化文書

半構造化文書

テーブルと繰り返しグループ

非構造化文書

関連トピック