メインコンテンツへスキップ
Deep Learning for NLP アクティビティは、自然言語処理 (NLP) 技術を使用して非構造化ドキュメントから field を抽出するように Skill を学習させるために設計されています。 Deep Learning アクティビティは、他のアクティビティによってすでに抽出されている field に対してのみ構成できます。たとえば、Segmentation アクティビティを使用してテキスト段落を抽出し、その後で Deep Learning アクティビティを構成して、その段落から field を抽出できます。
Note: このアクティビティでサポートされるのは、型が Text の field のみです。

トレーニング要件

Deep Learning アクティビティは参照ラベリングを使用してトレーニングされるため、すべてのドキュメント画像上で field の位置を正しく指定しておくことが重要です。トレーニングセットに含まれるラベル付きドキュメントの数が多いほど、field 抽出の品質は高くなります。サンプルドキュメントの推奨数は次のとおりです。
  • ばらつきの大きいドキュメントの場合は、少なくとも 150 件のサンプルドキュメント(バリアントごとに 2~3 件のサンプルドキュメント)が必要です。
  • ばらつきの小さいドキュメントの場合は、サンプルドキュメント 1 件からトレーニングを開始できますが、バリアントごとに少なくとも 2~3 件のサンプルドキュメントが必要です。

別の文書セットの使用

Deep Learning activity をトレーニングするために、別の文書セットを使用できます。そのためには、Skill 名の横にあるドロップダウン リストから Deep Learning activity を選択します。次に、Upload ボタンの左側にあるドロップダウン リストで必要な文書セットを選択するか、Create Set… をクリックして文書セットを新規作成します。このタブでは、Documents セクションで説明されているとおりに、文書をアップロード、削除、および回転できます。

サポートされている言語

サポートされている言語: 英語、フランス語、ドイツ語、日本語、ロシア語、スペイン語、イタリア語、標準ポルトガル語、およびオランダ語。

Deep Learning アクティビティの設定

Deep Learning アクティビティを設定するには、次の手順に従います。
  1. Activities タブで、Deep Learning アクティビティをドキュメント処理フローに追加します。Deep Learning アクティビティは、その Deep Learning アクティビティでソースとして使用する field を抽出するアクティビティの後に配置する必要があります。
  2. Activity Properties ペインの Field ドロップダウンリストを使用して、fields を抽出すべき非構造化テキスト断片に対応するソース field を選択します。
  3. ソース field から抽出すべき fields を選択します。ソース field と同じネストレベル、またはその 1 つ下のレベルにある fields を選択できます。
  4. Activity Editor をクリックし、Fields タブに移動して、ソース field から抽出すべき fields の領域を指定してドキュメントにラベル付けします。Activity Editor でのラベル付け手順は、1 つの例外を除き、通常のドキュメントのラベル付けプロセスと同じです。例外とは、Deep Learning アクティビティによって抽出される fields は、ソース field の領域内に存在している必要があるという点です。
次のガイドラインに従って、ドキュメント セットのサイズを決定します。
  • NLP 用の Deep Learning アクティビティはサンプル ドキュメント 1 件から開始できますが、バリアントごとに少なくとも 2~3 件のサンプル ドキュメントが必要です。
  • トレーニング セットに 1~150 件のドキュメントが含まれている場合は、アクティビティのトレーニングを開始できますが、Advanced Designer には「少なくとも 150 件のドキュメントを追加することを推奨します」という警告が表示されます。
  • トレーニング セットに 150~10,000 件のドキュメントが含まれている場合は、すぐにアクティビティのトレーニングを開始できます。これは、トレーニング セットに含めるドキュメント数として推奨される範囲です。
  • トレーニング セットに 10,000 件を超えるドキュメントが含まれている場合は、Advanced Designer に、Skill が不安定になる可能性があるという警告が表示されます。
  1. Train Activity をクリックしてアクティビティをトレーニングします。
  2. アクティビティのトレーニングが完了すると、アクティビティのテストが自動的に開始されます。テスト完了後、Results タブに移動し、アクティビティの field 抽出結果を分析します。Results タブに表示される統計情報は、Results タブに表示される Skill 全体の一般的な統計情報と同じです。必要に応じて、ラベル付けを修正し、アクティビティを再トレーニングしてください。
アクティビティは、ラベル付けが確定しているドキュメントのみを使用してトレーニングおよびテストできます。参照ラベル付けが予測ラベル付けに基づいて自動生成されている場合、そのドキュメントのラベル付けは未確定です。ただし、ドキュメントのコンテキスト メニューで該当するオプションを使用して、予測ラベル付けを参照ラベル付けにコピーした場合は除きます。各ドキュメントのラベル付けステータスは、Documents タブで確認できます。ドキュメントのラベル付けを確定するには、Fields タブでそのドキュメントを確認する必要があります。