NLP 向け Deep Learning アクティビティ

Deep Learning for NLP アクティビティは、自然言語処理 (NLP) 技術を使用して、非構造化文書から field を抽出できるよう Skill を学習させるためのアクティビティです。 Deep Learning アクティビティは、別のアクティビティで事前に抽出された field に対してのみ設定できます。たとえば、Segmentation アクティビティを使用してテキストの段落を抽出し、その後、その段落から field を抽出するように Deep Learning アクティビティを設定できます。

このアクティビティがサポートするのは、型が Text の field のみです。

学習要件

Deep Learning アクティビティは参照ラベル付けを使用して学習されるため、すべての文書画像でfieldの位置が正しく指定されていることが重要です。トレーニングセット内のラベル付けされた文書の数が多いほど、field抽出の品質は高くなります。推奨されるサンプル文書数は次のとおりです。

ばらつきの大きい文書では、少なくとも 150 件のサンプル文書 (候補ごとに 2～3 件のサンプル文書) が必要です。
ばらつきの小さい文書では、1 件のサンプル文書から学習を開始できますが、候補ごとに少なくとも 2～3 件のサンプル文書が必要です。

別のドキュメントセットを使用する

別のドキュメントセットを使用して、Deep Learning アクティビティを学習できます。その場合は、Skill Name の横にあるドロップダウンリストから Deep Learning アクティビティを選択します。次に、Upload ボタンの左にあるドロップダウンリストで必要なドキュメントセットを選択するか、Create Set… をクリックして新しいセットを作成します。このタブでは、Documents セクションで説明されているとおり、ドキュメントのアップロード、削除、回転を行えます。

サポートされている言語

サポートされている言語: 英語、フランス語、ドイツ語、日本語、ロシア語、スペイン語、イタリア語、ポルトガル語 (標準) 、オランダ語。

Deep Learning アクティビティの設定

アクティビティを追加

Activities タブで、ドキュメント処理フローに Deep Learning アクティビティを追加します。Deep Learning アクティビティは、その source として使用する field を抽出するアクティビティの後に配置する必要があることに注意してください。

ソース field を選択

Activity Properties ペインの Field ドロップダウンリストを使用して、fields の抽出元となる非構造化テキストフラグメントに対応するソース field を選択します。

出力 field を選択

ソース field から抽出する fields を選択します。ソース field と同じネストレベルの fields、または 1 つ下のレベルの fields を選択できます。

documents にラベル付け

Activity Editor をクリックし、Fields タブに移動して、ソース field から抽出する fields の Region を指定しながら documents にラベル付けします。Activity Editor でのラベル付けプロセスは、通常の文書のラベル付けプロセスと同じですが、例外が 1 つあります。Deep Learning アクティビティで抽出する fields は、ソース field の Region 内に配置されている必要があります。ドキュメントセットのサイズを決める際は、次のガイドラインを使用してください。

NLP 用の Deep Learning アクティビティは sample document が 1 件あれば開始できますが、候補ごとに少なくとも 2～3 件の sample document が必要です。
トレーニングセットに 1～150 件の documents が含まれている場合は、アクティビティの学習を開始できますが、Advanced Designer に「We recommend adding at least 150 documents」という warning が表示されます。
トレーニングセットに 150～10,000 件の documents が含まれている場合は、すぐにアクティビティの学習を開始できます。これは、トレーニングセットに含める documents 数として推奨される範囲です。
トレーニングセットに 10,000 件を超える documents が含まれている場合は、Skill が不安定になる可能性があることを示す warning が Advanced Designer に表示されます。

アクティビティを学習

Train Activity をクリックして、アクティビティを学習します。

結果を確認

アクティビティの学習が完了すると、アクティビティのテストが自動的に開始されます。テストの完了後、Results タブに移動して、アクティビティの field 抽出結果を確認します。Results タブに表示される統計は、Results タブに表示される Skill の一般的な統計と同じです。必要に応じてラベル付けを修正し、アクティビティを再度学習します。

アクティビティの学習とテストに使用できるのは、確認済みのラベル付けがある documents のみです。参照ラベル付けが predicted labeling に基づいて自動生成されている documents は、document の context menu にある該当オプションを使用して predicted labeling を参照ラベル付けにコピーしない限り、未確認のラベル付け状態になります。各 document のラベル付けステータスは Documents タブで確認できます。document のラベル付けを確認するには、Fields タブで内容を確認する必要があります。

​学習要件

​別のドキュメントセットを使用する

​サポートされている言語

​Deep Learning アクティビティ の設定

学習要件

別のドキュメントセットを使用する

サポートされている言語

Deep Learning アクティビティの設定