Advanced Designer で非構造化文書を処理する

非構造化文書を処理する Skill は、Advanced Designer でのみ作成できます。クラウドベースの Skill Designer では、これらのシナリオはサポートされていません。これらの Skill では、4 つの主要な NLP アクティビティを使用して、エンティティの識別、テキストの分割、契約書、レター、メールなどの自由形式コンテンツからの field 抽出を行います。

これらの各アクティビティがサポートする言語は限られています。対応言語の一覧については、各アクティビティのリファレンスページを参照してください。

シナリオを選択する

シナリオ	使用する場合	主なアクティビティ
事前学習済みの固有表現 (文書全体)	固有表現は文書内のどこにでも現れる可能性があり、必要な設定は最小限です	NER (+ Address Parsing)
事前学習済みの固有表現 (特定の段落)	固有表現が現れる段落があらかじめ決まっています	Segmentation + NER (または Address Parsing)
カスタム固有表現 (Deep Learning for NLP)	事前学習済みモデルでは判別できない場合や、必要な固有表現の型がサポートされていない場合	Segmentation + Deep Learning for NLP

以下の各シナリオはいずれも共通のパターンに従っており、異なるのは処理フローに追加するアクティビティだけです。

一般的なワークフロー

Document skill を作成

Advanced Designer を開き、スタートページで Create Document Skill をクリックします。

ドキュメントをアップロード

Documents タブで、Skill の設定に使用するドキュメントをアップロードします。

field の定義とラベル付け

Fields タブで、Skill が抽出する field を作成して設定します。Reference セクションでドキュメントにラベル付けします。

NLP アクティビティの追加と設定

Activities タブで、シナリオに必要なアクティビティ (以下で説明) を追加します。各アクティビティを Activity Editor で開き、設定して学習させます。

テストして公開

Test Skill Using Selected Documents をクリックして、結果を評価します。結果が十分に良好であれば、Skill を公開します。

事前学習済みの固有表現 (文書全体)

必要な固有表現が文書内のどこに現れてもよい場合は、このシナリオを使用します。たとえば、手紙に含まれる会社名や住所などです。固有表現 (NER) アクティビティを追加し、各固有表現をfieldにマッピングします。さらに、住所を構成要素 (住所、市区町村、州、国、郵便番号) に分解する必要がある場合は、Address Parsing アクティビティを追加し、それらの構成要素をfieldsにマッピングします。

事前学習済みの固有表現 (特定の段落)

このシナリオは、固有表現が常に同じ段落内にある場合に使用します。たとえば、売買契約の価格条項に記載された購入金額です。まず、Segmentation アクティビティでその段落を切り出し、次に切り出した field に対して固有表現 (NER) または Address Parsing アクティビティを実行します。また、Segmentation の代わりに Fast Learning または NLP Extraction Rules アクティビティを使用して段落を切り出し、その結果に対して NER または Address Parsing を実行することもできます。

事前学習済みアクティビティは設定が簡単で、学習は不要ですが、お客様の文書で学習させたニューラルネットワークのほうが、より高い精度で抽出できる場合があります。大量のドキュメントセットがある場合は、以下のカスタム固有表現シナリオも試し、より適したほうを選択してください。

Segmentation から固有表現 (NER) と Address Parsing に渡るドキュメント処理フロー

カスタム固有表現 (Deep Learning for NLP)

事前学習済みアクティビティでは必要な固有表現をうまく識別できない場合に、このシナリオを使用します。たとえば、契約の両当事者が記載された段落から一方の組織名だけを抽出する場合や、NER ではカバーされない種類のエンティティ (メールアドレスなど) を抽出する場合です。Segmentation アクティビティと Deep Learning for NLP アクティビティを組み合わせてください。Segmentation で段落を切り出し、Deep Learning で目的の field を抽出します。

Deep Learning for NLP アクティビティのトレーニングには、少なくとも 50 件の文書 (推奨 150 件) が必要です。最適な結果を得るには、事前学習済みの固有表現 (NER) アクティビティも試し、お使いの文書に対してより高い精度で抽出できる方を選んでください。

Segmentation から Deep Learning for NLP アクティビティに渡すドキュメント処理フロー

​シナリオを選択する

​一般的なワークフロー

​事前学習済みの固有表現 (文書全体)

​事前学習済みの固有表現 (特定の段落)

​カスタム固有表現 (Deep Learning for NLP)

​関連アクティビティ

シナリオを選択する

一般的なワークフロー

事前学習済みの固有表現 (文書全体)

事前学習済みの固有表現 (特定の段落)

カスタム固有表現 (Deep Learning for NLP)

関連アクティビティ