メインコンテンツへスキップ非構造化ドキュメントを処理するための Skill は、Advanced Designer でのみ作成できます。これらの Skill のドキュメント処理フローには、NLP を用いたデータ抽出を目的とするアクティビティが含まれます。
以下のアクティビティは、サポートする言語が限定的です。各アクティビティでサポートされる言語の一覧は、それぞれのページで確認できます。
- Segmentation activity
- Deep Learning for NLP activity
- Named Entities (NER) activity
- Address Parsing activity
たとえば、手紙などの非構造化文書から会社名や住所を抽出するための Document skill を作成する必要があるとします。これらのエンティティを抽出するには、固有表現の抽出に特化した Named Entities (NER) アクティビティを設定します。住所を通り・市区町村・州・国・郵便番号といった要素に分割し、個別の field に抽出する必要がある場合は、Address Parsing アクティビティを設定してください。
- Advanced Designer を開きます。スタートページで Create Document Skill をクリックし、新しい Skill を作成します。
- 開いた Documents タブで、Skill の設定に使用するドキュメントをアップロードします。
- 画像をアップロードしたら、Fields タブに移動し、Skill で抽出する field を作成・設定して、Skill の Field 構造を定義します。Reference セクションでドキュメントにラベル付けします。
- Activities タブに移動します。Named Entities (NER) アクティビティを作成し、抽出された固有表現を保存するための fields を指定します。固有表現を選択した fields にマッピングします。
- 住所を含む field があり、その住所を構成要素に分割したい場合は、Address Parsing アクティビティを作成し、抽出された住所要素を保存するための fields を指定します。住所要素を選択した fields にマッピングします。
- Test Skill Using Selected Documents をクリックして Skill をテストし、結果を分析します。
- テスト結果が十分に良好であれば、Skill を公開します。
抽出したい固有表現が常に同じ段落に含まれているとします。たとえば、売買契約書の「購入価格」段落から金額を抽出する必要がある場合は、まず Segmentation アクティビティで対象の段落を抽出し、その後 Named Entities (NER) アクティビティで目的の field を抽出します。対象データは Named Entities (NER) または Address Parsing アクティビティでサポートされる固有表現(例:氏名、住所、日付)である必要があります。
Fast Learning と Extraction Rules のアクティビティを使用して対象の段落を抽出することもできます。その場合は、まず Fast Learning または Extraction Rules アクティビティでテキストの一塊が正しく抽出されていることを確認し、その後に Named Entities (NER) または Address Parsing アクティビティを作成・設定します。
対象の段落に、抽出対象ではない同種の他の固有表現が含まれている場合は、次のユースケースを参照してください。
事前学習済みアクティビティは、容易に設定でき学習を必要としないため、有効な出発点です。ただし、自社の documents で学習したニューラルネットワークのほうが、より高い抽出精度を実現できる場合があります。大規模なドキュメントセットがある場合は、次のシナリオも試し、documents でより良い結果が得られるほうを選択してください。
- Advanced Designer を開きます。スタートページで Create Document Skill をクリックして新しい Skill を作成します。
- 開いた Documents タブで、Skill のセットアップに使用するドキュメントをアップロードします。
- 画像をアップロードしたら、Fields タブに移動し、Skill で抽出される fields を作成・設定して、Skill の field 構造を定義します。Reference セクションでドキュメントにラベルを付けます。
- Activities タブに移動し、Segmentation アクティビティを作成して、ターゲットの段落を保存するために使用する fields を指定します。
- Activity Editor を開き、Segmentation アクティビティを設定して学習させます。
- Activities タブに戻り、Named Entities (NER) アクティビティを作成し、ソース field と、抽出された固有表現を保存するために使用する fields を指定します。固有表現を選択した fields にマッピングします。
- 住所を含む field があり、住所を要素に分割したい場合は、Address Parsing アクティビティを作成し、ソース field と、抽出された住所要素を保存するために使用する fields を指定します。住所要素を選択した fields にマッピングします。
- Test Skill Using Selected Documents をクリックして Skill をテストし、結果を分析します。
- テスト結果が十分良好になったら、Skill を公開します。
合意当事者双方の情報を含む段落から、特定の1つの組織名だけを抽出する必要があるとします。さらに、メールアドレスも抽出する必要があります。この場合は、まず Segmentation アクティビティを使って対象の段落を抽出します。ただし、Named Entities (NER) アクティビティは使用できません。対象の段落から両方の組織名を抽出してしまううえ、メールアドレスの抽出には対応していないためです。この場合は、代わりに NLP 向け Deep Learning アクティビティを使用してください。
事前学習済みの固有表現に対する抽出精度を高める目的でも、このシナリオを利用できます。事前学習済みアクティビティと Deep Learning アクティビティの両方をテストし、ドキュメントに対して精度の高い方を選択してください。
このアクティビティの利用には多数のドキュメントが必要です(最小 50 件、少なくとも 150 件を推奨)。また、両方のアクティビティ(Named Entities (NER) と Deep Learning for NLP)をテストし、ドキュメントでより高い性能を示す方を選ぶとよいでしょう。
Document Skill を作成する手順
- Advanced Designer を開きます。スタートページで Create Document Skill をクリックして新しい Skill を作成します。
- 表示された Documents タブで、Skill の設定に使用するドキュメントをアップロードします。
- 画像をアップロードしたら、Fields タブに移動し、Skill で抽出する fields を作成・設定して field 構造を構成します。Reference セクションでドキュメントにラベルを付けます。
- Activities タブに移動し、Segmentation アクティビティを作成して、対象の段落を保存するために使用する fields を指定します。
- Activity Editor を開き、Segmentation アクティビティを設定して学習させます。
- Activities タブに戻り、Deep Learning for NLP アクティビティを作成して、このアクティビティで抽出する fields を指定します。
- Activity Editor を開いて、Deep Learning アクティビティを設定して学習させます。
- Test Skill Using Selected Documents をクリックして Skill をテストし、得られた結果を分析します。
- テスト結果が十分に良好であれば、Skill を公開します。