Advanced Designer で混在文書セットを処理する

「混在」文書セットは、Advanced Designer では 2 つの意味で使われます。

半構造化文書と非構造化文書の両方 (異なる文書タイプ) を含む 1 つのセット。
構造が混在した 1 つの文書。たとえば、埋め込みテーブル、埋め込み field、タイトル、ヘッダー、またはフッターを含む非構造化の契約書です。

シナリオを選択

シナリオ	使用する場合	主要アクティビティ
1つのセット内の半構造化文書 + 非構造化文書	両方が共有の出力fieldsを持つ1つの論理型に属する場合	Classify + IF + Fast Learning + Segmentation + Deep Learning for NLP
fieldsが埋め込まれたテーブルセル	テーブルセル内から値を抽出する場合 (例: Closing Disclosure内の名前)	Fast Learning + NER (+ Address Parsing)
テーブル/タイトル/ヘッダー/フッターが埋め込まれた非構造化文書	主に非構造化文書で、一部に半構造化の要素を含む場合	Segmentation + Extraction Rules

以下の各シナリオは共通のパターンに従っており、異なるのは処理フローに追加するアクティビティだけです。

一般的なワークフロー

Document skill を作成

Advanced Designer を開き、スタートページで Create Document Skill をクリックします。

ドキュメントをアップロード

Documents タブで、Skill の設定に使用するドキュメントをアップロードします。

fields を定義してラベル付け

Fields タブで、Skill が抽出する fields を作成して設定します。Reference セクションでドキュメントにラベル付けします。

Activity を追加して設定

Activities タブで、シナリオに応じた Activity (詳細は以下を参照) を追加します。各 Activity を Activity Editor で開き、設定して学習させます。

テストして公開

Test Skill Using Selected Documents をクリックして結果を評価します。結果が十分に良好であれば、Skill を公開します。

1 つのセット内の半構造化文書と非構造化文書

1 つの Document skill で半構造化文書と非構造化文書の両方を処理する必要がある場合は、このシナリオを使用します。これらはどちらも同じ論理タイプに属し、同じ出力fieldsのセットを共有します。各文書は、テキストとレイアウト情報を組み合わせて、低品質の画像やグラフィック上の特徴 (署名、印章) だけが異なる文書に対応できる Classify By Text and Image activity で分類します。最良の結果を得るには、分類器がバランスの取れた学習データを得られるように、各バリエーションについておおむね同数の文書をアップロードしてください。次に、IF アクティビティを使ってフローを分岐します。

半構造化文書は Fast Learning アクティビティで処理します。
非構造化文書は、Segmentation アクティビティの後に Deep Learning for NLP activity を使用して処理します。

Classify と IF により Fast Learning と Segmentation + Deep Learning for NLP に分岐するドキュメント処理フロー

セルテキストにfieldsが埋め込まれたテーブルセル

このシナリオは、半構造化文書のテーブルセル内から特定の値を抽出する必要がある場合に使用します。たとえば、Closing Disclosure のセルに埋め込まれた借入人の氏名や住所の一部を抽出する場合です。まずセルを 1 つのテキストブロックとして Fast Learning アクティビティで抽出し、その後、そのブロックに対して NLP アクティビティを実行して、埋め込まれたfieldsを抽出します。

氏名や組織名などの固有表現を抽出するには、固有表現 (NER) アクティビティを使用します。
住所を構成要素に分解するには、Address Parsing activity を使用します。

Fast Learning から Named Entities（NER）アクティビティと Address Parsing アクティビティに渡されるドキュメント処理フロー

テーブル、タイトル、ヘッダー、またはフッターを含む非構造化文書

このシナリオは、主に非構造化文書 (たとえば契約書) でありながら、テーブル、タイトル、ヘッダー、またはフッターなどの半構造化要素が埋め込まれている文書に使用します。プレーンテキストの段落は Segmentation アクティビティで検出し、半構造化要素は Extraction Rules アクティビティで検出します。各要素を切り分けたら、適切なアクティビティを使用してそのfieldsを抽出します。

​シナリオを選択

​一般的なワークフロー

​1 つのセット内の半構造化文書と非構造化文書

​セルテキストにfieldsが埋め込まれたテーブルセル

​テーブル、タイトル、ヘッダー、またはフッターを含む非構造化文書

​関連アクティビティ

シナリオを選択

一般的なワークフロー

1 つのセット内の半構造化文書と非構造化文書

セルテキストにfieldsが埋め込まれたテーブルセル

テーブル、タイトル、ヘッダー、またはフッターを含む非構造化文書

関連アクティビティ