メインコンテンツへスキップ

混在ドキュメントセット(半構造化/非構造化)からのデータ抽出

1つの Document skill で半構造化ドキュメントと非構造化ドキュメントの両方を処理する必要があるとします。この場合はまず、Classify By Text and Image アクティビティを使ってドキュメントを該当するタイプに分類します。このアクティビティはテキストと幾何学的特徴を組み合わせて用いるため、画質の低い画像や、署名や印章などのグラフィック要素でしか区別できない異なるクラスのドキュメントでも分類できます。 IF アクティビティで処理フローを分岐し、非構造化ドキュメントと半構造化ドキュメントを分けます。各分岐は、「Processing semi-structured documents」および「Processing unstructured documents」の各セクションに示したいずれかのシナリオで処理できます。たとえば、半構造化ドキュメントは Fast Learning アクティビティで、非構造化ドキュメントは Segmentation アクティビティと NLP 用の Deep Learning アクティビティの組み合わせで処理できます。 ここで扱うドキュメントはいずれも同一タイプに属するため、出力 field のセットは同一になります。 混在ドキュメント処理フロー

Document Skill を作成する手順

  1. Advanced Designer を開きます。スタートページで Create Document Skill をクリックし、新しい Skill を作成します。
  2. 開いた Documents タブで、Skill の設定に使用するドキュメントをアップロードします。分類器の構成に十分なドキュメントセットとするため、各バリアントに対して概ね同数のドキュメントを追加します。
  3. 画像のアップロード後、Fields タブに移動し、Skill で抽出する fields を作成・設定して、Skill の field 構造を定義します。Reference セクションでドキュメントにラベル付けします。
  4. Activities タブに移動し、ドキュメント処理フローに Classify アクティビティを追加します。
  5. Activity Editor を開き、Classify アクティビティを設定します。各バリアントに対応するクラスを作成し、ドキュメントに割り当ててから、アクティビティを学習させます。
  6. Activities タブに戻り、IF アクティビティを追加して処理フローの条件分岐を設定し、各ドキュメントのバリアントを処理する個別のアクティビティも追加します。
  7. 作成したアクティビティを設定して学習させます。
  8. Test Skill Using Selected Documents をクリックして Skill をテストし、結果を分析します。
  9. テスト結果が十分に良好になったら、Skill を公開します。

半構造化ドキュメントの表セルからのテキスト抽出

表を含む半構造化ドキュメントからデータを抽出する際、各セルのテキストだけでなく、そのテキスト内に含まれる特定の数値も抽出する必要がある場合があります。たとえば、Closing Disclosure ドキュメントから借り手に関する情報を抽出する必要がある場合は、半構造化ドキュメント向けの Fast Learning アクティビティを使って対象の表セル全体のテキストを抽出し、その後、非構造化ドキュメント向けのアクティビティ(この例では Named Entities (NER) と Address Parsing)を用いて、対象セル内から借り手の氏名と住所の一部を抽出できます。 NER と Address Parsing を用いた Fast Learning

Document Skill を作成する手順

  1. Advanced Designer を開きます。スタートページで Create Document Skill をクリックして新しい Skill を作成します。
  2. 開いた Documents タブで、Skill の設定に使用するドキュメントをアップロードします。
  3. 画像をアップロードしたら、Fields タブに移動し、Skill で抽出する fields を作成・設定して、Skill の field 構造を定義します。Reference セクションでドキュメントにラベルを付けます。
  4. Activities タブに移動し、Fast Learning アクティビティを作成して、このアクティビティで抽出する fields を指定します。
  5. Activity Editor を開き、Fast Learning アクティビティを設定して学習させます。
  6. Activities タブに戻り、Named Entities (NER) アクティビティを作成し、ソース field と、抽出された固有表現を保存する fields を指定します。固有表現を選択した fields にマッピングします。
  7. 住所を含む field があり、その住所を構成要素に分割したい場合は、Address Parsing アクティビティを作成し、ソース field と、抽出された住所要素を保存する fields を指定します。住所要素を選択した fields にマッピングします。
  8. Test Skill Using Selected Documents をクリックして Skill をテストし、結果を分析します。
  9. テスト結果が十分に良好であれば、Skill を公開します。

テーブル、タイトル、ヘッダー、フッターを含む非構造化ドキュメントからのデータ抽出

テーブル、タイトル、ヘッダー、またはフッターを含む非構造化ドキュメント(例:契約書)からデータを抽出する必要があるとします。 混在ドキュメントのサンプル この場合、連続したテキスト段落を検出するために Segmentation アクティビティを設定し、半構造化の挿入要素を検出するために Extraction Rules アクティビティを設定します。必要なドキュメント断片が検出されたら、適切なアクティビティを使用してその断片から field を抽出します。

Document Skill を作成する手順

  1. Advanced Designer を開きます。スタートページで Create Document Skill をクリックして新しい Skill を作成します。
  2. 開いた Documents タブで、Skill のセットアップに使用するドキュメントをアップロードします。
  3. 画像をアップロードしたら、Fields タブに移動し、Skill で抽出する field を作成・設定して、Skill の field 構造を定義します。Reference セクションでドキュメントにラベルを付けます。
  4. Activities タブに移動し、Segmentation アクティビティを作成して、プレーンテキストの段落を保存するために使用する field を指定します。
  5. Activity Editor を開き、Segmentation アクティビティを設定して学習させます。
  6. Activities タブに戻り、Extraction Rules アクティビティを作成し、ドキュメントの半構造化フラグメントからのデータを保存するために使用する field を指定します。
  7. Activity Editor を開き、Extraction Rules アクティビティを設定してテストします。
  8. Test Skill Using Selected Documents をクリックして Skill をテストし、結果を分析します。
  9. テスト結果が十分に良好であれば、Skill を公開します。