Segmentation アクティビティ

Segmentation アクティビティは、非構造化ドキュメント内のテキストを段落に分割するために設計されています。これにより、他のアクティビティで抽出が必要な field の検索範囲を絞り込むことができます。また、このアクティビティを使用して、段落全体を Text フィールドとして抽出することも可能です (たとえば、契約書から条項や条件をまとめて抽出したい場合など) 。

代表的な段落のサンプル画像

ユースケース

次のような場合に、このアクティビティをドキュメント処理フローに追加します。

ドキュメントから抽出したい固有表現が常に同じ段落にあると分かっている場合。たとえば、抽出が必要な組織名と住所が各契約書の最初の段落にあると分かっている場合は、Segmentation アクティビティで最初の段落を抽出し、その段落に対して Named Entities (NER) アクティビティを使用して会社名と住所を抽出できます。抽出対象の領域を限定して制御できるため、ドキュメント全体から固有表現を抽出するよりも、この方法のほうが信頼性が高くなります。
段落全体の内容に価値があるため、段落を丸ごと抽出する必要がある場合。たとえば、契約書の支払い条件を含む段落など。

仕組み

Segmentation アクティビティは参照ラベル付けを用いて学習されるため、できるだけ多くのドキュメントに正しくラベル付けすることが重要です。トレーニングセットに十分な数のドキュメントが含まれている場合、アクティビティは交差検証を用いて学習されます。ドキュメントセットはいくつかのサブセットに分割され、アクティビティは複数回学習されます。各回で1つのサブセットを学習対象から除外し、内部テストに使用することで、学習結果を検証できます。この手法により、抽出精度が向上するほか、ラベル付けの誤りを検出して修正を提案できるようになります。推奨されるサンプルドキュメント数は次のとおりです。

ばらつきの大きいドキュメントでは、少なくとも100件のサンプルドキュメントが必要です。
ばらつきの小さいドキュメントでは、少なくとも20件のサンプルドキュメントが必要です。

詳細については、Segmentation アクティビティの設定を参照してください。

​ユースケース

​仕組み

ユースケース

仕組み