メインコンテンツへスキップ Segmentation アクティビティは、非構造化ドキュメント内のテキストを段落に分割するために設計されています。これにより、他のアクティビティで抽出が必要な field の検索範囲を絞り込むことができます。また、このアクティビティを使用して、段落全体を Text フィールドとして抽出することも可能です(たとえば、契約書から条項や条件をまとめて抽出したい場合など)。
次のような場合に、このアクティビティをドキュメント処理フローに追加します。
ドキュメントから抽出したい固有表現が常に同じ段落にあると分かっている場合。たとえば、抽出が必要な組織名と住所が各契約書の最初の段落にあると分かっている場合は、Segmentation アクティビティで最初の段落を抽出し、その段落に対して Named Entities (NER) アクティビティを使用して会社名と住所を抽出できます。抽出対象の領域を限定して制御できるため、ドキュメント全体から固有表現を抽出するよりも、この方法のほうが信頼性が高くなります。
段落全体の内容に価値があるため、段落を丸ごと抽出する必要がある場合。たとえば、契約書の支払い条件を含む段落など。
Segmentation アクティビティは参照ラベリングで学習するため、できるだけ多くのドキュメントに正確なラベル付けを行うことが重要です。
学習用セットに十分なドキュメントが含まれている場合、アクティビティはクロスバリデーションで学習されます。ドキュメントセットを複数のサブセットに分割し、アクティビティを複数回学習します。各回で1つのサブセットを学習から除外して内部テストに用い、学習結果を検証します。この手法により、抽出精度が向上し、ラベリングの誤り検出とその修正案の提示も可能になります。
推奨されるサンプルドキュメント数は次のとおりです:
変動が大きいドキュメントには、少なくとも100件のサンプルドキュメントが必要です。
変動が小さいドキュメントには、少なくとも20件のサンプルドキュメントが必要です。
詳細については、Segmentation アクティビティの設定 を参照してください。