Segmentation アクティビティは、非構造化ドキュメント内のテキストを段落に分割するために設計されています。これにより、他のアクティビティで抽出が必要な field の検索範囲を絞り込むことができます。また、このアクティビティを使用して、段落全体を Text フィールドとして抽出することも可能です (たとえば、契約書から条項や条件をまとめて抽出したい場合など) 。Documentation Index
Fetch the complete documentation index at: https://docs.abbyy.com/llms.txt
Use this file to discover all available pages before exploring further.
代表的な段落のサンプル画像
代表的な段落のサンプル画像

ユースケース
- ドキュメントから抽出したい固有表現が常に同じ段落にあると分かっている場合。たとえば、抽出が必要な組織名と住所が各契約書の最初の段落にあると分かっている場合は、Segmentation アクティビティで最初の段落を抽出し、その段落に対して Named Entities (NER) アクティビティを使用して会社名と住所を抽出できます。抽出対象の領域を限定して制御できるため、ドキュメント全体から固有表現を抽出するよりも、この方法のほうが信頼性が高くなります。
- 段落全体の内容に価値があるため、段落を丸ごと抽出する必要がある場合。たとえば、契約書の支払い条件を含む段落など。
仕組み
- ばらつきの大きいドキュメントでは、少なくとも100件のサンプルドキュメントが必要です。
- ばらつきの小さいドキュメントでは、少なくとも20件のサンプルドキュメントが必要です。
