代表的な段落のサンプル画像
代表的な段落のサンプル画像

ユースケース
- ドキュメントから抽出したい固有表現が常に同じ段落にあると分かっている場合。たとえば、抽出が必要な組織名と住所が各契約書の最初の段落にあると分かっている場合は、Segmentation アクティビティで最初の段落を抽出し、その段落に対して Named Entities (NER) アクティビティを使用して会社名と住所を抽出できます。抽出対象の領域を限定して制御できるため、ドキュメント全体から固有表現を抽出するよりも、この方法のほうが信頼性が高くなります。
- 段落全体の内容に価値があるため、段落を丸ごと抽出する必要がある場合。たとえば、契約書の支払い条件を含む段落など。
仕組み
- 変動が大きいドキュメントには、少なくとも100件のサンプルドキュメントが必要です。
- 変動が小さいドキュメントには、少なくとも20件のサンプルドキュメントが必要です。
