メインコンテンツへスキップ
Segmentation アクティビティは、非構造化ドキュメント内のテキストを段落に分割するために設計されています。これにより、他のアクティビティで抽出対象となる field の検索範囲を絞り込むことができます。また、このアクティビティは、段落全体を Text field に抽出する用途にも使用できます(たとえば、契約書から条項や条件をまとめて抽出したい場合など)。
Sample Paragraph

ユースケース

次のような場合に、このアクティビティをドキュメント処理フローに追加します。
  • ドキュメントから抽出したい固有表現が常に同じ段落にあると分かっている場合。たとえば、抽出が必要な組織名と住所が各契約書の最初の段落にあると分かっている場合は、Segmentation アクティビティで最初の段落を抽出し、その段落に対して Named Entities (NER) アクティビティを使用して会社名と住所を抽出できます。抽出対象の領域を限定して制御できるため、ドキュメント全体から固有表現を抽出するよりも、この方法のほうが信頼性が高くなります。
  • 段落全体の内容に価値があるため、段落を丸ごと抽出する必要がある場合。たとえば、契約書の支払い条件を含む段落など。

仕組み

セグメンテーションアクティビティは参照ラベル付けを用いて学習されるため、可能な限り多くの文書に正確にラベル付けすることが重要です。 学習セットに十分な文書が含まれている場合、アクティビティは交差検証を用いて学習されます。文書セットを複数のサブセットに分割し、アクティビティを複数回学習します。その際、各回で1つのサブセットを学習から除外して内部テストに用い、学習結果を検証します。この手法は抽出精度を高めるとともに、ラベル付けの誤り検出や修正案の提示にも役立ちます。 推奨されるサンプル文書数は次のとおりです:
  • 変動が大きい文書の場合は、少なくとも100件のサンプル文書が必要です。
  • 変動が小さい文書の場合は、少なくとも20件のサンプル文書が必要です。
詳細は、セグメンテーションアクティビティの設定を参照してください。