跳转到主要内容
Segmentation 活动旨在将非结构化文档中的文本划分为段落。这样,程序即可缩小由其他活动提取的字段的搜索区域。该活动还可用于将整段文本提取到 Text 字段中(例如,如果你想从合同中提取包含法律条款和条件的段落)。
段落示例

使用场景

在以下情况下,将此活动添加到您的文档处理流程中:
  • 当您确定要从文档中提取的命名实体始终位于同一段落时。例如,如果您知道需要提取的组织名称和地址位于每份合同的第一段中,您可以先使用 Segmentation 活动提取第一段,然后再使用 Named Entities (NER) 活动从该段中提取公司名称和地址。与从整个文档中提取命名实体相比,这种方法更可靠,因为您可以精确控制实体的提取范围。
  • 当需要完整提取一个段落,因为其中的所有内容都很重要时,例如包含合同付款条款的段落。

工作原理

分割活动通过参考标注进行训练,因此必须对尽可能多的文档进行准确标注。 如果训练集包含足够数量的文档,该活动将通过交叉验证进行训练。文档集会被划分为多个子集,并对该活动进行多次训练。每次训练都会排除其中一个子集,将其用于内部测试,从而验证训练结果。该技术既可以提高提取精度,又有助于发现标注错误并为其提供修正建议。 推荐的样本文档数量如下:
  • 对于高差异性文档,至少需要 100 份样本文档。
  • 对于低差异性文档,至少需要 20 份样本文档。
有关更多信息,请参阅设置分割活动