跳转到主要内容
分段活动用于将非结构化文档中的文本分割为段落。这样,程序就能缩小由其他活动需要提取的字段的搜索范围。该活动还可用于将整段内容提取到文本字段中(例如,当你想从合同中提取包含法律条款与条件的段落时)。
示例段落

使用场景

在以下情况下,将此活动添加到您的文档处理流程中:
  • 当您明确要从文档中提取的命名实体始终位于同一段落时。例如,如果您知道需要提取的组织名称和地址位于每份合同的第一段,您可以先使用 Segmentation 活动提取第一段,再使用 Named Entities (NER) 活动从该段落中提取公司名称和地址。与从整份文档提取命名实体相比,这种做法更可靠,因为您可以限定实体提取的具体范围。
  • 当需要完整保留某个段落的全部内容(因为其内容都很重要)时,例如包含合同付款条款的段落。

工作原理

分段活动通过参考标注进行训练,因此尽可能为尽量多的文档进行准确标注至关重要。 如果训练集包含足够多的文档,活动将采用交叉验证进行训练。文档集会被划分为若干子集并多次训练。每次训练都会留出一个子集不参与训练,用于内部测试,以便验证训练结果。该方法既可提升提取准确性,也能发现标注错误并提供更正建议。 建议的样本文档数量如下:
  • 对于高变动性的文档,至少需要 100 份样本文档。
  • 对于低变动性的文档,至少需要 20 份样本文档。
有关更多信息,请参见设置分段活动