跳转到主要内容分段活动用于将非结构化文档中的文本划分为段落。这样,程序就能缩小需由其他活动提取的field的搜索范围。该活动还可用于将整段文本提取到文本字段中(例如,当你希望从合同中提取包含法律条款与条件的段落时)。
在以下情况下,将此活动添加到您的文档处理流程中:
- 当您明确要从文档中提取的命名实体始终位于同一段落时。例如,如果您知道需要提取的组织名称和地址位于每份合同的第一段,您可以先使用 Segmentation 活动提取第一段,再使用 Named Entities (NER) 活动从该段落中提取公司名称和地址。与从整份文档提取命名实体相比,这种做法更可靠,因为您可以限定实体提取的具体范围。
- 当需要完整保留某个段落的全部内容(因为其内容都很重要)时,例如包含合同付款条款的段落。
Segmentation 活动通过参考标注进行训练,因此尽可能为尽可能多的文档进行准确标注至关重要。
如果训练集包含足够的文档,该活动将采用交叉验证进行训练。文档集会被划分为多个子集,并对该活动进行多次训练。每次都会将一个子集从训练中排除,用于内部测试,以便验证训练结果。该方法不仅提高提取的准确性,还能发现标注错误并提出更正建议。
建议的示例文档数量如下:
- 对于高可变性文档,至少需要 100 份示例文档。
- 对于低可变性文档,至少需要 20 份示例文档。
有关更多信息,请参阅设置 Segmentation 活动。