Segmentation 活动 - ABBYY Documentation

Segmentation 活动旨在将非结构化文档中的文本划分为段落。这样，程序即可缩小由其他活动提取的字段的搜索区域。该活动还可用于将整段文本提取到 Text 字段中 (例如，如果你想从合同中提取包含法律条款和条件的段落) 。

典型段落示例图

使用场景

在以下情况下，将此活动添加到您的文档处理流程中：

当您确定要从文档中提取的命名实体始终位于同一段落时。例如，如果您知道需要提取的组织名称和地址位于每份合同的第一段中，您可以先使用 Segmentation 活动提取第一段，然后再使用 Named Entities (NER) 活动从该段中提取公司名称和地址。与从整个文档中提取命名实体相比，这种方法更可靠，因为您可以精确控制实体的提取范围。
当需要完整提取一个段落，因为其中的所有内容都很重要时，例如包含合同付款条款的段落。

工作原理

分割活动通过参考标注进行训练，因此必须对尽可能多的文档进行准确标注。如果训练集包含足够数量的文档，该活动将通过交叉验证进行训练。文档集会被划分为多个子集，并对该活动进行多次训练。每次训练都会排除其中一个子集，将其用于内部测试，从而验证训练结果。该技术既可以提高提取精度，又有助于发现标注错误并为其提供修正建议。推荐的样本文档数量如下：

对于高差异性文档，至少需要 100 份样本文档。
对于低差异性文档，至少需要 20 份样本文档。

有关更多信息，请参阅设置分割活动。

Advanced Designer

​使用场景

​工作原理

使用场景

工作原理