跳转到主要内容
提取规则 Activity 处理非结构化文档的已识别文本。这些规则使用命名实体、关键词和正则表达式,为需要提取的字段设置条件。

使用场景

在以下情况下,将此活动添加到您的文档处理流程中:
  • 如果您已通过 Named Entities(NER)活动提取了多个同一类型的对象,现在需要查找其中的特定实例。例如,可以从租赁协议中提取多个 Organization 实体。您可以使用 Extraction Rules 活动来确定房东和承租人。
  • 如果您没有足够的文档来使用 Deep Learning 活动。在这种情况下,您可以创建一个 Extraction Rules 活动,并通过关键词、正则表达式或其他业务逻辑来提取所需对象。
  • 如果您需要提取一种非标准类型的对象。例如,您可能希望提取日期与时间的组合,而不仅仅是日期。
  • 如果您需要将与同一对象相关的多个字段进行分组。例如,您可以使用 Extraction Rules 活动将每个人的姓名、出生日期和地址分组在一起。Named Entities(NER)活动也可以提取姓名和地址,但无法让您将地址与其对应的姓名进行匹配。

工作原理

该活动使用自然语言处理(NLP)在文本中查找搜索元素。搜索元素包括命名实体,以及与关键字或正则表达式匹配的单词或短语。配合由其他活动提取的字段一起使用时,搜索元素可作为提取规则的构建块,这些规则用于指定字段相对于其他文本的位置。可以通过 UI 轻松创建提取规则,并使用一种专用语言进行进一步自定义。 搜索元素可以映射到字段,这样搜索元素区域中的识别文本就会用于填充其映射字段。 有关更多信息,请参阅设置 Extraction Rules 活动