跳转到主要内容
Extraction Rules 活动基于非结构化文档的识别文本工作。规则通过命名实体、关键词和正则表达式为所需提取的字段设定条件。

使用场景

在以下情况下,将此活动添加到您的文档处理流程中:
  • 如果您通过 Named Entities (NER) 活动提取了多个同类对象,现在需要定位某个特定实例。例如,可能会从租赁协议中提取出多个 Organization 实体。您可以使用 Extraction Rules 活动来确定房东和租户。
  • 如果您没有足够的文档来使用 Deep Learning 活动。在这种情况下,您可以创建一个 Extraction Rules 活动,并通过关键词、正则表达式或其他业务逻辑来提取所需对象。
  • 如果您需要提取一种非标准类型的对象。例如,您可能希望提取日期与时间的组合,而不是仅提取日期。
  • 如果您需要将多个与同一对象相关的field进行分组。例如,您可以使用 Extraction Rules 活动将每个人的姓名、出生日期和地址分组在一起。Named Entities (NER) 活动也可以提取姓名和地址,但无法将地址与其对应的姓名进行匹配。

工作原理

此活动使用自然语言处理(NLP)在文本中查找搜索元素。搜索元素包括命名实体,以及与关键字或正则表达式匹配的词或短语。结合由其他活动提取的字段,搜索元素可作为提取规则的构件,用于指定字段相对于其他文本的位置。提取规则可通过 UI 轻松创建,并可使用专用语言进一步自定义。 可以将搜索元素映射到字段,这样来自搜索元素区域的识别文本将用于填充其映射的字段。 有关更多信息,请参见设置 Extraction Rules 活动