跳转到主要内容“提取规则”活动基于非结构化文档的识别文本工作。规则使用命名实体、关键词和正则表达式来为需要提取的字段设置条件。
在以下情况下,将此活动添加到您的文档处理流程中:
- 如果您通过 Named Entities (NER) 活动提取了多个同类对象,现在需要定位某个特定实例。例如,可能会从租赁协议中提取出多个 Organization 实体。您可以使用 Extraction Rules 活动来确定房东和租户。
- 如果您没有足够的文档来使用 Deep Learning 活动。在这种情况下,您可以创建一个 Extraction Rules 活动,并通过关键词、正则表达式或其他业务逻辑来提取所需对象。
- 如果您需要提取一种非标准类型的对象。例如,您可能希望提取日期与时间的组合,而不是仅提取日期。
- 如果您需要将多个与同一对象相关的field进行分组。例如,您可以使用 Extraction Rules 活动将每个人的姓名、出生日期和地址分组在一起。Named Entities (NER) 活动也可以提取姓名和地址,但无法将地址与其对应的姓名进行匹配。
此活动使用自然语言处理(NLP)在文本中查找搜索元素。搜索元素包括命名实体,以及与关键字或正则表达式匹配的词或短语。结合由其他活动提取的字段,搜索元素可作为提取规则的构建块,这些规则用于指定字段相对于其他文本的位置。可通过 UI 轻松创建提取规则,并可使用一种专用语言进一步自定义。
可以将搜索元素映射到字段,这样来自搜索元素区域的识别文本将用于填充其映射的字段。
有关更多信息,请参阅设置“Extraction Rules”活动。