用于 NLP 的提取规则 Activity

提取规则 Activity 处理非结构化文档的已识别文本。这些规则使用命名实体、关键词和正则表达式，为需要提取的字段设置条件。

使用场景

在以下情况下，将此活动添加到您的文档处理流程中：

如果您已通过 Named Entities (NER) 活动提取了多个同一类型的对象，现在需要查找其中的特定实例。例如，可以从租赁协议中提取多个 Organization 实体。您可以使用 Extraction Rules 活动来确定房东和承租人。
如果您没有足够的文档来使用 Deep Learning 活动。在这种情况下，您可以创建一个 Extraction Rules 活动，并通过关键词、正则表达式或其他业务逻辑来提取所需对象。
如果您需要提取一种非标准类型的对象。例如，您可能希望提取日期与时间的组合，而不仅仅是日期。
如果您需要将与同一对象相关的多个字段进行分组。例如，您可以使用 Extraction Rules 活动将每个人的姓名、出生日期和地址分组在一起。Named Entities (NER) 活动也可以提取姓名和地址，但无法让您将地址与其对应的姓名进行匹配。

工作原理

该活动使用自然语言处理 (NLP) 在文本中查找搜索元素。搜索元素包括命名实体，以及与关键字或正则表达式匹配的单词或短语。配合由其他活动提取的字段一起使用时，搜索元素可作为提取规则的构建块，这些规则用于指定字段相对于其他文本的位置。可以通过 UI 轻松创建提取规则，并使用一种专用语言进行进一步自定义。搜索元素可以映射到字段，这样搜索元素区域中的识别文本就会用于填充其映射字段。有关更多信息，请参阅设置 Extraction Rules 活动。

Advanced Designer

​使用场景

​工作原理

使用场景

工作原理