跳转到主要内容
搜索元素允许您为希望提取的对象类型及其属性设置条件。由于 NLP 活动处理的是非结构化文本,搜索条件会指定对象相对于其他文本的位置,而不是它们在版面中的几何关系。您还可以使用辅助搜索元素来缩小搜索范围,指定所需对象位于这些辅助元素之内、之前或之后。

创建搜索元素

  • 您可以通过单击图像中高亮显示的任一对象,快速创建搜索元素。新建的搜索元素类型将与您单击的对象相同。使用工具栏上的 Show Image Objects 按钮选择需要高亮显示的对象。

高亮对象

可以对以下类型的对象进行高亮显示:
  • Person
  • Organization
  • Address
  • Location
  • Date
  • Duration
  • Money
  • Recognized words
注意: 除识别的词语外,所有这些对象默认都会被高亮显示。
  • 您还可以通过菜单创建新的搜索元素:
  1. 转到文档窗口右侧的 Search Elements 选项卡。
  2. 单击 Create Element
  3. 在打开的列表中选择所需的元素类型。
创建元素后,您需要在 Properties 窗格中配置其属性(有关更多信息,请参阅 Element properties)。
注意: 指定的属性也可以以代码形式查看和编辑(有关更多信息,请参阅 Code syntax for Extraction Rules activity for NLP)。

搜索元素类型

在创建搜索元素时,您需要指定其类型,这取决于要查找的对象。可用的搜索元素类型简要说明如下。

个人

个人姓名,例如:John Doe、Jane Smith。

组织

组织名称,例如:ABBYY、Acme 公司。

地址

例如:123 Main St., Anytown AB 45678。

位置

地点名称,例如:Anytown、Corporate Place 等。

日期

以不同格式表示的日期,例如:November 14, 2009 或 11/14/2009。

持续时间

时间段,例如:12 个月、4 天。

Money

金额,例如:$2670.00、199 美元 99 美分。 注意: PersonOrganizationAddressLocationDateDurationMoney 元素对应于可在 Named Entities (NER) 活动中配置的命名实体,并使用相同的技术进行抽取。

来自字典的值

来自字典的单词或短语。字典应为纯文本(TXT)文件,其中包含用于搜索的文本变体列表,每行一个变体。

正则表达式值

符合您指定的正则表达式的值。

Text

一个关键字或短语,可以选择搜索所有词形变化,或允许一定的识别错误。

嵌套搜索元素的集合。构成一个组的元素既可以是简单元素,也可以是组元素。组元素本身没有任何属性。数据将根据其嵌套搜索元素的设置进行提取。 组元素可用于构建元素的逻辑层级结构,从而便于调试和浏览。 例如,将某个人的姓名、地址和出生日期分组在一起,可以以一致的方式提取每个人的数据。

重复组

此元素用于查找由多个元素组成的重复组。重复组适用于这样的情况:某个实体可能有多个实例,每个实例都有自己的属性,但事先无法确定会有多少个实例。每个实例的属性通过重复组中的嵌套元素来定义。 例如,如果正在处理简历,您可以创建一个名为“Education”的重复组,其中包含以下嵌套元素:“School_name”、“Degree”、“Start_date”和“Graduation_date”。 另一方面,如果要查找的数据涉及具有不同角色的不同实体,则不宜使用重复组。例如,如果一份合同中只有两方,比如买方和卖方,则应分别创建“Party1_Buyer”组和“Party2_Seller”组,而不是创建一个可重复的“Party”组。

输入字段

此元素允许您将由其他活动提取的字段作为规则的基础组件加以使用。例如,如果在 Extraction Rules 活动之前有一个 Segmentation 活动,您可能希望使用其中的一些分段来缩小搜索范围。

更改元素在列表中的类型、名称和位置

要更改元素的类型:
  • 右键单击元素,在快捷菜单中选择 Convert Element to
  • 在列表中选中一个元素,然后在图像上单击高亮显示的对象。这样可以将选定的搜索元素转换为该高亮对象的类型。如果单击高亮显示的已识别单词,可以将搜索元素转换为 Text,同时将所选单词添加到该搜索元素的关键字列表中。
  • 对于与命名实体相对应的搜索元素,使用 Entities 属性来更改命名实体的类型。
注意: 更改元素类型不会将非组元素转换为组元素,反之亦然。
要更改元素的名称:
  • 右键单击元素,在快捷菜单中选择 Rename,然后输入新名称。
  • 选择一个元素,单击其名称(或按 F2),然后输入新名称。
元素名称可以包含英文字母、数字和下划线。但是,元素名称不能以数字开头。不允许使用空格、特殊符号 (.,:- \ /) 和保留名称。 要移动列表中的元素:
  • 向上或向下拖动元素以更改其在列表中的位置。
  • 将元素拖动到组元素上,以将其放入该组中。
注意: 元素按自上而下的顺序进行搜索。这意味着,在另一个元素的搜索条件中使用到的元素,必须在元素列表中位于该元素之前。