跳转到主要内容
搜索元素用于为要提取的对象的类型和属性设定条件。由于 NLP 活动处理的是非结构化文本,搜索条件是依据对象与其他文本的相对位置来指定的,而非其几何关系。您还可以使用辅助搜索元素来缩小范围,规定目标对象可位于这些辅助元素的内部、之前或之后。

创建搜索元素

  • 您可以通过单击图像上任一高亮对象快速创建搜索元素。新建的搜索元素类型将与您单击的对象相同。使用工具栏上的 Show Image Objects 按钮来选择需要高亮的对象。

高亮对象

可以高亮以下类型的对象:
  • Person(人员)
  • Organization(组织)
  • Address(地址)
  • Location(位置)
  • Date(日期)
  • Duration(持续时间)
  • Money(金额)
  • Recognized words(识别到的词)
注意: 默认情况下会高亮上述所有对象,但不包括识别到的词。
  • 你也可以通过菜单创建新的搜索元素:
  1. 在文档窗口右侧打开 Search Elements 选项卡。
  2. 点击 Create Element
  3. 在弹出的列表中选择所需的元素类型。
创建元素后,需要在 Properties 窗格中配置其属性(更多信息参见“元素属性”)。
注意: 这些属性也可以以代码形式查看和编辑(更多信息参见“NLP 的 Extraction Rules 活动的代码语法”)。

搜索元素类型

创建搜索元素时,需要指定其类型,具体取决于要查找的对象。下面将简要介绍可用的搜索元素类型。

人名

例如:John Doe、Jane Smith 等。

组织

组织名称,例如:ABBYY、Acme Corp.

地址

例如:123 Main St., Anytown AB 45678。

位置

地点名称,例如:Anytown、Corporate Place。

日期

不同格式的日期,例如:2009年11月14日、11/14/2009。

持续时间

时间段,例如:十二(12)个月、4 天。

金额

示例:$2670.00,199 dollars 99 cents。 注意: PersonOrganizationAddressLocationDateDurationMoney 元素对应可在 Named Entities (NER) 活动中配置的命名实体,并使用相同的技术进行提取。

来自字典的值

来自字典的词或短语。字典应为纯文本(TXT)文件,包含搜索文本的各个变体列表,每行一个变体。

符合正则表达式的值

与您指定的正则表达式相匹配的值。

文本

一个关键字或短语,并可选择搜索其所有词形变化,或允许一定的识别误差。

一组嵌套的搜索元素。构成组的元素可以是简单元素或组元素。组元素本身没有属性。数据将根据其内部嵌套的搜索元素的设置进行提取。 组元素可用于建立元素的逻辑层级,便于调试和导航。 例如,将某人的姓名、地址和出生日期归为一组,可使你以一致的方式提取每个人的数据。

可重复组

此元素用于查找可重复出现的元素组。可重复组适用于某个实体可能有多个实例、每个实例都有其各自属性、但无法预先确定实例数量的场景。每个实例的属性在可重复组的嵌套元素中进行定义。 例如,如果你在处理简历,你可能需要创建一个名为“Education”的可重复组,其中包含以下嵌套元素:“School_name”“Degree”“Start_date”和“Graduation_date”。 另一方面,如果你要查找的数据涉及不同角色的不同实体,则可重复组并不是合适的选择。比如,若一份合同仅有两方,当事人分别为买方和卖方,应分别创建“Party1_Buyer”组和“Party2_Seller”组,而不是创建一个可重复的“Party”组。

输入字段

此元素允许你将由其他活动提取的 field 用作规则的构建块。比如,如果在 Extraction Rules 活动之前有 Segmentation 活动,你可能希望利用某些分段来缩小搜索范围。

更改列表中元素的类型、名称和位置

要更改元素的类型:
  • 右键单击元素,在快捷菜单中选择将元素转换为
  • 在列表中选择一个元素,然后单击图像上的高亮对象。这样可以将所选搜索元素转换为该高亮对象的类型。如果你单击高亮的已识别词语,可以将搜索元素转换为文本,同时把所选词语添加到该搜索元素的关键字列表中。
  • 对于对应命名实体的搜索元素,使用实体属性更改命名实体的类型。
注意: 更改元素类型不会将非组元素转换为组元素,反之亦然。
要更改元素的名称:
  • 右键单击元素,在快捷菜单中选择重命名,然后输入新名称。
  • 选择一个元素,单击其名称(或按 F2),然后输入新名称。
元素名称可以包含英文字母、数字和下划线,但不能以数字开头。不允许使用空格、特殊符号(.,:- \ /)和保留名称。 要在列表中移动元素:
  • 向上或向下拖动元素以更改其在列表中的位置。
  • 将元素拖到组元素上以将其放入该组中。
注意: 元素按自上而下的顺序进行搜索。这意味着,被用作另一个元素搜索条件的元素必须在元素列表中位于该元素之前。