跳转到主要内容
对于 Extraction Rules 活动中的大多数搜索元素,其 属性 窗格包含两个部分:要搜索的内容搜索位置。例外情况包括:
  • GroupRepeating Group(重复组) 元素,它们本身没有任何属性。
  • 输入字段元素,这些元素来自 Extraction Rules 活动之前的其他活动,只提供 从中获取区域 选项,用于在不同输入字段之间切换。

搜索内容

搜索内容部分包含每个元素特定的属性。

人员、组织、地址、地点、日期、持续时间、金额

对于所有用于查找命名实体的搜索元素,您可以指定以下属性:
  • Entities:实体类型。如果更改类型,搜索元素旁边的 icon 会自动更新。
  • Instances:实例数量。可以提取找到的第一个实例或所有实例。

来自词典的值

对于词典短语,请指定:
  • 文本来源:包含要查找的单词或短语列表的 TXT 文件,每行一个变体。
  • 使用词形变化:启用此选项以查找该词的所有词形变化形式。
  • 实例:实例数量。可以仅提取第一个实例,或提取所有检测到的实例。

正则表达式的值

对于正则表达式,请指定:
  • Regular expression:用于搜索的正则表达式。程序使用 PCRE2 正则表达式语法。
  • Search for parts of words:启用此选项后,即使匹配内容未与其余文本以空格分隔,仍然可以找到匹配项。
  • Instances:实例数量。可以提取第一个实例或提取所有检测到的实例。

文本

对于文本搜索元素,单击编辑图标并输入要查找的单词或短语列表,或者单击文档图像,从文档中添加识别出的单词。 Value from Dictionary 搜索元素不同,这里的关键字是直接列出的,而不是保存在 TXT 文件中,同时你还可以选择允许一定的识别错误。
  • Text source:要查找的单词或短语列表,每行一个变体。
  • Use morphology:启用此选项以查找所有词形变化。
  • Allowed errors:仍允许找到文本的字符差异百分比或数量。在存在识别错误时可能会有帮助。
Note: 如果启用 Use morphology 选项,则此选项不可用。
  • Instances:实例数。可以提取第一个实例或所有检测到的实例。
搜索范围部分对所有元素通用。在本部分中,您可以限定程序查找目标元素的区域。在下面的设置中,您可以使用列表中位于当前元素之上的搜索元素:
  • 搜索于:搜索元素位于整个文档中,或位于另一个搜索元素之内。
**示例:**在文档前言部分中查找组织名称。
  • 之后:搜索元素在识别文本中位于另一个搜索元素之后。
    • 在同一句中搜索:启用此选项以在同一句中查找该元素。
**示例:**在同一句中,在组织名称之后查找该组织的角色。
  • 之前:搜索元素在识别文本中位于另一个搜索元素之前。
    • 在同一句中搜索:启用此选项以在同一句中查找该元素。
例如,如果您在查找某人的出生日期,可以先创建一个带有关键字“born”的辅助搜索元素,然后指定 Date 实体位于该关键字之后的某处,并且在同一句中。 您可以添加多个之后之前元素,进一步细化搜索条件。