跳转到主要内容对于 Extraction Rules 活动中的大多数搜索元素,Properties 窗格包含两个部分:What to search for 和 Where to search。例外情况包括:
- Group 和 Repeating Group 元素,它们本身没有属性。
- 输入 field 元素,这些元素来自 Extraction Rules 活动之前的其他活动,仅提供 Get region from 选项,用于在不同的输入 field 之间切换。
“搜索内容”部分包含每个元素特有的属性。
对于所有用于查找命名实体的搜索元素,您可以指定以下属性:
- Entities:实体类型。若您更改类型,搜索元素旁的 icon 将自动更新。
- Instances:实例数量。可以提取第一个实例,或提取找到的所有实例。
对于词典短语,请指定:
- 文本来源:一个 TXT 文件,包含要查找的单词或短语列表,每行一个候选项。
- 使用词形变化:启用此选项以查找所有词形。
- 实例:实例数量。可提取第一个实例或所有检测到的实例。
对于正则表达式,请指定:
- 正则表达式:用于定义搜索的正则表达式。程序使用 PCRE2 正则表达式语法。
- 搜索词的部分:启用此选项可在匹配项与其余文本之间未以空格分隔时也能找到匹配。
- 实例:实例数量。可提取第一个实例或全部检测到的实例。
对于文本搜索元素,单击编辑 icon,输入要查找的单词或短语列表,或单击文档图像以从文档中添加已识别的单词。
与**从字典获取值(Value from Dictionary)**搜索元素不同,此处直接列出关键字,而不是放在 TXT 文件中;此外,你还可以选择允许一定的识别误差。
- 文本来源:要查找的单词或短语列表,每行一个变体。
- 使用词形变化:开启此选项以查找所有词形。
- 允许的误差:仍可匹配到文本的差异字符比例或数量。在存在识别误差时可能有帮助。
注意: 如果开启使用词形变化选项,则此选项不可用。
- 实例:实例数量。可提取第一个实例或所有检测到的实例。
“搜索范围”部分对所有元素一致。在本部分中,您可以缩小程序查找目标元素的区域。在以下设置中,您可以引用列表中位于当前元素之上的搜索元素:
- 搜索位置:目标元素位于整个文档中,或位于其他搜索元素之内。
示例: 在文档的前言中查找组织名称。
- 之后:目标元素在识别文本中位于另一搜索元素之后。
- 在同一句中搜索:启用此选项以在同一句中查找该元素。
示例: 在同一句中于组织名称之后查找其角色。
- 之前:目标元素在识别文本中位于另一搜索元素之前。
- 在同一句中搜索:启用此选项以在同一句中查找该元素。
例如,如果您要查找某人的出生日期,可以先创建一个包含“born”关键字的辅助搜索元素,然后指定Date实体位于该关键字之后,并且在同一句中。
您可以添加多个之后和之前元素,以进一步细化搜索。