跳转到主要内容对于 Extraction Rules 活动中的大多数搜索元素,Properties 窗格包含两个部分:What to search for 和 Where to search。例外情况包括:
- Group 和 Repeating Group 元素,它们本身没有属性。
- 输入 field 元素,这些元素来自于先于 Extraction Rules 的其他活动,仅提供 Get region from 选项,用于在不同的输入 field 之间切换。
“搜索内容”部分包含每个元素特有的属性。
对于所有用于查找命名实体的搜索元素,您可以指定以下属性:
- Entities:实体类型。若您更改类型,搜索元素旁的 icon 将自动更新。
- Instances:实例数量。可以提取第一个实例,或提取找到的所有实例。
对于词典短语,请指定:
- 文本来源:一个 TXT 文件,包含要查找的单词或短语列表,每行一个候选项。
- 使用词形变化:启用此选项以查找所有词形。
- 实例:实例数量。可提取第一个实例或所有检测到的实例。
对于正则表达式,请指定:
- 正则表达式:用于定义搜索的正则表达式。程序使用 PCRE2 正则表达式语法。
- 搜索词的部分:启用此选项可在匹配项与其余文本之间未以空格分隔时也能找到匹配。
- 实例:实例数量。可提取第一个实例或全部检测到的实例。
对于文本搜索元素,单击编辑图标并输入要查找的词或短语列表,或单击文档图像以从文档中添加已识别的词。
与 Value from Dictionary 搜索元素不同,关键词直接在此列出,而不是放在 TXT 文件中;此外,你还可以选择允许一定的识别误差。
- Text source:要查找的词或短语列表,每行一个候选项。
- Use morphology:开启此选项以查找所有词形。
- Allowed errors:在仍视为命中的情况下允许不同字符的百分比或数量。这在存在识别误差时很有帮助。
注意: 如果开启 Use morphology 选项,则此选项不可用。
- Instances:实例数量。可提取第一个实例或所有检测到的实例。
搜索范围部分对所有元素都相同。在本部分中,您可以缩小程序查找目标元素的区域。在以下设置中,您可以使用列表中位于当前元素之上的搜索元素:
- 搜索位置:目标元素位于整个文档内,或位于另一个搜索元素之内。
示例: 在文档序言中查找组织名称。
-
之后:目标元素在识别的文本中位于另一个搜索元素之后。
- 在同一句中搜索:启用此选项以在同一句中查找该元素。
示例: 在同一句中,在其名称之后查找组织的角色。
-
之前:目标元素在识别的文本中位于另一个搜索元素之前。
- 在同一句中搜索:启用此选项以在同一句中查找该元素。
例如,如果您要查找某人的出生日期,可以先创建一个包含“born”关键词的辅助搜索元素,然后指定Date实体位于该关键词之后,并且在同一句中。
您可以添加多个之后和之前元素,进一步细化搜索。