跳转到主要内容
搜索元素(Search Element) 是对一个或多个文档图像对象的描述,它允许你在特定区域为对象设置搜索条件。元素包含所搜索图像对象的类型、该对象的属性以及其搜索区域等信息。利用元素属性得到的搜索结果会被该活动用来为图像上检测到的对象生成区域——由一个或多个矩形组成、包围检测到对象的区域。随后,field 和其他元素的位置将相对于已检测元素的位置来确定。 要创建元素,单击 Create Element,并在出现的列表中选择相应的元素类型。创建元素后,需要在 Properties 窗格中设置其属性(更多信息参见 元素属性)。指定的属性也可以以代码形式查看和编辑(更多信息参见 FlexiLayout 语言)。可以根据文档结构在树中移动元素。请注意,树中元素的位置决定了其搜索顺序。元素搜索按降序进行。 创建搜索元素时,请根据要查找的对象选择其类型。下面简要介绍在 Extraction Rules 活动中可用的搜索元素类型。 创建搜索元素后,请按照此处的说明配置其属性。

静态文本

此元素用于描述预定义文本。大多数文档图像通常包含一些静态文本。这些文本可能是文档名称(例如,“Invoice”),或用于数据字段的附加标签(例如 “Date”、“to:”、“from:”)。此类文本在预识别阶段会被识别为 Recognized Words 对象,通常作为检测相应字段取值的锚点(例如,日期通常写在标签 “Date” 旁边)。该文本可以由一个词或一个短语组成。短语与单词的区别在于其至少包含一个空格。短语也可能跨多行书写。搜索此元素时,将考虑在图像预识别期间检测到并位于该元素搜索区域内的 Recognized Words 和 Recognized Lines 对象。

字符串

该元素用于描述单行(从左到右)上的一段字符序列。字符序列由已识别的文本对象(Recognized Words)组成,例如完整的单词或由多个文本对象片段拼接而成。因此,该元素用于搜索未预先定义的文本。会考虑图像预识别过程中检测到且位于元素搜索区域内的 Recognized Words 对象。 通常,该活动会在已检测到的静态文本周边区域搜索字符序列。例如,在查找发票号码时,需要先找到静态文本“Invoice No.”,随后该活动会在同一行中该静态文本右侧查找一个字符序列(本例中仅包含数字)。
注意: 由于从左到右的限制,该活动不会在阿拉伯语和希伯来语中搜索“字符串”元素。

段落

该元素用于描述一段文本。使用此元素进行搜索时,会考虑与搜索区域相交的所有文本对象。该元素旨在查找未预先定义的文本段落。在预识别阶段检测到并位于元素搜索区域内的 Recognized Words 和 Recognized Lines 对象都会被纳入考虑。

键值

这是一个用于搜索带有标签的 field 的组元素。要创建此元素,需要指定标签的属性、主要搜索 field,以及它们之间的间距。您还可以为主元素指定类型和相应的属性。静态文本和空白区作为主 field 的辅助搜索手段。在搜索静态文本时,会考虑图像预识别期间检测到、且位于元素搜索区域内的 Recognized Words 和 Recognized Lines 对象。检测到静态文本元素后,该活动会搜索包含该元素值的相应字段。

日期

此元素用于描述日期。日期可以采用不同格式,日和年一律用数字表示,而月份有时也可以用字母表示。日期格式由用户自行指定。

金额

此元素用于描述整数或保留两位小数的数字值。默认允许用占位符表示小数部分。例如,12. 将识别为 12.00。整数部分可使用分隔符进行分组(空格及以下符号默认可作为分隔符:.、,、’)。待查找的数字可以带有前缀和后缀,例如出现在数字值之前或之后的文本元素。前缀必须与数字值位于同一行。此格式通常用于金额,货币名称通常作为前缀。

电话

该元素用于描述电话号码,通常带有一个关键词(如“Tel.”、“Home Tel.”等),并包含用括号与其余号码分开的城市/地区区号。电话号码及其对应的关键词必须位于同一行。

区域

该元素表示文档图像上的一个区域,不对其内容作任何规定。元素“区域”可以由多个不相连的区域组成。此元素在活动中用于标注区域,而不考虑其中包含的对象。当在不同文档上使用不同元素检测到同一个field时,应使用此元素,例如使用“Date”和“Character string”来查找既以标准格式又以非标准格式表示的日期。在这种情况下,“Date”和“Character string”是次要元素,而“区域”用于记录提取结果。

分隔符

此元素用于描述垂直或水平的分隔线,并用于搜索分隔线。仅考虑在图像预识别阶段检测到且完全位于元素搜索区域内的分隔符对象。这些对象既可以完全处于搜索区域内,也可以仅与该区域发生交叉。

白色空白

该元素用于描述图像上的一个矩形区域,通常不包含其他对象。可作为搜索其他元素时的辅助元素使用。例如,如果在待处理文档中,地址与文档页眉之间始终存在一处白色空白,则可以使用 White Gap 元素来定位包含地址的元素。

条码

此元素用于描述条码。该元素旨在检测 Advanced Designer 支持的条码类型。系统会考虑在图像预识别期间检测到且位于元素搜索区域内的条码对象。

对象集合

此元素描述由各种类型对象组成的集合,这些对象均满足搜索条件。对象集合元素通常用于查找无法通过其他元素类型检测到的对象。例如,可用它查找不属于任何文本行或其他文本对象的独立标点符号,以及因存在大量无关对象而未能被识别的文本。该元素也可用于查找非文本对象,如图像和标记。

这是由若干其他元素(称为子元素)组成的集合。子元素可以是简单元素或组元素。不建议创建不包含任何子元素的组元素。 组元素可用于以下场景:
  • 将元素分组。这样可以更轻松地分别调试 Extraction Rules 活动的各个部分。例如,您的活动可能包含 100 个元素,分为 3 个部分:页眉、主体、页脚。每个组元素下又包含更多组元素,用于查找该逻辑部分中的小片段。此结构不仅可最大限度减少活动需考虑的可能性,还能确保后续的调试和编辑更轻松,因为它们被拆分为彼此独立的部分。
  • 确立树中元素的逻辑层级结构,从而更便于在活动中进行导航。
  • 减少可能的元素假设数量,加快对整个活动的最终假设的搜索。将元素分组后,可以将该组视为一个具有自身假设的单一实体,从而能够对该组整体进行质量评估。
  • 复合元素允许您为其所有子元素指定共享的搜索区域限制。组元素中特定子元素的搜索区域将计算为该子元素搜索区域与组元素搜索区域的交集。
元素(组元素和简单元素)可以是必需、可选或禁止。如果一个可选复合元素包含必需的子元素,而该子元素未匹配,则会为该组元素形成空假设。这不会中断 Extraction Rules 活动的匹配过程。

可重复组

此元素用于查找可重复的元素组(实例数量未知)。常见示例为数据表。可重复元素与常规复合元素的区别在于其重复参数。该组既可在单个页内出现多次,也可分布于整个文档。由于该组会在文档中重复,该元素允许你将其所有实例(包括其重复参数)作为单个元素进行描述。因此,使用可重复组可以更高效地描述文档结构。 此元素可用于:
  • 搜索表格。
  • 在多页文档的每一页搜索页眉。
  • 搜索未知数量的重复数据条目。

输入 Field

此元素用于检测由其他活动提取的 field 区域。该元素可用于查找其他元素。 例如,如果某个 Skill 包含一个在训练后始终保留在图像上的 field,那么在使用 Extraction Rules 活动搜索元素时,它可以作为锚定 field 使用。为此,请创建一个 Input Field 元素,并在 Skill 结构中选择相应的 field。这样会在Search Conditions选项卡中创建一个 Region 元素,其中包含将该元素与所选 field 关联的代码。

深度学习

此元素用于获取由“深度学习”活动找到的值;该活动会将其输出传递给“假设筛选”容器中的“提取规则”活动。此元素仅在“假设筛选”容器内可用。 您可以通过为此搜索元素指定条件来控制“深度学习”活动的输出。例如,如果“深度学习”活动配置为查找可重复的值,您可以设置所需提取实例的优先位置。