跳转到主要内容
搜索元素 (Search Element) 是对一个或多个文档图像对象的描述,用于为特定区域内的对象设置搜索条件。元素包含所搜索图像对象的类型、对象属性以及其搜索区域等信息。使用元素属性获得的搜索结果将由活动用于为图像上检测到的对象生成区域——该区域由一个或多个矩形组成,用于包围检测到的对象。随后,字段和其他元素的位置将根据已检测元素的位置来确定。 要创建元素,单击 Create Element,并在出现的列表中选择相应的元素类型。创建元素后,需要在 Properties 窗格中配置其属性 (更多信息,请参见 Element Properties) 。指定的属性也可以以代码格式查看和编辑 (更多信息,请参见 FlexiLayout Language) 。元素可以根据文档结构在树中移动。请注意,元素在树中的位置决定其搜索顺序。元素搜索按降序执行。 创建搜索元素时,请根据需要查找的对象选择其类型。下面是 Extraction Rules 活动中可用搜索元素类型的简要说明。 创建搜索元素后,请配置其属性,这些属性在此处进行了说明。

静态文本

此元素用于描述预定义文本。大多数文档图像通常都包含一些静态文本。这类文本可以是文档的名称 (例如 “Invoice”) ,也可以是数据字段的附加标签 (例如 “Date”、“to:”、“from:”) 。此类文本在预识别阶段被识别为 Recognized Words 对象,并通常作为检测相应字段值的锚点 (例如,日期通常写在标签 “Date” 的旁边) 。该文本可以由一个单词或一个短语构成。短语与单词的区别在于它至少包含一个空格。短语也可以跨多行书写。在搜索此元素时,会考虑图像预识别过程中检测到并位于该元素搜索区域内的 Recognized Words 和 Recognized Lines 对象。

字符串

此元素描述同一行上的一段字符序列 (从左到右) 。字符序列由识别到的文本对象 (Recognized Words) 组合而成,例如可以由完整单词,或由多个文本对象片段组成。该元素用于搜索事先未预定义的文本。图像预识别期间检测到并位于该元素搜索区域内的 Recognized Words 对象都会被纳入考虑。 通常,此活动会在已检测出的静态文本周围区域中搜索字符序列。例如,在查找发票号码时,需要先找到静态文本 “Invoice No.”,之后该活动会在同一行中该静态文本右侧查找一个字符序列 (在此情况下仅为数字) 。
由于该活动仅支持从左到右的搜索方向,因此不会在阿拉伯语和希伯来语中搜索 Character String 元素。

段落

此元素描述一个文本段落。使用此元素进行搜索时,会考虑与搜索区域相交的所有文本对象。此元素旨在查找未预先定义的文本段落。预识别阶段检测到并位于元素搜索区域内的 Recognized Words 和 Recognized Lines 对象都会被纳入考虑。

键值

这是一个用于搜索具有标签的字段的组元素。要创建此元素,需要指定标签的属性、主搜索字段以及它们之间的间距。还可以为主元素指定类型及相应属性。静态文本和空白区域作为主字段的辅助搜索手段。在搜索静态文本时,会考虑图像预识别过程中检测到并位于元素搜索区域内的 Recognized Words 和 Recognized Lines 对象。一旦检测到静态文本元素,该活动会搜索包含该元素值的相应字段。

日期

此元素用于描述日期。日期可以有不同的书写格式,其中日和年度的数值始终以数字表示,而月份的值有时也可以用文字表示。日期格式由用户指定。

金额

此元素描述的是数值,可以是整数,也可以是带两位小数的小数。默认情况下,允许小数部分使用占位符。例如,12. 会被识别为 12.00。整数部分可以使用分隔符拆分为几组 (默认允许空格以及以下符号作为分隔符:. , ’) 。待搜索的数字可以带有前缀和后缀,例如在数值前后出现的文本元素。前缀必须与数值位于同一行。此格式通常用于表示金额,其中货币名称用作前缀。

电话

此元素用于描述电话号码,通常会带有一个关键词 (例如 “Tel.”、“Home Tel.” 等) ,以及一个用括号与号码其余部分分隔的城市/地区区号。电话号码及其对应的关键词必须位于同一行。

Region

此元素表示文档图像上的一个区域,而不对其内容作任何限定。Region 元素可以由若干彼此不相连的区域组成。该元素在活动中用于标记区域,而不考虑其中包含的对象。当在不同文档中使用不同元素来检测同一个字段时,应使用该元素,例如同时使用 Date 和 Character String 来查找既以标准格式又以非标准格式指定的日期。在这种情况下,Date 和 Character String 是次要元素,而 Region 用于记录提取结果。

分隔符

该元素用于描述垂直或水平的分隔符,目的是用于搜索分隔符。在图像预识别阶段检测到的、位于该元素搜索区域内的分隔符对象会被考虑在内。这些对象可以完全位于搜索区域之内,也可以仅与该区域相交。

白色空白区域

该元素描述图像上的一个矩形区域,此区域通常不会包含其他对象。可在搜索其他元素时作为辅助元素使用。例如,如果在处理的文档中,地址与文档页眉之间始终存在一个白色空白区域,则可以使用“白色空白区域”元素来搜索包含地址的元素。

条码

此元素用于描述条码。该元素用于检测 Advanced Designer 所支持的条码类型。图像预识别期间检测到且位于该元素的搜索区域内的条码对象都会被纳入考虑。

对象集合

此元素描述由各种类型对象组成的集合,集合中的所有对象都满足搜索条件。对象集合元素通常用于查找无法通过任何其他元素类型检测到的对象。例如,该元素可用于查找不属于任何文本行或其他文本对象的独立标点符号,以及由于存在大量无关对象而未能被识别的文本。该元素还可用于查找非文本对象,如图像和标记。

Group

这是由若干其他元素 (称为子元素) 组成的集合。子元素可以是简单元素,也可以是组元素。不建议创建不包含任何子元素的组元素。 组元素可以用于完成以下任务:
  • 将元素归为一组。这能让调试 Extraction Rules 活动中彼此独立的部分更加容易。例如,你的活动可能包含 100 个元素,被分成 3 个部分:header、main body、footer。这 3 个组元素中的每一个都包含更多组元素,用于查找该活动逻辑部分中的较小片段。除了减少活动需要考虑的候选数量外,使用这种结构还可以确保将来调试和编辑更为容易,因为它被拆分为相互独立的部分。
  • 确保树中元素的逻辑层次结构,从而简化在活动中的导航。
  • 减少元素假设的数量,从而加快对整个活动结果假设的搜索。将元素分组在一起可以让这一组元素作为具有自身假设的单个实体被考虑,从而可以对整个组进行质量评估。
  • 复合元素允许你指定在所有子元素之间共享的搜索区域限制。组元素的特定子元素的搜索区域将被计算为该子元素搜索区域与组元素搜索区域的交集。
元素 (包括组元素和简单元素) 可以是必需的、可选的或禁止的。如果一个可选的复合元素包含一个必需的子元素,而该子元素未被匹配,则会为该组元素形成空假设。这不会中断 Extraction Rules 活动的匹配过程。

重复组

此元素用于查找重复出现的元素组 (实例数量未知) 。一个常见示例是数据表格。重复元素在重复参数方面不同于常规复合元素。此组可以在单个页面上出现多次,也可以跨整个文档出现。由于此组会在文档内重复,该元素允许你将该组的所有实例 (包括其重复参数) 作为单个元素进行描述。因此,使用重复组可以更快速地描述文档结构。 此元素可用于执行以下操作:
  • 搜索表格。
  • 在多页文档的每个页面上搜索页眉。
  • 搜索数量未知的重复数据记录。

输入字段

此元素用于定位由其他活动提取的字段区域。此元素还可用于查找其他元素。 例如,如果某个技能包含一个字段,在训练后它始终保留在图像上,则可以在使用 Extraction Rules 活动搜索元素时将其用作锚点字段。为此,请创建一个 Input Field 元素,并在技能结构中选择相应的字段。系统会创建一个 Region 元素,其中包含在 Search Conditions 选项卡中将该元素与所选字段关联起来的代码。

深度学习

此元素用于获取由 Deep Learning 活动找到的某个值,该活动会将其输出传递给 Hypothesis Filtering 容器内的 Extraction Rules 活动。此元素仅在 Hypothesis Filtering 容器内可用。 您可以通过为此搜索元素指定条件来控制 Deep Learning 活动的输出。例如,如果 Deep Learning 活动被配置为查找重复出现的值,您可以设置需要提取的实例所处的首选位置。