跳转到主要内容
半结构化文档与结构化文档不同,其字段集合会因图像而变化。创建元素时需要注意,对应对象可能不会出现在某些图像上,因此无法在这些图像上检测到它。图像也可能扫描不佳(例如某些区域过暗或过亮),导致数据丢失。在这种情况下,相应对象同样无法被检测到。Extraction Rules Activity Editor 允许在某个特定元素在图像上缺失时,程序继续搜索其他元素。要在不包含某个特定对象的图像上继续匹配,需要将该对象设置为可选。

必需元素

使用 必需 元素描述的图像对象应始终存在于图像中,并且在匹配 Extraction Rules 活动时必须被检测到。否则,如果未检测到此类对象,将停止匹配。

可选元素

使用“可选”元素描述的图像对象可能在图像中不存在,或可能未被检测到。但与必需元素不同,这不会导致匹配停止,由其他元素描述的图像对象仍会被检测到。 默认情况下,所有简单元素都是可选的,这意味着它们不要求出现在图像中。与简单元素不同,所有复合元素默认为必需。

禁用元素

有时,某个特定元素的出现应当表明假设链不正确。此类元素称为禁用元素。检测到此类元素时,将停止生成包含该元素的假设树。可使用这些元素来防止将不正确的 Extraction Rules 活动匹配到文档。

配置元素类型

要将元素设置为必填、可选或不允许,请在属性窗格中使用Element is属性。