跳转到主要内容
提取规则活动用于为在半结构化文档上检测字段设置规则,并验证这些规则在真实文档上的效果。通常在字段的位置可能因文档而异、从而使数据提取变得复杂时使用;也适用于你能够提供用于检测此类字段的附加信息的情况,例如字段相对于文档上其他对象的位置,或用于指定对象搜索条件的正则表达式。比如,你可以指定发票号码字段可能位于图像的右侧,或直接位于“Order number”、“Order #”或其他类似关键词的下方。 我们还建议在处理流程中添加一个Fast Learning活动,启用Online Learning以收集运行时documents,这将通过机器学习在后续自动重建该Skill。

使用场景

在以下情况下,将 Extraction Rules 活动添加到文档处理流程中:
  • 当你的文档集不够统一,无法使用 Fast Learning 活动提取数据,又缺少足够的文档来训练 Deep Learning 活动,但这些文档具有可形式化的已知结构时。
  • 当你希望对 AI 有更高的掌控力,先分析 Deep Learning 和 Fast Learning 活动的预测结果,再将这些值写入文档字段时。例如,如果你希望提取位于某个关键字附近的数字,可以过滤掉看起来不是数字的假设,以及不在该关键字附近的假设。通常,如果需要基于规则的后处理,这往往表明应扩充用于 Deep Learning 和 Fast Learning 活动的训练集,因为机器学习技术可以“摸索”并学习字段的数据类型、典型位置及其周边环境。
  • 当你有来自 ABBYY FlexiLayout Studio 的 FlexiLayout 文件并希望复用时。更多信息,参见 从 ABBYY FlexiLayout Studio 导入 FlexiLayout
  • 当你的文档包含复杂结构(例如嵌套表,即表内包含重复结构),而其他面向半结构化文档的活动无法完成提取时。

工作原理

Extraction Rules 活动是对一组文档的形式化描述,使数据采集人员能够使用自定义规则在文档上定位字段并从这些字段中提取信息。换言之,Extraction Rules 活动用于为文档图像指定 field 的搜索算法。 你可以指定字段相对于其他对象的位置,也可以使用绝对坐标来指定其位置。文档图像上的各类对象通过搜索元素进行检测。对于每个需要在图像上检测的对象,你需要创建一个相应的元素,完整描述所需的对象类型(如文本、图像、条形码)、其特性以及该对象的预期搜索区域。这些元素组成一个Search Elements 树,这是一个逻辑关联的结构(可具任意嵌套层级),各元素的搜索相互参照进行。树中元素的顺序直接对应于活动搜索它们的顺序,即在将描述与图像匹配时,活动将按由上至下的顺序查找元素。对元素进行分组有助于优化搜索,并允许创建相互独立的子层级。 要将数据提取到某个 field,应将该 field 映射到一个搜索元素。若在图像上找到了该元素,其区域将成为已映射 field 的区域。 有关更多信息,请参阅设置 Extraction Rules 活动

组合多个 Extraction Rules 活动

你可以创建一个包含多个 Extraction Rules 活动的工作流项。将根据某个 field 的取值选择要应用于文档的活动。该 field 可包含分类结果或其他有助于区分文档变体的数据。指定的取值将作为条件,用于选择相应的活动。更多信息,请参阅在单个活动中使用多组 Extraction Rules