跳转到主要内容
为版式各异的半结构化文档设置用于检测和提取字段的自定义规则 Extraction Rules 活动允许您设置在半结构化文档上检测字段的规则,并验证这些规则在真实文档上的效果。通常在字段的位置会因文档而异、从而使数据提取变得复杂,并且当您可以提供用于检测此类字段的附加信息时会使用此活动:例如,文档上字段相对于其他对象的位置,或者为某个对象指定搜索条件的正则表达式。比如,您可以指定发票号码字段可能位于图像的右侧,或者直接位于“Order number”、“Order #”或其他类似关键字下方。 我们还建议在处理流程中添加 Fast Learning 活动,启用 Online Learning 以收集运行时文档,之后将通过机器学习自动重建该技能。

使用场景

在以下情况下,将 Extraction Rules 活动添加到文档处理流程中:
  • 当您的文档集不够统一,无法使用 Fast Learning 活动来提取数据,文档数量又不足以训练 Deep Learning 活动,但这些文档具有可以形式化定义的已知结构时。
  • 当您希望对 AI 具有更高的控制能力,在将值写入文档字段之前,先对 Deep Learning 和 Fast Learning 活动的预测结果进行分析时。例如,如果您希望提取位于某个关键字附近的一个数字,您可以过滤掉看起来不是数字的候选结果,以及那些不位于关键字附近的候选结果。通常,如果需要通过规则进行后处理,这通常表明用于 Deep Learning 和 Fast Learning 活动的训练集应当扩充,因为机器学习技术可以“摸索出”并学习字段的数据类型、典型位置及其周围环境。
  • 当您有一个来自 ABBYY FlexiLayout Studio 的 FlexiLayout 文件并希望复用它时。有关更多信息,请参见 Importing FlexiLayouts from ABBYY FlexiLayout Studio
  • 当您的文档包含复杂结构(例如嵌套表格,即位于其他表格中的重复结构),而这些结构无法通过其他面向半结构化文档的活动提取时。

工作原理

Extraction Rules 活动是对一组文档的形式化描述,使数据采集工作人员能够使用自定义规则在文档上定位数据字段并从这些字段中提取信息。换句话说,Extraction Rules 活动用于为文档图像定义字段搜索算法。 您可以指定字段相对于其他对象的位置,也可以使用绝对坐标来指定它们的位置。文档图像上的各种对象通过搜索元素来检测。对于图像上需要检测的每个对象,您都需要创建一个相应的元素,以完整描述所需的对象类型(例如文本、图像、条形码)、其特征,以及该对象的预期搜索区域。这些元素构成一个 Search Elements 树,这是一个逻辑连接的结构(可以有任意嵌套级别),在该结构中会根据元素之间的相对关系进行搜索。树中元素的顺序直接对应于活动搜索它们的顺序,即在将描述与图像匹配时,活动将按从上到下的顺序依次查找元素。对元素进行分组有助于优化搜索,并允许创建相互独立的子层级结构。 要将数据提取到字段中,您需要将该字段映射到某个搜索元素。如果在图像上找到了该元素,它的区域就会成为映射字段的区域。 有关更多信息,请参阅设置 Extraction Rules 活动

组合多个 Extraction Rules 活动

您可以创建一个包含多个 Extraction Rules 活动的工作流项。要应用到文档的具体活动会根据某个字段的值来选择。此字段可以包含分类结果或其他有助于区分不同文档类型的数据。指定的值用作选择相应活动的条件。有关更多信息,请参阅 在单个活动中使用多个 Extraction Rules