跳转到主要内容
为版式各异的半结构化文档设置用于检测和提取字段的自定义规则 “提取规则”活动用于为半结构化文档上的字段检测设置规则,并在真实文档上验证这些规则的效果。通常用于某个字段的位置可能因文档而异、从而使数据提取变得复杂的场景;同时当你可以提供用于检测此类字段的附加信息时也适用,例如:字段相对于文档中其他对象的位置,或用于指定对象搜索条件的正则表达式。比如,你可以指定“发票号码”字段可能位于图像的右侧,或直接位于“Order number”“Order #”等关键词下方。 我们还建议在处理流程中添加 Fast Learning 活动,并启用 Online Learning 以收集运行时文档,之后将通过机器学习自动重建该 Skill。

使用场景

在以下情况下,将 Extraction Rules 活动添加到文档处理流程中:
  • 当你的文档集不够统一,无法使用 Fast Learning 活动提取数据,又缺少足够的文档来训练 Deep Learning 活动,但这些文档具有可形式化的已知结构时。
  • 当你希望对 AI 有更高的掌控力,先分析 Deep Learning 和 Fast Learning 活动的预测结果,再将这些值写入文档字段时。例如,如果你希望提取位于某个关键字附近的数字,可以过滤掉看起来不是数字的假设,以及不在该关键字附近的假设。通常,如果需要基于规则的后处理,这往往表明应扩充用于 Deep Learning 和 Fast Learning 活动的训练集,因为机器学习技术可以“摸索”并学习字段的数据类型、典型位置及其周边环境。
  • 当你有来自 ABBYY FlexiLayout Studio 的 FlexiLayout 文件并希望复用时。更多信息,参见 从 ABBYY FlexiLayout Studio 导入 FlexiLayout
  • 当你的文档包含复杂结构(例如嵌套表,即表内包含重复结构),而其他面向半结构化文档的活动无法完成提取时。

工作原理

Extraction Rules 活动是对一组文档的形式化描述,使数据采集人员能够使用自定义规则在文档上定位字段并从这些字段中提取信息。换言之,Extraction Rules 活动用于为文档图像指定 field 的搜索算法。 你可以指定字段相对于其他对象的位置,也可以使用绝对坐标来指定其位置。文档图像上的各类对象通过搜索元素进行检测。对于每个需要在图像上检测的对象,你需要创建一个相应的元素,完整描述所需的对象类型(如文本、图像、条形码)、其特性以及该对象的预期搜索区域。这些元素组成一个Search Elements 树,这是一个逻辑关联的结构(可具任意嵌套层级),各元素的搜索相互参照进行。树中元素的顺序直接对应于活动搜索它们的顺序,即在将描述与图像匹配时,活动将按由上至下的顺序查找元素。对元素进行分组有助于优化搜索,并允许创建相互独立的子层级。 要将数据提取到某个 field,应将该 field 映射到一个搜索元素。若在图像上找到了该元素,其区域将成为已映射 field 的区域。 有关更多信息,请参阅设置 Extraction Rules 活动

组合多个 Extraction Rules 活动

您可以创建一个包含多个 Extraction Rules 活动的工作流项。要应用到文档的活动将根据某个 field 的值进行选择。该 field 可能包含分类结果或其他有助于区分文档变体的数据。指定的取值将作为选择相应活动的条件。更多信息,请参见在单个活动中使用多组 Extraction Rules