跳转到主要内容
“快速学习”活动用于从结构化和半结构化文档中提取字段。它还支持在文档于 Vantage 中处理的同时,对为此活动选定为输出的字段进行训练。更多信息,请参阅 Vantage 运行时指南中的“在线学习”。您可以在活动属性窗格中取消选择以显式禁用字段训练。如果您未将“快速学习”活动添加到文档处理流程中,那么在创建并发布 Skill 之后,将无法再对字段进行训练。 如果您正在编辑在 Vantage 中创建的 Skill,该 Skill 可能包含一个预训练的“快速学习”活动。您可以添加其他活动,并与该预训练活动进行组合。更多信息,请参阅编辑在 Vantage 中创建并训练的 Skill
注意:“快速学习”活动无法提取复杂结构(例如嵌套表,即表中包含的重复结构)以及类型为 Image 的字段。要提取此类结构,请使用提取规则活动

适用场景

在以下情况下,将此活动添加到您的文档处理流程中:
  • 当文档集包含多种版式变体,且您能够在训练阶段为每种变体提供样本时。例如,如果您想训练从多家不同银行的银行对账单中抽取数据,并且手头有每家银行的样本。
  • 当您计划处理尚未在您的 Skill 上完成训练的文档变体,并希望利用 Online Learning 时。例如,在处理发票时,每个供应商往往都有自己独特的发票版式,而且可能每天都会出现新供应商。在这种情况下,您会使用其他活动从文档中抽取数据,同时也可以将 Fast Learning 活动添加到处理流程中,它将在运行时通过人工校验环路提供的 Online Learning 反馈进行训练。
  • 当您希望在 Vantage 中处理文档的同时训练字段时。

工作原理

Fast Learning 基于聚类技术,将外观相似的文档版式分组,并在内部为每个聚类训练一个字段提取模型。Fast Learning 活动可以学习成千上万种不同的文档变体。 与 Deep Learning 活动不同,Fast Learning 活动更倾向于“记住”它所“见过”的内容,而不是学习图像模式。Fast Learning 无法对尚未遇到的新文档变体进行泛化。在运行时,当 Fast Learning 活动遇到新文档时,会先判断该文档最接近哪个聚类,然后应用相应的内部模型。 此活动不需要大型训练集——单个文档即可开始训练。如果您拥有同一文档的多个变体(例如,本质相同但外观略有差异的文档),建议在训练集中包含代表每个不同变体的文档。 有关更多信息,请参见设置 Fast Learning 活动