跳转到主要内容我们要处理的文档可按版式分为两类。我们希望为每一类分别创建一套提取规则,也希望该 Skill 能使用标准 Vantage 技术进行训练。下面根据这些要求来配置该 Skill 的文档处理流程。
-
转到 Activities 选项卡。
-
首先需要确定文档类别。为此,我们将使用分类活动。单击 Activities 面板中的
Classify By Text and Image 活动,它会被添加到工作流中。添加此活动时,会在 Skill 结构中创建一个新字段,用于记录分类结果,并显示在 Skill 的字段结构中,但该字段会被标记为隐藏且不可编辑。您可以在 Activities 选项卡的 Activity Properties 面板中更改该字段名称。将该字段重命名为 “Layout”。
-
根据分类结果,应将文档路由到处理流程中的不同活动。要分叉工作流,请插入
IF 活动:
a. 单击工作流中的 Classify By Text and Image 活动。
b. 在弹出窗口中选择 IF 项。它将被添加在 Classify By Text and Image 活动之后。
注意: 除了使用 IF 活动,您还可以创建一个包含两个 Extraction Rules 活动的工作流项,并选择 “Layout” 字段作为源字段,使其值作为条件来决定对每个文档应用哪一个活动。有关此选项的更多信息,请参见在单个活动内使用多组 Extraction Rules。
-
现在添加用于从不同类别文档中提取数据的活动。
a. 选择
Extraction Rules 活动作为下一个项目,并将其重命名为 “Sick Note DE”。该活动将从德国文档中提取数据。
b. 接下来需要一个活动用于从比利时和荷兰文档中提取数据。该类文档存在一些变体,但可由单个 Extraction Rules 活动处理。单击 IF 活动并将另一个 Extraction Rules 活动添加到工作流中,将其重命名为 “Sick Note BE-NL”。此时,IF 活动应同时连接到两个 Extraction Rules 活动以及 Finish。
-
我们希望 Vantage 使用已处理的文档进一步训练该 Skill。为此,需要在工作流末尾添加
Fast Learning 活动。我们也会在配置该 Skill 时训练此活动,但主要目的是在生产环境中为该 Skill 启用 Online Learning。
a. 在处理流程中单击 “Sick Note BE-NL”。
b. 在弹出窗口中选择 Fast Learning 活动。它将被添加在 “Sick Note BE-NL” 活动之后,而 “Sick Note DE” 活动仍将连接到 Finish。
c. 将鼠标悬停在连接 “Sick Note DE” 活动与 Finish 的箭头上,箭头应变为橙色。
d. 将该箭头拖放到 Fast Learning 活动上。
e. 将鼠标悬停在连接 IF 活动与 Finish 的箭头上,并将该箭头同样拖放到 Fast Learning 活动上。现在所有文档都会被转发到 Fast Learning 活动。
最终设置应如下所示:
感叹号表示这些活动尚未配置。我们将在下一步中进行配置。