跳转到主要内容现在我们已准备好开始提取数据。德国文档的版式差异不大,因此可以使用 Fast Learning 活动提取一些字段。
我们将使用此方法提取以下数据:
- 病假单的签发日期。
- 患病的第一天和病假的最后一天。
- 医疗保险公司的名称。
- 医生的 ID。
- 患者的以下数据:
- 在管道中双击 Fast Learning 活动。
- 转到字段选项卡。您将看到一个与 Vantage 中的 Document Skill 编辑器类似的窗口。
- 选择第一份德国文档。
- 标注第一个字段。
a. 点击图标,在数据表单上添加一个文本字段。
b. 在文档图像上选择包含签发日期的区域。该字段将自动填入该区域的文本。
c. 双击字段名称,将其更改为 “Date”。
d. 点击字段名称右侧的图标,将字段类型更改为Date。
e. 打开高级字段设置,在可接受的组件顺序部分选择日-月-年选项。
f. 点击保存。
- 重复步骤 4,标注 “Start Date” 和 “End Date” 字段。
- 重复步骤 4.a-4.c,标注 “Health Insurer” 字段。
- 点击图标创建一个组。将其重命名为 “Patient”。
- 展开 “Patient” 组并点击第一组项占位符。选择该字段的区域并将字段重命名为 “Insurance ID”。
- 在 “Patient” 组中创建并标注 “German Insurance ID” 和 “Date of Birth” 字段。按步骤 4 中的说明配置 “Date of Birth” 字段选项。
- 重复步骤 5 和 6,创建 “Doctor” 组并标注 “Doctor ID” 字段。
- 在页面左侧的文档集里选择下一份德国文档。为您创建的字段进行标注。
- 对文档集中所有德国文档重复步骤 11。
- 点击训练活动。训练完成后,达成的准确率将显示在结果选项卡的页眉中。
- 如果准确率较低,请转到结果选项卡并修复提取问题。此流程与在 Vantage 中为 Document Skill 修复提取问题类似。请记得重新训练该活动以更新提取结果。
由于以下各种原因,我们不使用 Fast Learning 提取其他数据:
- 患者的姓名和地址位于同一字段中。姓名可能占一到两行,且地址可能缺失。
- 指定病假单类型的复选标记位置不固定。
这些因素都会导致提取质量较差,或无法通过 Fast Learning 活动定位该字段。