跳转到主要内容
现在我们可以开始提取数据了。德语文档的版式差异不大,因此可以使用 Fast Learning 活动提取部分字段。 我们将用此方法提取以下数据:
  • 病假条的签发日期。
  • 发病首日和病假的最后一天。
  • 医疗保险公司的名称。
  • 医生 ID。
  • 患者的以下数据:
    • 保险 ID
    • 德国保险 ID
    • 出生日期
AD_Tutorial_Fields
  1. 双击管道中的 Fast Learning 活动。
  2. 转到 Fields 选项卡。您将看到一个与 Vantage 中的 Document Skill Editor 类似的窗口。
  3. 选择第一份德语文档。
  4. 标注第一个字段。
    a. 点击图标,在数据表单上添加一个文本字段。
    b. 在文档图像上选择包含签发日期的区域。字段会自动填入该区域中的文本。
    c. 双击字段名称并将其改为 “Date”。
    d. 点击字段名称右侧的图标,将字段类型更改为 Date
    e. 打开高级字段设置,在 Acceptable orders of components 部分选择 Day-Month-Year
    f. 点击 Save
  5. 重复步骤 4,标注 “Start Date” 和 “End Date” 字段。
  6. 重复步骤 4.a–4.c,标注 “Health Insurer” 字段。
  7. 点击图标创建一个组,并将其重命名为 “Patient”。
  8. 展开 “Patient” 组并点击 First group item 占位符。选择该字段的区域,并将字段重命名为 “Insurance ID”。
  9. 在 “Patient” 组中创建并标注 “German Insurance ID” 和 “Date of Birth” 字段。按照步骤 4 配置 “Date of Birth” 字段选项。
  10. 重复步骤 5 和 6,创建 “Doctor” 组并标注 “Doctor ID” 字段。
  11. 在页面左侧的文档集中选择下一份德语文档,标注您创建的各字段。
  12. 对文档集中的所有德语文档重复步骤 11。
  13. 点击 Train Activity。训练完成后,达到的准确率将显示在 Results 选项卡的标题处。
  14. 如果准确率过低,转到 Results 选项卡并修复提取问题。该过程与在 Vantage 中为 Document skill 修复提取问题类似。请记得重新训练该活动以更新提取结果。
我们不使用 Fast Learning 提取其他数据,原因包括但不限于以下情况:
  • 患者姓名和地址位于同一字段中。姓名可能占一到两行,且地址可能缺失。
  • 指示病假条类型的复选框位置不固定。
上述因素会导致提取质量不佳,或者使用 Fast Learning 活动无法定位该字段。