跳转到主要内容
现在我们已准备好开始提取数据。德国文档的版式差异不大,因此可以使用 Fast Learning 活动提取一些字段。 我们将使用此方法提取以下数据:
  • 病假单的签发日期。
  • 患病的第一天和病假的最后一天。
  • 医疗保险公司的名称。
  • 医生的 ID。
  • 患者的以下数据:
    • 保险 ID
    • 德国保险 ID
    • 出生日期
AD_Tutorial_Fields
  1. 在管道中双击 Fast Learning 活动。
  2. 转到字段选项卡。您将看到一个与 Vantage 中的 Document Skill 编辑器类似的窗口。
  3. 选择第一份德国文档。
  4. 标注第一个字段。
    a. 点击图标,在数据表单上添加一个文本字段。
    b. 在文档图像上选择包含签发日期的区域。该字段将自动填入该区域的文本。
    c. 双击字段名称,将其更改为 “Date”。
    d. 点击字段名称右侧的图标,将字段类型更改为Date
    e. 打开高级字段设置,在可接受的组件顺序部分选择日-月-年选项。
    f. 点击保存
  5. 重复步骤 4,标注 “Start Date” 和 “End Date” 字段。
  6. 重复步骤 4.a-4.c,标注 “Health Insurer” 字段。
  7. 点击图标创建一个组。将其重命名为 “Patient”。
  8. 展开 “Patient” 组并点击第一组项占位符。选择该字段的区域并将字段重命名为 “Insurance ID”。
  9. 在 “Patient” 组中创建并标注 “German Insurance ID” 和 “Date of Birth” 字段。按步骤 4 中的说明配置 “Date of Birth” 字段选项。
  10. 重复步骤 5 和 6,创建 “Doctor” 组并标注 “Doctor ID” 字段。
  11. 在页面左侧的文档集里选择下一份德国文档。为您创建的字段进行标注。
  12. 对文档集中所有德国文档重复步骤 11。
  13. 点击训练活动。训练完成后,达成的准确率将显示在结果选项卡的页眉中。
  14. 如果准确率较低,请转到结果选项卡并修复提取问题。此流程与在 Vantage 中为 Document Skill 修复提取问题类似。请记得重新训练该活动以更新提取结果。
由于以下各种原因,我们不使用 Fast Learning 提取其他数据:
  • 患者的姓名和地址位于同一字段中。姓名可能占一到两行,且地址可能缺失。
  • 指定病假单类型的复选标记位置不固定。
这些因素都会导致提取质量较差,或无法通过 Fast Learning 活动定位该字段。