跳转到主要内容
现在我们已经可以开始提取数据了。德文文档的版式差异不大,因此可以使用 Fast Learning 活动来提取部分字段。 我们将使用此方法提取以下数据:
  • 病假条签发日期。
  • 生病的第一天和病假的最后一天。
  • 医疗保险公司的名称。
  • 医生的 ID。
  • 患者的以下数据:
    • 保险 ID
    • 德国保险 ID
    • 出生日期
AD_Tutorial_Fields
  1. 双击管道中的 Fast Learning 活动。
  2. 转到 Fields 选项卡。您会看到一个类似于 Vantage 中 Document Skill Editor 的窗口。
  3. 选择第一份德文文档。
  4. 标注第一个字段。
    a. 单击图标,在数据表单上添加一个文本字段。
    b. 在文档图像上选择包含签发日期的区域。该字段会自动填充为该区域中的文本。
    c. 双击字段名称,将其更改为 “Date”。
    d. 单击字段名称右侧的图标,将字段类型更改为 Date
    e. 打开高级字段设置,在 Acceptable orders of components 部分选择 Day-Month-Year 选项。
    f. 单击 Save
  5. 重复步骤 4,标注 “Start Date” 和 “End Date” 字段。
  6. 重复步骤 4.a-4.c,标注 “Health Insurer” 字段。
  7. 单击图标创建一个组,将其重命名为 “Patient”。
  8. 展开 “Patient” 组并单击 First group item 占位符。选择该字段的区域,并将字段重命名为 “Insurance ID”。
  9. 在 “Patient” 组中创建并标注 “German Insurance ID” 和 “Date of Birth” 字段。按照步骤 4 中的说明配置 “Date of Birth” 字段选项。
  10. 重复步骤 5 和 6,创建 “Doctor” 组并标注 “Doctor ID” 字段。
  11. 在页面左侧的文档集中选择下一份德文文档,标注您创建的字段。
  12. 对文档集中所有德文文档重复步骤 11。
  13. 单击 Train Activity。训练完成后,获得的准确率将显示在 Results 选项卡的页眉中。
  14. 如果准确率过低,请转到 Results 选项卡并修复提取问题。此过程类似于在 Vantage 中为 Document skill(文档技能)修复提取问题。请记得重新训练该活动以更新提取结果。
出于以下原因,我们不会使用 Fast Learning 活动提取其他数据:
  • 患者的姓名和地址位于同一个字段中。姓名可能占用一到两行,并且地址可能缺失。
  • 指定病假条类型的复选标记位置各不相同。
所有这些因素都会导致提取质量较差,或无法使用 Fast Learning 活动定位字段。