跳转到主要内容
要训练分类器,您需要一个训练集,其中包含已被指定参考类别的文档。

创建训练集

  1. 在 Classification Skill Designer 中,打开 Documents 选项卡。
  2. 使用 Actions 窗格中的 Create Class 命令,或单击屏幕左侧类别列表上方的 Create class 来创建相应的类别。
    提示: 要重命名现有类别,单击类别名称旁边的图标,然后选择 Rename class
  3. 在屏幕左侧的类别列表中选择一个类别,通过单击 Classification Skill 屏幕中央的 Upload documents、工具栏中的 Upload 按钮,或 Actions 窗格中的 Upload Documents 向其上传文档。 上传文档时,进度指示器显示在 Skill Designer 顶部、书签的右侧。指示器的工具提示包含仍需上传和处理的文档数量信息。
    注意: 上传到 No class 组的文档不会用于分类器训练和测试。
系统会显示每个类别包含的文档数量。如果您的文档集类别很少,或各类别差异显著,则每个类别只需少量文档。相反,如果类别过多,或类别之间差异不够明显,建议每个类别上传 10–100 份文档;在这种情况下,过少的文档可能导致分类错误。无论如何,不建议为单个类别上传超过 1,000 份文档。为最大化分类准确性,请为每个类别最常见的文档变体提供示例文档(每个变体约 1 份)。 默认情况下,所有上传的文档以列表形式显示。如果文件名具有足够信息量,便于导航。您也可以切换到缩略图视图;对于外观差异明显的文档,这可能更合适。要在这两种查看模式之间切换,请使用以下工具栏按钮:
  • 列表视图
  • 缩略图视图
如果上传的文档超过 50 份,将分页显示在多个页面上。 在任一视图中,单击位于文档名称左侧的按钮即可打开文档预览窗口。 该窗口的默认宽度为浏览器窗口宽度的 35%。如有需要,可通过拖动预览窗口的左边框将其宽度增加至浏览器窗口宽度的 80%。用户设定的宽度会一直保留,直至清除浏览器缓存。 如有需要,您可以单击工具栏中的 Rotate 手动更改各类别中文档页的方向,页面将逆时针旋转 90°。或者,您可以从下拉列表中选择以下选项之一:Rotate LeftRotate RightRotate 180°。您也可以在文档预览窗口中,单击该按钮并选择相应的旋转选项来更改某个特定文档的页方向。 如果文件因某种原因未上传(例如文件格式不受支持),其名称将以红色显示。

更改文档的指定类别

您可以按以下步骤更改已上传文档的参考类别:
  1. 勾选名称左侧的复选框,选择需要分配新类别的一份或多份文档。
  2. 操作窗格中出现的列表里,为所选文档选择合适的类别并单击分配。如果列表中没有正确的类别,请在操作窗格的搜索类别字段中输入新名称并单击创建

从集合中移除文档

您可以通过以下任一方式从集合中移除文档:
  • 勾选名称左侧的复选框,标记一个或多个要移除的文档。您也可以通过勾选文档列表上方该类别名称左侧的复选框,标记某一类别的全部文档(如果该类别的文档分布在多个页上,则仅会标记当前页显示的文档)。点击任一已标记文档旁的icon,然后点击Delete。在弹出的对话框中确认您的选择,即可删除已标记的文档。
    提示:即使文档未被标记为删除,您仍可点击其名称旁的icon将其删除。
  • 在类别列表中点击某个类别名称旁的icon,然后点击Delete All Documents。在弹出的对话框中确认您的选择,即可删除该类别中的所有文档。或者,您可以点击Delete Class with All Documents,这将同时删除该类别及其中的所有文档。

训练分类器

要使用专门准备的训练集来训练分类器,请在操作窗格中点击训练按钮。仅当训练集中至少包含两个不同且非空的类别时,训练按钮才会变为可用。 训练完成后,训练按钮旁会显示已完成icon。此外,Documents选项卡中的类别列表呈现方式也会发生变化。除显示各类别已上传的文档数量外,还会显示预测类别与参考类别不一致的文档数量。 Classification Skill Training Documents Amount 您可以在操作窗格中点击训练按钮下的取消来停止分类器训练。

另请参阅

分析分类结果