跳转到主要内容
要训练分类器,您需要一个训练集,其中包含已被预先标注参考类别的文档。

创建训练集

  1. 在 Classification Skill Designer 中,打开 Documents 选项卡。
  2. Actions 面板中使用 Create Class 命令,或单击屏幕左侧类列表上方的 Create class,创建相应的类。
    提示: 若要重命名现有类,请单击类名称旁边的图标并选择 Rename class
  3. 在屏幕左侧的类列表中选择一个类,然后通过以下任一方式向其上传文档:单击 Classification Skill 界面中央的 Upload documents,工具栏中的 Upload 按钮,或 Actions 面板中的 Upload Documents 上传文档时,Skill Designer 顶部书签右侧会显示进度指示器。指示器的工具提示中包含尚需上传和处理的文档数量信息。
    注意: 上传到 No class 组的文档不会用于分类器的训练和测试。
对于每个类,将显示属于该类的文档数量。如果您的文档集中包含的类非常少,或者各类之间差异较大,则每个类可以只包含少量文档。另一方面,如果类过多,或各类之间的差异不够明显,我们建议为每个类上传 10 到 100 份文档,因为在这种情况下,使用较少数量的文档可能会导致分类错误。无论如何,我们不建议为某个类上传超过 1,000 份文档。为最大化分类准确性,请为每个类中最常见的文档变体提供示例文档(大约每种变体一份文档)。 默认情况下,所有上传的文档以列表形式显示。如果文件名足够具有信息性,这将便于导航。您也可以切换到缩略图视图,如果您的文档在外观上差异较大,这种视图可能更适合。要在这两种视图模式之间切换,请使用以下工具栏按钮:
  • 列表视图
  • 缩略图视图
如果上传的文档超过 50 份,它们将分页显示在多个页面上。 在任一视图中,您都可以通过单击文档名称左侧的按钮打开文档预览窗口。 此窗口的默认宽度为浏览器窗口宽度的 35%。如有需要,您可以通过拖动预览窗口的左边框将其宽度增大到最多为浏览器窗口宽度的 80%。用户自定义的宽度将一直保留,直到清除浏览器缓存为止。 如有需要,您可以在每个类中手动更改文档页面的方向:单击工具栏中的 Rotate,将页面逆时针旋转 90°。或者,您可以从下拉列表中选择以下选项之一:Rotate LeftRotate RightRotate 180°。您也可以使用文档预览窗口,通过单击相应按钮并选择合适的旋转选项,更改特定文档的页面方向。 如果某个文件由于某种原因未能上传(例如文件格式不受支持),其名称将以红色显示。

更改文档的已分配类别

您可以通过以下步骤更改已上传文档所分配的参考类别:
  1. 勾选名称左侧的复选框,选中一个或多个需要分配新类别的文档。
  2. 在弹出的 Actions 面板列表中,为该文档或这些文档选择合适的类别,然后单击 Assign 按钮。 如果列表中没有所需的类别,请在 Actions 面板的 Search for class 字段中输入一个新名称,然后单击 Create

从集合中移除文档

您可以通过以下任一方式从集合中移除文档:
  • 通过选中名称左侧的复选框,将一个或多个文档标记为待移除。您可以通过选中文档列表上方某个类名称左侧的复选框,将该类的所有文档都标记出来(如果该类的文档显示在多个页面上,则只会标记当前页面上显示的文档)。单击其中一个已标记文档旁边的图标,然后单击 Delete。在随即出现的对话框中确认您的选择。这样就会删除已标记的文档。
    提示: 即使未将某个文档标记为待删除,您仍可以通过单击其名称旁边的图标来删除它。
  • 在类列表中单击类名旁边的图标,然后单击 Delete All Documents。在随即出现的对话框中确认您的选择。这样就会删除所选类的所有文档。或者,您可以单击 Delete Class with All Documents,这将同时删除该类本身及其中的所有文档。

训练分类器

要使用专门准备的训练集来训练分类器,请单击 Actions 面板中的 Train 按钮。只有当训练集中至少包含两个不同且非空的类别时,Train 按钮才会处于可用状态。 训练完成后,Train 按钮旁边会显示 Completed 图标。此外,Documents 选项卡中类别列表的显示方式也会发生变化。除了显示每个类别上传的文档数量外,还会显示预测类别与参考类别不同的文档数量。 分类技能训练文档数量 您可以在 Actions 面板中单击 Train 按钮下方的 Cancel 来停止分类器训练。

另请参阅

分析分类结果