- 你需要为一个简单的多分类识别器补上“K 近邻”判别模块。做法是:先度量待测样本与训练样本的距离,挑选出距离最近的 K 个样本,再用多数票决定最终类别。
-
操作要点(按流程执行):
- 先计算待测点到每个样本点的距离(为了效率,可直接用“平方欧氏距离”参与排序,结果等价)。
- 将样本按距离升序排列,截取前 K 个作为近邻。
- 统计这 K 个近邻的标签出现次数,频数最高的标签即为预测值。
- 如出现“最高频数并列”,只在并列标签对应的近邻里,按由近到远的顺序挑第一个的标签。
-
约束与假设:
- 数据集已做归一化处理(不同维度量纲一致),特征保留两位小数。
- 每个类别在数据集中都至少有一个样本。
-
距离采用欧氏距离: