KNN ¶

1.概念理解 ¶

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。即是给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例（也就是所说的K个邻居），这K个实例的多数属于某个类，就把该输入实例分类到这个类中。

最近邻算法

介绍 K-近邻算法之前，首先说一说最近邻算法。最近邻算法（Nearest Neighbor，简称：NN），其针对未知类别数据 xx，在训练集中找到与 xx 最相似的训练样本 yy，用 yy 的样本对应的类别作为未知类别数据 xx 的类别，从而达到分类的效果。

如上图所示，通过计算数据 XuXu（未知样本）和已知类别 {ω1,ω2,ω3}{ω1,ω2,ω3}（已知样本）之间的距离，判断 XuXu 与不同训练集的相似度，最终判断 XuXu 的类别。显然，这里将绿色未知样本类别判定与红色已知样本类别相同较为合适。

K-近邻算法

K-近邻（K-Nearest Neighbors，简称：KNN）算法是最近邻（NN）算法的一个推广，也是机器学习分类算法中最简单的方法之一。KNN 算法的核心思想和最近邻算法思想相似，都是通过寻找和未知样本相似的类别进行分类。但 NN 算法中只依赖 1 个样本进行决策，在分类时过于绝对，会造成分类效果差的情况，为解决 NN 算法的缺陷，KNN 算法采用 K 个相邻样本的方式共同决策未知样本的类别,这样在决策中容错率相对于 NN 算法就要高很多，分类效果也会更好。

2.实现步骤 ¶

初始化距离为最大值

计算未知样本和每个训练样本的距离dist

得到目前K个最邻近样本中的最大距离maxdist

如果dist小于maxdist，则将该训练样本作为K-最近邻样本

重复步骤2,3,4，直到未知样本和所有训练样本的距离都算完

统计K个最近邻样本中每个类别出现的次数

选择出现频率最大的类别作为未知样本的类别

如果选择较小的K值，就相当于用较小的领域中的训练实例进行预测，“学习”近似误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是“学习”的估计误差会增大，换句话说，K值的减小就意味着整体模型变得复杂，容易发生过拟合；

如果选择较大的K值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单。

K=N，则完全不足取，因为此时无论输入实例是什么，都只是简单的预测它属于在训练实例中最多的累，模型过于简单，忽略了训练实例中大量有用信息。

在应用中，k值一般取一个比较小的数值，通常采用交叉验证法来选择最优k值

1.3.3 分类决策规则 ¶

1.多数表决法

多数表决法类似于投票的过程，也就是在 K 个邻居中选择类别最多的种类作为测试样本的类别。

2.加权表决法

根据距离的远近，对近邻的投票进行加权，距离越近则权重越大，通过权重计算结果最大值的类为测试样本的类别。