当前位置:网站首页 > 编程语言 > 正文

knn模型是什么(knn模型原理)



K近邻KNN模型的原理上示意如下图:

比如红色点,挨着其最近的5个点(K=5时)如上图,如果该5个点中多数均为A类,那么红色点就归为A类。需要注意的是,通常情况下K值为奇数,因为如果为偶数比如为6,那么3个为A类3个为B类,此时不好划分点的类别。

上述中关于挨的最近的距离,如何进行衡量呢?距离的计算方式非常多,比如欧式距离、曼哈顿距离等,通常情况下使用欧式距离,其计算公式如下:

欧氏距离 d = ( y 1 x 1 ) 2 + ( y 2 x 2 ) 2 + . . . + ( y n x n ) 2

比如有两行数据分别3列(即3个X,3个特征项),两行数据分别是(1,2,3)和(3,4,5),那么 欧氏距离 d = ( 3 1 ) 2 + ( 4 2 ) 2 + ( 5 3 ) 2 = 3.464

另外关于K值的选择上,通常建议K介于3~20之间,且一般为奇数值,SPSSAU默认为5,如果说K值太大,容易出现‘过拟合’现象即结果看着很好但事实上不好;如果K值过小,容易出现拟合现象很糟糕(欠拟合)现象。实际使用时,可考虑分别设置不同的K值,然后对模型的优劣进行汇总和对比。

关于归类问题,上述比如K=5,挨的最近5个点中有3个(超过一半)为A类,那么该点就分为A类,此种分类方式为‘等比投票权’,即5个点的权重完全一致。但我们知道,挨的最近的5个点,其实都能计算出距离值,是否可根据距离值大小来加权判断呢?比如使用距离值的倒数,即1/距离值作为权重,如果距离值越大,权重就越小,并且综合计算来评估类别划分,此种方式叫‘距离反比投票权法’。关于类别划分参数,其叫‘样本投票权重’。

关于K近邻KNN模型时,通常涉及到以下参数值,如下:

邻近样本个数K值,一般为奇数,并且常介于3~20之间,可设置不同的K值来对比不同模型的优劣。样本投票权重,默认是‘等比投票权’,可选为‘距离反比投票权’,建议K值较小时可考虑使用‘距离反比投票权’法。距离计算方法上,默认是欧式距离,可选曼哈顿距离,通常使用欧式距离即可。邻近搜索方法上,一种是全局搜索,比如100个样本,某个点分别先计算出该点离另外100个样本的距离,然后找出其中最小的K个,此种方式简单易懂,但是计算费资源,因而延伸出KD树和ball树两种优化算法。默认情况下系统会自动结合数据情况选择邻近搜索方法,研究者也可自行选择。

到此这篇knn模型是什么(knn模型原理)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • 十大u盘启动盘制作工具(十大u盘启动盘制作工具界面)2025-07-15 13:54:09
  • sillgme是什么意思(sinmag是什么意思)2025-07-15 13:54:09
  • 操作系统课(操作系统课程)2025-07-15 13:54:09
  • 谄怎么读(谄怎么读什么意思)2025-07-15 13:54:09
  • gitsubmodule版本 指定(git log 指定版本)2025-07-15 13:54:09
  • hpld怎么读(hpld怎么读英语)2025-07-15 13:54:09
  • autokey发送不到autotune(auto不可用)2025-07-15 13:54:09
  • 星露谷物黄金钟是什么(星露谷黄金时钟值不值得买)2025-07-15 13:54:09
  • 预训练适应仪哪个牌子好(预适应训练仪哪个厂家的好?)2025-07-15 13:54:09
  • 锁表格怎么锁(锁住表格)2025-07-15 13:54:09
  • 全屏图片