KNN算法介绍 knn分类算法

KNN算法是机器学习里面比较简单的一个分类算法了,整体思想比较简单:计算一个点A与其他所有点之间的距离,取出与该点最近的k个点,然后统计这k个点里面所属分类比例最大的,则点A属于该分类。这样讲可能还有点迷糊,下面用一个例子来说明一下:

电影名称打斗次数接吻次数电影类型
California Man3104Romance
He’s Not Really into Dudes2100Romance
Beautiful Woman181Romance
Kevin Longblade10110Action
Robo Slayer 3000995Action
Amped II982Action
未知1890Unknown

简单说一下这个数据的意思:这里用打斗次数和接吻次数来界定电影类型,如上,接吻多的是Romance类型的,而打斗多的是动作电影。还有一部名字未知(这里名字未知是为了防止能从名字中猜出电影类型),打斗次数为18次,接吻次数为90次的电影,它到底属于哪种类型的电影呢?

KNN算法要做的,就是先用打斗次数和接吻次数作为电影的坐标,然后计算其他六部电影与未知电影之间的距离,取得前K个距离最近的电影,然后统计这k个距离最近的电影里,属于哪种类型的电影最多,比如Action最多,则说明未知的这部电影属于动作片类型。

在实际使用中,有几个问题是值得注意的:K值的选取,选多大合适呢?计算两者间距离,用哪种距离会更好呢(欧几里得距离等等几个)?计算量太大怎么办?假设样本中,类型分布非常不均,比如Action的电影有200部,但是Romance的电影只有20部,这样计算起来,即使不是Action的电影,也会因为Action的样本太多,导致k个最近邻居里有不少Action的电影,这样该怎么办呢?

没有万能的算法,只有在一定使用环境中最优的算法,所以,要懂得合适利用算法。

1234567import numpy asnpfrom sklearn import neighborsknn =neighbors.KNeighborsClassifier()#取得knn分类器data =np.array([[3,104],[2,100],[1,81],[101,10],[99,5],[98,2]])labels =np.array([1,1,1,2,2,2])knn.fit(data,labels)#导入数据进行训练,data对应着打斗次数和接吻次数,而labels则是对应Romance和Action,因为这里只能接受整数类型的数组knn.predict([18,90])

上面的代码这里简单解释一下:

首先,我用labels数组中的1和2代表Romance和Aciton,因为sklearn不接受字符数组作为标志,只能用1,2这样的int型数据来表示,后面处理可以将1和2映射到Romance和Action上来。

fit则是用data和labels进行训练,data对应的是打斗次数和接吻次数构成的向量,称之为特征向量。labels则是这个数据所代表的电影所属的类型。

predict则是进行预测了,将未知电影的特征向量代入,则能分析出该未知电影所属的类型。这里的结果是1,也就是该未知电影属于Romance。

KNN算法介绍 knn分类算法

  

爱华网本文地址 » http://www.aihuau.com/a/25101015/264820.html

更多阅读

excel2007之如何用公式、排序筛选、分类汇总 分类汇总排序

工作表中的数据量都超级繁琐,不是一对一的那么简单,可能视觉不能直观的分析出数据,为增加工作效率,我们往往使用excel表格中的筛选排列辅助功能,方法如下:我主要跟大家介绍一下分类汇总的功能,过程中就捎带着公式、排序、筛选1、excel常用

紫苏草图片和介绍 车前草图片及介绍

  (2012-04-12 17:59:13)标签:紫苏草图片介绍娱乐分类:美丽景色紫苏草图片和介绍拉丁名:Limnophila aromatica (Lam.) Merr.别名 :麻省草、双漫草(广东海南)、止咳草(民间)

澳洲坚果图片和介绍 澳洲坚果树

(2011-09-24 18:48:46)标签:澳洲坚果图片介绍娱乐分类:美丽景色别名:昆士兰栗、澳洲胡桃、夏威夷果英名:Macadamia nut,Hawaii nut,Queensland nut学名:Macadamia integrifolia Maiden & Betche(光壳种)M. ternaphylla S. Johnson(粗壳种)

蓝花楹图片和介绍 旭和蓝花楹烂尾

(2011-10-18 15:26:12)标签:蓝花楹图片介绍娱乐分类:美丽景色学名:Jacaranda mimosifoia别称:含羞草叶蓝花楹 、蓝雾树科属:紫葳科 Bignoniaceae,蓝花楹属 Jacaranda

声明:《KNN算法介绍 knn分类算法》为网友幕后纵情分享!如侵犯到您的合法权益请联系我们删除