机器学习——K-近邻算法

阅读量：

（一）K-近邻算法概述

该算法作为核心任务之一，在分类与回归领域具有基础性作用。
其基本思路在于：
对于给定的一组训练样本及其待识别的目标样本，
随后识别出目标样本在特征空间中最接近的前k个训练样本，
最后通过这些训练样本所属类别数量最多的类别作为预测结果。

2．该𝐾-近邻模型相当于依据训练数据集将特征空间划分为若干区域。在𝐾近邻法中,一旦选定训练集、采用的距离度量方法、选取的𝐾值以及分类决策原则,则其分类结果必然唯一确定。

在k近邻方法中包含三个基本构成要素：计算方式、参数选择以及分类依据。常用的计算方式包括欧氏距离及其推广形式pL距离。而当参数设置较小时（即k值较小时），模型会变得更加复杂；反之，则会变得更加简单。这种参数设置反映了在减少近似误差的同时也会增加估计误差之间的平衡关系，在实际应用中通常会通过交叉验证的方法来确定最佳参数。

常用的分类决策规则是多数表决，对应于经验风险最小化。

4．在实现过程中的 $k$ 近邻法需要考虑如何高效地搜索出 $k$ 个最近邻点，并依据分类决策规则来进行判断以确定最终点的归类。

（二）算法步骤

k-近邻算法步骤如下：

计算当前点与已知类别数据集中各点之间的距离；
按距离从小到大排序；
选取与当前点距离最近的前k个样本；
统计这些样本中各类别出现的频率；
将归类到出现频率最高的类别作为预测结果。
通过KNN算法区分爱情片与动作片，《图1-1》展示了6部电影中的打斗镜头及接吻数目。

（三）代码实现

复制代码

  
    
 # -*- coding: UTF-8 -*-
    
 import collections
    
 import numpy as np
    
 def createDataSet():
    
 	#四组二维特征
    
 	group = np.array([[1,101],[5,89],[108,5],[115,8]])
    
 	print(group)
    
 	#四组特征的标签
    
 	labels = ['爱情片','爱情片','动作片','动作片']
    
 	return group, labels
    
 def classify(inx, dataset, labels, k):
    
 	# 计算距离  其实就是计算点一定之间的距离
    
 	dist = np.sum((inx - dataset)**2, axis=1)**0.5
    
  
    
 	#print("dist",dist)
    
  
    
 	# k个最近的标签
    
 	# dist.argsort 将x中的元素从小到大排列，提取其对应的index(索引)
    
 	k_labels = [labels[index] for index in dist.argsort()[0 : k]]
    
  
    
 	print('k_labels', k_labels)
    
 	# 出现次数最多的标签即为最终类别
    
 	#主要功能：可以支持方便、快速的计数，将元素数量统计，然后计数并返回一个字典，键为元素，值为元素个数。
    
 	print('k_labels',collections.Counter(k_labels).most_common(1)[0][0])
    
 	label = collections.Counter(k_labels).most_common(1)[0][0]
    
 	return label
    
  
    
 if __name__ == '__main__':
    
 	#创建数据集
    
 	group, labels = createDataSet()
    
 	#测试集
    
 	test = [55,20]
    
 	#kNN分类
    
 	#test_class = classify0(test, group, labels, 3)
    
 	test_class = classify(test, group, labels, 3)
    
 	#打印分类结果
    
 	print(test_class)

（四）总结

优点：

1.k近邻算法理论简单，容易实现。

2.准确性高，对异常值和噪声有较高的容忍度

缺点：

1.k取值很小容易受异常点影响；k取值很小容易受数量波动影响

全部评论 (0)

还没有任何评论哟~

机器学习——K-近邻算法

（一）K近邻算法概述 1．𝑘近邻法是基本且简单的分类与回归方法。𝑘近邻法的基本做法是：对给定的训练实例点和输入实例点，首先确定输入实例点的𝑘个最近邻训练实例点，然后利用这𝑘个训练实例点的类的多...

机器学习——K-近邻算法

机器学习——K近邻算法简单地说，k近邻算法采用测量不同特征值之间的距离方法进行分类一、K近邻算法 K近邻（KNearestNeighbor,KNN）是一种最经典和最简单的有监督学习方法之一。K近邻...

机器学习——K近邻算法

k近邻算法的基本原理存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对...

机器学习---k-近邻算法

knn近邻算法基础原理版： 1.shape 二维数组时： shape[0]，行数 shape[1],列数一维数组时：返回[1,] 2.tile 格式：tile（A,reps） A：arraylik...

【机器学习】K-近邻算法

一、分类算法k近邻算法KNN 定义：如果一个样本在特征空间中的k个最相似即特征空间中最邻近的样本中的大多数属于某一个类别，则该样本也属于这个类别。来源：KNN算法最早是由Cover和Hart提出的一种...

【机器学习】K-近邻算法

目录一、k近邻算法 k近邻算法概述 k近邻算法一般流程 K近邻算法步骤点距离的计算 K值选取二、K近邻算法实现三、小结 K近邻算法优缺点一、k近邻算法 k近邻算法概述采用测量不同特征值之间...

机器学习---K近邻算法

1\.KNN算法 K近邻算法，即KNearestNeighboralgorithm，简称KNN算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一，1968年由Cover和Hart提出。

机器学习——K-近邻算法

1.k近邻算法的概述工作机制：给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这k个“邻居”的信息来进行预测。通常，在分类任务中可使用“投票法”，即选择这k个样本中出现最...

【机器学习】K邻近算法

K邻近算法原理（K：近邻的个数）可用于分类或回归分类（近朱者赤近墨者黑）对于k邻近算法来讲，新数据点离谁最近，就和谁属于同一类。如果在模型训练的过程中选的最邻近数为1，很可能这个数据恰好是一个...

机器学习-K近邻算法

KNN项目案例1:优化约会网站的配对效果 KNN场景电影可以按照题材分类，那么如何区分动作片和爱情片呢？动作片:打斗次数更多爱情片:亲吻次数更多基于电影中的亲吻、打斗出现的次数，使用k近邻算法...

是否确定退出登录?

机器学习——K-近邻算法

（一）K-近邻算法概述

（二）算法步骤

（三）代码实现

（四）总结

全部评论 (0)

相关文章推荐

机器学习——K-近邻算法

机器学习——K-近邻算法

机器学习——K近邻算法

机器学习---k-近邻算法

【机器学习】K-近邻算法

【机器学习】K-近邻算法

机器学习---K近邻算法

机器学习——K-近邻算法

【机器学习】K邻近算法

机器学习-K近邻算法