数据挖掘十大经典算法之——KNN 算法
发布时间
阅读量:
阅读量
数据挖掘十大经典算法系列,点击链接直接跳转 :
简介
分类思想相对简单而言主要是通过以下步骤实现:首先从训练样本中筛选出与待判数据最为接近的对象共K个;接着考察这K个样本所属类别出现频率最多的情况;最后将待判数据归入出现频率最高的类别之中
缺点:
1)K 值需要预先设定,而不能自适应
2)当数据集失衡时,例如某一类别的数据量显著大于其他类别,可能导致在输入一个新样本时,该新样本的K个邻居中大数据类别的数据量占比较高。
该算法特别适用于对大规模类别进行自动分类。
全部评论 (0)
还没有任何评论哟~
