在使用k-mean算法进行数据挖掘过程时,必须找到一个目标数“k”,它是数据集中需要的质心数。实际上,该算法试图将一些未标记的点分组到“k”个簇中。因此,“k”代表最终需要的数据集群数量。
k-means是聚类算法中的一种,其中k表示类别数,means表示均值。顾名思义k-means是一种通过均值对数据点进行聚类的算法。k-means算法通过预先设定的k值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。
对于给定的样本集,按照样本之间的距离(也就是相似程度)大小,将样本集划分为k个簇,k即类别。