聚类中最优K值选取
2020-04-13 16:33:00
  • 0
  • 0
  • 17

K均值聚类(KMeans),是常用的一种无监督的分类算法,常用于解决市场细分,以及客户群划分等业务场景。

其基本思路是:在给定的类别数K值和K个初始聚类中心点的情况下,把每个样本点都分到离其最近的簇中,然后重新计算每个簇的中心点(中心坐标),再以新的中心点进行分配和更新聚类中心,依次迭代,直到簇中中心点的位置不再变化或者变化很小,或者达到指定的迭代次数为止。所以,KMean算法对于K值和聚类中心比较敏感。

KMeans算法本身比较简单,但问题在于,算法需要事先指定K值,在没有先验知识的情况下,用户如何判别要聚成几个类呢?如何找到最优的K值呢?

由于聚类是无监督的,所以无法基于分类结果来判别最优的K值。但这难不倒数据科学家们,他们尝试制定了一定的标准(指标),来判断K值的合适性。

下面我将给大家介绍几个常用的方法,来确定合适的K值。


1、Elbow method(神翻译:手肘法)

可以理解,一个良好的聚类簇,总是可以找到一个聚类中心点,使样本离中心点的距离应该最小。基于这样的理解,定义了一个距离公式WSS(within cluster sum of squared errors),也叫做簇惯性(cluster inertia):

其中,K是类别数量,p是样本,C_k是第k个聚类/簇的样本集,c_k是第k个聚类的中心点。也就是说,WSS(K)是所有样本离其聚类中心点的距离的平方和。

K的取值从小到大,就可以得到一系列的WSS距离值。一般情况下,K越大,则WSS越小,也说明样本的聚合程度越高。特别的,一个有n个样本的数据集,取K=n,则WSS=0。

显然,K的取值由小到大变化时,越接近“合适”的类别数时,WSS的下降幅度也会越大,当超过“合适”的类别数地,WSS的下降幅度也就趋于平缓了。所以,这个由快速下降到趋于平缓的拐点,就是最合适的K值。

如下图所求,在K=4时,WSS的下降速度开始变缓,即出现拐点,因此取K=4是最合适的。

不过呢, 这种方法的缺点是需要人工来观察。

2、Calinski-Harabasz Index准则

其中,c_i是某个簇的中心点,c是所有样本的中心点,N-K, K-1是复杂度。

即SSW是各簇内的样本到本簇中心点的距离平方和。

显然,当CH(K)比率越大(即类内方差较小,类间方差较大),说明聚类效果越好。


3、Silhouette Coefficient(轮廓系数法)



理想的聚类,应该是样本离同簇的距离近,要比离其他簇的距离远,即可以这样理解:

如果a<b,说明样本分类正确,此时S_(x_i )接近于+1

如果a>b,说明样本应该分类到另外一个簇中,此时S_(x_i )接近于-1

如果a≈b,说明样本在两个簇的边界上

最后,取所有样本的平均轮廓系数,来代表聚类的紧密程度:

一般,平均轮廓系数的取值范围为[-1, +1],越接近于1表示聚类效果越好。


4、Gap Statistic间隔统计量


5、Canopy算法

前面介绍的方法,都是属于“事后”判断的,即要在进行聚类后才能够判断聚类的效果,接下来介绍的Canopy算法,是一种“事前”判断最优K值的方法。

与其他评估法不一样的是,Canopy不需要事先指定K值,虽然精度低,但在速度上有很大优势,因此常用Canopy算法来对数据集进行“粗”聚类,得到k值以及大致的k个中心点,再进行进一步的“细”聚类。所以,Canopy+KMeans这种形式的聚类算法效果良好。

其算法原理如下:

将数据集list按照一定的规则进行排序,假定初始距离阈值T1和T2(T1>T2)

在数据集list中选取一个样本x,使用粗糙距离公式计算x与数据集list中其他样本间的距离d

基于d,把d小于T1的样本划分到一个canopy簇中,同时把小于T2的样本从list中移除

重复2、3步,直到数据集list中样本为空,算法结束

算法原理很简单,就是对数据集进行遍历,与canopy簇太近的点,不会作为中心点(移除),只有T2<d<T1的点有可能作为中心点。

Canopy算法的优势在于对噪声的有一定的抗干扰性,选择出来的中心点比较科学。其关键的问题在于,如何确定T1和T2的问题。

当然,还有其他的方法都可以用来寻找最优K值,比如使用x-means方法结合BIC准则、利用Affinity propagation方法估计等等,在此不再赘述,有兴趣的同学不妨自己去网络上搜索和整理。


作者简介:

傅一航,专注于大数据分析与挖掘、机器学习等应用技术,以及大数据系统部署解决方案。旨在将大数据的数据分析、数据挖掘、数据建模应用于行业及商业领域,解决行业实际的问题。邮箱:2509626286@qq.com。

 
最新文章
相关阅读