9.6 聚类分析结果的评价体系和评价指标

正如第7章里谈到的,每一个算法都有自身的优势和局限性,因此没有哪个算法是永远优于其他算法的。在聚类分析的实际应用中,针对聚类结果的评估也有很多的维度和指标。但是,从数据化运营的实践经验来看,任何模型的评估,包括聚类分析的评估既要考虑统计学意义上的指标、维度,同时更要关注其实践效果上的价值及业务背景下的价值。尤其是对于聚类项目来说,它跟分类(预测)项目的一个显著不同之处在于,后者的评判有训练集、验证集、测试集的客观参照,而对于聚类结果的评判来说,一个对象分配到A类与分配到B类,中间并没有太明确、太客观的参照依据。鉴于此,聚类结果的评判常常更加复杂和困难。下面就来介绍一下常用的聚类评估方法及其指标体系。

9.6.1 业务专家的评估

聚类分析的结果评估首先要跟相应的落地应用场景相结合。尽管目前关于聚类的评价指标和评价体系已经比较成熟,但是总体来说,业务专家的评估才是最重要的评价层面。这一方面是由数据化运营的最终目的即落地应用效果所决定的,另一方面也是由聚类技术本身(与分类、预测技术相比,一个对象到底应该分到A簇,还是B簇,中间没有明显的效果区别)的特点决定的。

业务专家虽然可能不太了解聚类原理,但是他们对于具体对象的大概所属群体特征还是有非常深刻的商业直觉和业务敏锐性的。如果对于聚类的结果,多数业务专家都不满意、不认可、看不懂,那么这个聚类的结果很可能是有问题的,是值得怀疑的。虽然对于每个业务专家来说,他们的评判非常主观,但是采用全体专家平均分的技术手段,是可以比较有效降低主观因素对于聚类效果评价的影响的。

业务专家对聚类结果进行评判时不仅仅只是对结果的合理性、理解性进行评判,更重要的是常常会结合具体应用的业务场景来进行评判。很多时候,尽管聚类的结果看上去很合理,很容易理解,很符合业务逻辑,但是如果没有落地应用价值,或者说没有落地应用的前景,那这个聚类的结果仍然是不合格的,是无法满足业务需求的。举例来说,如果业务分析需求的目的是找出产品付费用户的网络行为特征,并根据该特征有效发现、复制潜在的付费用户,而聚类的结果只是从付费用户中发现了不同群体的产品使用特征和续费特征,尽管这些发现都是正确的、符合业务逻辑的,都是满足聚类评价技术指标的,但是这种发现对于当初的分析目的而言是没有价值的,是不合格的,因为该结果并没有实现当初的分析目的——发现付费用户群体的典型的网络行为特征,从而可以让业务方、运营方有方向、有目标地去锁定潜在的付费用户群体。

9.6.2 聚类技术上的评价指标

从9.2节中讲解了,不同的聚类算法遵循不同的聚类原理和思路,因此它们必然也会有不同的评价标准和评价指标。鉴于K-Means算法和凝聚层次聚类算法在数据化运营实践中占绝对的主流应用地位,其中K-Means算法比后者应用更广泛,因此本节主要针对这两种算法的效果进行总结,当然这些指标的思路对于其他聚类算法而言也是有积极的借鉴和参考价值的。

❑RMSSTD(Root-Mean-Square Standard Deviation):群体中所有变量的综合标准差,RMSSTD越小表明群体内(簇内)个体对象的相似程度越高,聚类效果越好。计算公式如下:

00093.jpeg

其中,Si代表第i个变量在各群内的标准差之和,p为变量数量。

❑R-Square:聚类后群体间差异的大小,也就是聚类结果可以在多大比例上解释原数据的方差,R-Square越大表明群体间(簇间)的相异性越高,聚类效果就越好。计算公式如下:

00094.jpeg

其中,W代表聚类分组后的各组内部的差异程度,B代表聚类分组后各组之间的差异程度,T代表聚类分组后所有数据对象总的差异程度,并且T=W+B。

按照聚类的思想来看,一个好的聚类结果,应该是在R-Square∈[0,1]的范围内,并且R-Square越接近1越好,这说明了各个群类之间的差异,即B越大,而同组内(群内)各对象间的差异,即W越小,这正是聚类分析所希望达到的效果。计算公式如下:

00095.jpeg

其中,p代表有p个指标(变量),n代表有n个组员,figure_0280_0151代表总体平均值。

❑SPR(Semi Partial R-Square):该指标适用于层次方法中的凝聚层次聚类算法,它表示当原来两个群体合并成新群体的时候,其所损失的群内相似性的比例。一般来说,SPR越小,表明合并成新的群体时,损失的群内相似性比例越小,新群体内的相似性越高,聚类效果就越好。

❑Distance Between Clusters:该指标适用于层次方法中的凝聚层次聚类算法,它表示在要合并两个细分群体(簇)时,分别计算两个群体的中心,以求得两个群体的距离。一般来说,距离越小说明两个群体越适合合并成一个新群体。虽然该指标主要应用于层次方法中的凝聚层次聚类算法,但是从其算法原理来看,该指标也可应用于其他聚类算法中,包括K-Means算法,也就是说,在K-Means算法的聚类结果里,一样可以有这个指标,用于显示聚类的结果里各个群体间是否有足够的距离。这个指标越大,说明聚类分群效果越好。

上面总结的4个主要评价指标只是在聚类分析实践应用中最常用的指标,并不是针对聚类结果的全部评价指标,在实践应用中还有更多的指标可以供我们参考,其中最重要的是从业务背景的角度所提出来的指标,比如,特定群体的数量不能太少,聚类的结果要有很好的业务解释性等。另外,不同的数据挖掘软件或聚类软件,也会自带一些相关的指标,在实际应用中,数据分析师通常都是相互参考,再结合业务逻辑和业务专家的意见做综合评价的。