9.4 聚类分析的扩展应用

前面内容中谈到的聚类分析都是在典型业务场景中的应用。除此以外,聚类分析还有更多的扩展应用,这些扩展应用有的能显著提升单纯聚类分析所无法实现的商业应用价值,有的可作为辅助工具提升其他建模工具的应用效果,而且效果很显著,还有的突破了常规聚类应用的场景,参与到个性化推荐的应用中了。聚类分析技术的这些扩展应用,生动体现了数据挖掘分析技术在业务实践中的生命力,也对数据分析师提出了自我专业提升的方向和思路,即与时俱进、紧贴业务需求、以不变的聚类原理,从容应对万变的业务场景和业务需求。

9.4.1 聚类的核心指标与非聚类的业务指标相辅相成

聚类分析技术在实践应用中有个比较明显的不足之处,那就是参与聚类的变量数目不能多,需要坚持少而精的原则,否则不仅运算耗时,而且聚类的效果也不好。但是,另一方面,从业务需求的实际出发,业务应用应让尽可能多的指标进入分析范围,这样得到的信息更丰富、更全面,也才更有可能发现业务线索。那如何协调两者的矛盾呢?

在实践中,已经有了比较成熟且行之有效的方法可以较好地解决上述矛盾。一方面坚持参与聚类的变量少而精的原则,另一方面把非聚类的业务指标与聚类结果一起拿来分析、提炼、挖掘,这种相辅相成的做法在聚类分析的应用实践中已经得到了普遍的认可和采用。

具体来说,先通过用户行为属性里的核心字段进行聚类分群,在得到比较满意的聚类分群结果之后,针对每个具体细分的对象群体,再分别考察用户的会员属性,包括年龄、性别、地域、收入、爱好等一系列的基础信息。如果这些属性在聚类细分后的群体里有显著的区别或特征,将会明显丰富仅仅依靠参与聚类的少数字段所能揭示的业务特征和线索。

当然,在具体的聚类分析业务实践中,是否采用这种聚类核心指标与非聚类的业务指标相辅相成的策略,要视具体的分析目的和分析背景而定,但是这种相互结合的方法在大多数的项目实践中被证明是一种简单、有效、快捷的好办法,值得信赖。

9.4.2 数据的探索和清理工具

前面的内容已经多次提到,聚类技术不仅仅是一种模型技术,可以直接应用于相应的业务需求和项目目的;同时,聚类技术也可以作为一种数据清理工具,在其他数据模型分析的前期,可使用聚类技术进行数据的探索、清理工作,作为其他建模技术有效应用的“清道夫”。聚类技术的这种基础性价值,主要表现在以下几个方面:

❑聚类技术产生的聚类类别可以作为一个新的字段加入其他的模型搭建过程中,在适当的项目场景里,这种新的类别字段很可能会有效提高建模的效率和增强效果。

❑聚类技术产生的聚类类别在合适的项目场景里,可以作为细分群体的建模依据,并且通常来说,细分建模的模型精度常常比整体建模的模型精度要高些。

❑聚类技术的应用本身就是数据探索和熟悉的过程,这个过程对于其他算法的模型搭建来说常常也是必不可少的。而且这种基于聚类技术对数据的认知比盲目的、没有体系的数据认知要来得更加有效率、有章法。

❑聚类技术针对变量的聚类是精简变量的有效方法。变量聚类用来检验变量之间的关系,目的是对数量较多的变量进行分类。归于同一组里的变量之间关系紧密,组内变量间的相关性会很高;而不同组群里的变量间相异性很大,即组间变量相互独立。变量聚类的结果可以用作减少变量的依据和方法,在利用变量聚类产生的几个类别中,每个类别里只选取有代表性的变量作为模型的输入变量,就可大大减少输入变量的数量,有利于提升建模的效率。在SAS里,变量聚类可以用简单的代码来实现:PROC VARCLUS DATA=table A。

❑聚类技术还可以用来检查数据的共线性问题。关于共线性问题,已经在第8章里进行了详细讲解。识别共线性的方法很多,聚类技术只是其中的一种。具体来说,通过变量聚类,同一组里的变量相似性明显,因此如果将同一聚类组里的变量同时放入建模过程中,就很有可能会产生共线性的问题。通过变量聚类,可以有效锁定可能发生共线性的一些变量,从而通过取舍,减少共线性的产生。

9.4.3 个性化推荐的应用

个性化推荐是电子商务时代产生的一个新的专业方向,在很多互联网公司里,个性化推荐已经作为一个单独的部门独立于数据分析部门之外了。个性化推荐目前已经产生了诸多的相关算法,其中以协同过滤算法最为普及。聚类分析的思想和原理也可以用到个性化推荐的应用场景里,我们来看以下的业务场景。

在电子商务平台上,买家与卖家如何高效、精准匹配是个性化推荐的核心任务。当买家进入平台浏览第一个页面时,个性化推荐就需要计算其可能感兴趣的卖家或者特定商品页面,或者特定店面的页面,并第一时间把与之相关的页面发送到买家面前。一般情况下,通过对买家的历史浏览行为进行统计分析,可以确定其感兴趣的特定商品大类,但在此基础上如何进一步精确锁定商品大类下面的具体小类呢?聚类技术提供了一个独特的思路和方法。通过历史数据对该商品大类的买家进行聚类分析,找出不同小类目的买家细分群体(聚类结果),然后用这个聚类模型去判别这个新的买家最可能属于哪个细分群体,再去匹配跟该细分群体最相近的卖家或者卖家的商品小类目,这就是聚类思想在个性化推荐中的应用思路。当然在具体的项目操作中,数据的清理是非常复杂的,前期的阀值确定和规则梳理也非常关键。在个性化推荐的大场景里,聚类技术只是其中的一个思路或环节,不过,聚类技术能突破传统的应用场景,尝试应用于类似个性化推荐之类的崭新的业务需求方面,正体现了包括聚类技术在内的数据分析挖掘技术与时俱进的活力和生命力。