9.5 聚类分析在实际应用中的优势和缺点

聚类分析的优势在实践应用中是很明显的,无论是从其原理上来理解,还是从其应用的普遍程度上来看。尤其是针对大数据集的时候,K-Means算法几乎是目前最主流的算法和应用了。具体来讲,其应用优势体现在以下几个方面:

❑目前聚类技术已经比较成熟,算法也比较可靠,而且长期的商业实践应用已经证明它是一个不错的数据群体细分的工具和方法。

❑聚类技术不仅本身是一种模型技术,可以直接响应业务需求,提出细分的具体方案来指导实践;同时,聚类技术还经常作为数据分析前期的数据摸底和数据清洗的有效思想和工具。这种多样性的特点使得聚类技术的应用场景更加丰富,其价值也因此更加明显。

❑如果聚类技术应用得好,其聚类的结果比较容易用商业和业务的逻辑来理解和解释。可理解、可解释在数据化运营实践中非常重要,它决定了业务应用方是否可以理解模型的结论,在此基础上才谈得上业务方是否真心支持、全力配合、共同推进数据分析(模型)的有效地落地应用。

❑K-Means算法具有简洁、高效的特点。K-Means算法的时间复杂度是O(tkn),其中,t是循环次数,也就是算法收敛时已经迭代的次数;k是聚类的个数,也就是聚类的类别数量;n是数据点的个数,也就是样本数量。由于t和k都要远远小于n,所以K-Means算法的时间复杂度与数据集的大小是线性相关的。

❑K-Means算法是一个不依赖顺序的算法。给定一个初始类分布,无论样本算法的顺序如何,聚类过程结束后的数据分区结果都会是一样的。

K-Means算法有这么多的好处,那它的劣势又有哪些呢?

尽管在众多的聚类算法中,尤其是针对大数据集的应用场景里,K-Means算法几乎是唯一主流的算法,但是其本身也有一些缺点和不足,主要表现在以下几个方面:

❑数据分析师需要事先指定聚类的数目k。在实践中,要测试多个不同的k值才能根据效果比较来选择最合适的k值,这个过程有可能会比较耗时。

❑算法对数据噪声和异常值比较敏感。异常值是数据中那些与其他数据点相隔很远的数据点,其可能是数据采集时的失误,也可能是本质不同的数据。由于K-Means算法是采用均值作为每个聚类的聚类中心的,所以异常值会严重干扰正常的聚类中心的计算,造成聚类失真。