11.2 用户特征分析的典型分析思路和分析技术

用户特征分析作为企业客户关系管理的最基本的工作内容,在传统行业里已经有了一些比较成熟的思路和技术应用;进入互联网时代,在数据化运营企业中,面对海量的数据和成千上万的变量字段,各企业也在不断尝试并积累新的分析思路和分析技术。本节将结合传统行业中具有代表性的成熟思路和技术,以及数据挖掘技术支持的思路和技术,对用户特征分析进行梳理和汇总。

11.2.1 3种划分的区别

抛开各种不同的分析技术和算法,单纯从业务方对于用户群体的熟悉程度来考虑,可以将用户特征分析拆分成3种分析类型,分别是预先定义的划分、数据分析的划分、复合的划分。在这里之所以首先提出这3种划分方式,是因为在企业的数据化运营实践中,在不少场景里,并不总是必须经过严格的数据分析才能找到合理的特征划分的,基于业务方对数据和业务的深度熟悉与了解,并且基于特定的业务目的,也是可以进行预先定义式的特征分析的。也就是说,在数据化运营的商业实践中,业务方的业务直觉和业务敏感性非常重要,在某些特定业务场合中,进行用户特征分析时可以直接按照业务方指定的指标和字段进行群体划分和特征分析。数据分析师对此要有足够的认识和了解,才可以在实践中灵活应对,有效支持业务分析需求。

3种划分方式的具体定义如下:

❑基于预先定义的划分。该种方法是如果对业务和客户已有深度的了解,那么可以基于特定的业务需求目的,直接按照特定的分析字段和分析指标进行特征分析和提炼。这种方法要求业务方和数据分析师对于数据和客户已经非常了解,并且特定的业务需求(商业目标)很明确,在这种情况下,不需要进行复杂的数据分析和数据挖掘算法的探索,可直接按图索骥。举例来说,业务方对客户非常熟悉了解,或者说计划中的运营方案是专门针对下单订购产品的,但是15天之后仍然没有付款的用户所进行的催单提醒为目的的运营活动,那么就可以使用此方法。

❑基于数据分析的划分。该类方法是主流的用户特征分析方法,因为对用户不了解,且业务需求千变万化,所以要针对不同的业务需求进行不同的数据分析挖掘,找出用户的典型特征。本章要讨论的主要是基于数据分析的用户特征分析。这里主要的分析技术和分析思路包括本章将要详述的RFM、聚类技术、决策树的规则整理、预测(响应)模型的核心变量、假设检验方法、Excel透视表的应用等。

❑复合划分。该类方法综合采用了上述两类方法。在具体分析课题中,这两类方法的优先级如何划分,孰重孰轻,则取决于对用户的熟悉了解程度和具体的业务需求目的(商业任务)了。总体来说,基于数据分析的划分方法常常是处于主要地位的,同时,会在此基础上参考业务经验进行更加有效、更加贴近需求的分析和结论建议。

11.2.2 RFM

在数据挖掘技术还没有投入到企业的商业应用中的20世纪里,传统行业利用非常简单的统计基础技术和不简单的商业逻辑思维,发现了不少朴实无华的、简约但不简单的用户特征分析方法,其中最有影响力和最具知名度的要数RFM分析方法了。

简单来说,RFM分析方法是指通过影响企业销售和利润的客户行为字段里的最重要的3个变量:R(Recency),客户消费新鲜度,指客户最近一次购买公司产品的时间;F(Frequency),客户消费频度,指客户特定时间段里购买公司产品的次数、频度;M(Monetary),客户消费金额,指客户在特定时间段里消费公司产品的总金额,来对客户进行划分,从中发现具有不同价值的不同客户群体典型特征。在该方法中,3个变量的排列顺序是很严格的,有轻重缓急和先后次序,其中,最重要的是客户消费新鲜度,其次是客户消费频度,最后才是客户消费金额。具体内容如下:

❑客户消费新鲜度(Recency),指客户最后一次购买的时间距离目前的天数(或月数),在预测客户是否会在下一次继续消费时,该字段最为重要,最有预测价值。这从商业逻辑上很容易理解:如果你最近消费了公司的产品,那么相比其他最近没有消费公司产品的用户来说,你更加有可能会继续光顾。

❑客户消费频度(Frequency),指客户迄今为止的特定时间段内购买公司产品的总次数,在预测客户是否会继续消费时,该字段的重要性和预测能力是仅次于客户消费新鲜度(Recency)的。该字段的重要性从商业逻辑上也是很容易理解的,购买的次数越多,越有可能会继续购买,这就是所谓的老客户吧。

❑客户消费金额(Monetary),指客户迄今为止的特定时间段内购买公司产品的总金额,在预测客户是否会继续消费时,该字段成为第3个重要的预测要素。该字段的重要性从商业逻辑上也是很容易理解的,购买的金额越大,越有可能继续购买,所谓的大客户通常也更容易成为老客户。

在具体应用中,RFM分析方法首先会将上述3个字段进行分箱处理,即离散化处理,使之成为类别型变量,具体如何选择分箱的区间值,取决于具体的业务背景。为了避免分类数目太大导致业务解释和业务应用上的麻烦,上述每个字段分类的数量一般不超过5~8个。接下来,则针对已经分箱后的3个字段的数值,分别进行组合。

举例来说,如果上述3个字段都分别进行了离散化处理,处理后的每个字段都包含好、中、差3个类别,那么按照排列组合的计算方式,上述3个字段里每个字段每次只取1个类别与其他两个字段进行组合,一共有27种组合方式,其中最有可能继续消费的用户群是在对应的3个字段里的类别都应是“好”的群体,即“新鲜度最高,消费频度最多,消费金额最大”的用户细分群体是最优质的用户,需要重点跟进和服务。

虽然RFM分析方法来自传统行业简单的统计基础技术,但是它作为一种非常成熟和成功的用户特征分析方法,完全可以应用到互联网行业的数据化运营场景中。

除了作为成熟的用户特征分析框架外,RFM分析方法还可以作为常规的业务分析的框架和模板。举例来说,通过对RFM里的每个维度进行单独分析和总结,我们就可以清楚地总结出产品和业务的一些核心现状结论。比如,90%的公司客户在至少5个月的时间里没有购买公司产品,85%的公司客户最近1年内购买公司产品的次数小于等于2次,80%的客户在最近1年内的消费金额低于50元。如果这些总结的数据是来自一家快速消费品行业,那么就说明这家企业的优质客户太少,忠诚客户太少,企业的经营前景不妙。

11.2.3 聚类技术的应用

聚类技术作为数据挖掘的常用基础技术,在用户特征分析中有着重要的应用价值。

关于聚类技术本身的详细介绍,在第9章已经做了详细介绍,这里就不再重复讲解了。针对聚类技术在用户特征分析中的具体应用,需要强调的是,如果参与聚类的变量数量较少,为了能够更好地支持用户特征分析的实践应用,非常有必要在聚类(分群)的基础上,增加更多的与业务目标和商业背景相关的非聚类变量来进行综合考虑。

举例来说,在一个针对某产品付费用户的细分项目中,要把付费用户细分成特征区别明显的几个群体,如果采用聚类分析技术进行分析,参加聚类的字段只限于累计购买金额、产品重复购买次数、加入会员俱乐部的年限等3个核心指标。经过聚类分析后,可以将付费用户细分成6个相互之间区别比较明显的细分群体。然后,在上述细分基础上,针对每个细分群体,还可以进一步分别考察其他的字段和指标,找出其他的特征字段。比如A群体,除了聚类分析找到的特征“累计购买金额大于2000元,基本上没有重复购买,加入会员俱乐部年限为1年以内,”通过对其他字段的考察,发现该群体还具有都购买过P4P产品、年龄在30岁以下、主营行业都是服装服饰等特征。很显然,增加了新的特征之后,该群体的典型特征就更加丰满、更加深入了,由此会为业务方的分析、运营、管理提供更多的方向、更深的了解、更全面的信息。

11.2.4 决策树技术的应用

关于决策树的原理和在预测模型中的注意事项,在本书第10.2节中已进行了详细的介绍。

决策树技术最大的应用优势在于其结论非常直观易懂,生成的一系列“如果……那么……”的逻辑判断,很容易让人理解和应用。这个特点是决策树赢得广泛应用的最主要原因,真正体现了简单、直观、通俗、易懂。

借助决策树技术的上述应用优势,那些典型的“如果……那么……”的业务规则(规律)是很容易转化为用户特征分析的典型结论和典型特征的。

11.2.5 预测(响应)模型中的核心自变量

借鉴预测(响应)模型的思路和做法,通过搭建预测模型可找出对预测目标变量最有价值的输入变量及其权重,然后针对这些筛选后的少数变量进行用户分群划分,就形成了一个比较有效的思路和方法,可以提高用户特征分析工作的效率和产出。具体关于预测(响应)模型的搭建技术和思路可以参考本书第10章。

在此要强调的是,如果想要使用预测模型的思路和做法,那么要注意模型本身的目标变量应该是与用户特征分析中的业务需求(商业目的)保持一致的。比如,用户特征分析中的商业目的是找出续费客户的典型特征,那么在借鉴预测模型的思路和做法时,模型的目标变量就应该与用户特征分析中的商业目的保持一致,也即模型的目标变量应该也是是否续费。

反过来说,如果用户特征分析的商业目的很难用预测模型的目标变量来定义,那么就无法借鉴预测模型的思路和做法了。比如,用户特征分析中的商业目的是针对某产品的试用用户群体进行群体细分,找出明显特征区别的细分群体,因为试用用户是随机产生的,不是从一个特定群体里通过某种运营或机制产生的,所以在这个业务场景中,是无法找到合适的目标变量来尝试预测模型的思路和做法的。在类似的业务场景中,进行用户特征分析时就只能想其他的方法了。

11.2.6 假设检验的应用

假设检验作为现代统计学的基础知识,在数据分析挖掘中占有非常重要的基础地位,本书在第12章将对假设检验进行比较深入的讲解,所以本章就不再深入介绍其原理和具体技术了。

通过假设检验来筛选有显著性差异的核心变量,是用户特征分析应用中选择特征字段的一个有效方法。但是,这种方法需要数据分析师对于业务和数据非常了解,能从众多的数据字段中比较有效地发现、提炼出为数不多的那些最可能是有显著性区别的核心字段,这些核心字段能够显著区别不同群体的典型特征,然后对这些潜在的重点字段通过假设检验去一一验证,看是否真的是可以显著区分不同群体。