10.6 一个典型的预测响应模型的案例分享

10.6.1 案例背景

某垂直细分的B2B网站平台,其商业模式是通过买卖双方在平台上产生交易而对卖家抽取交易提成费。对于该网站平台来说,促成买卖双方的线上成交是该平台的价值所在,网站平台的发展和盈利最终取决于是否能有效且规模化地促成买卖双方的线上成交并持续成交。

要有效且规模化地促成买卖双方在线成交,该网站平台有许多事情要做,包括吸引优质卖家、吸引广大有采购意愿的优质买家、帮助卖家在平台上更好地展示商品、帮助买家更快更有效地匹配所需要的卖家、优化网站交易流程以方便交易更有效、提供风险控制措施,保障双方交易的安全等。这里提到的每一个目的其实都是包含着一揽子的分析课题和项目开发的,需要数据分析团队在内的所有相关部门协同合作来实现。

本案例所要分享的就是其中一个细分的项目:初次成交的预测模型和运营应用。对于该平台上的卖家来说,从最开始的注册、发布商品信息,到后期的持续在线获得订单和在线成交,其中有一个结点对于卖家来说是至关重要,具有突破性的,那就是第一次在线成交,也叫初次成交转化,这个初次成交对于卖家的成功体验和激励的价值是不言而喻的;另外,从网站平台的运营方来说,卖家的初次成交也是网站运营工作的一个重要考察环节和考察指标,只有初次成交的卖家数量越多,周期越短,才可以有效保障后期持续性、规模化在线成交的可能性。本着上述背景和考虑思路,网站平台运营方希望通过数据分析找出短期内最有可能实现初次成交的卖家群体,分析其典型特征,运营方可以据此对卖家群体进行分层的精细化运营。最终的目的是一方面希望可以通过数据化运营有效提升单位时间段内初次成交的卖家数量,另一方面为今后的卖家培养找出一些运营可以着力的“抓手”,以帮助卖家有效成长。

10.6.2 基本的数据摸底

为了慎重起见,数据分析团队与运营方协商,先针对网站平台的某一个细分产品类目的卖家进行初次成交的专题分析。视分析和建模的应用效果,再决定后期是否推广到全站的卖家。

因此,本次专题分析只针对代号为120023的细分产品类目卖家,根据网站平台的运营规律和节奏,初步的分析思路是通过对第N-1月份的卖家行为数据和属性数据的分析,寻找它们与卖家第N个月有实际的在线初次成交之间的关系。

在进行数据摸底后发现,截止当时项目进行时,代号为120023的细分产品类目卖家共有170 000家,交易次数为0,即是还没有发生初次成交的卖家,经过连续几个月的数据观察,发现每个月实现初次成交的卖家基本上稳定在2000家左右。如果基于总共170 000家来计算每个月初次成交的转换率,大约在1.12%。

根据数据分析师的项目经验以及运营方的业务判断,总数170 000的大池子里应该是可以通过数据分析找出一些简单的阀值过滤掉一批最不可能近期实现初次成交的卖家群体的。通过业务经验和连续几个月对重点字段的数据摸底,得到了如下结果:

❑月度登录“即时通信工具”达10天次以上的潜在卖家,平均每月大概为50 000人,其中在次月实现初次成交的用户有1900人左右(对比原始数据每月大概170 000的潜在卖家,次月实现(初次成交)的用户有2000人左右;浓缩过滤后只保留50 000人(过滤了大约71%的近期可能性很小的大部分卖家),但是次月实现初次成交的用户只过滤掉5%;换句话说,通过设置阀值月度登录即时通信工具达到10天次以上,初次成交的转换率就从原始的1.12%提升到3.5%左右。并且这个阀值的设立只是丢失了5%的初次成交卖家。找到这个阀值的意义在于,基于3.5%的转换率搭建的模型相比在原始转换率1.12%基础上搭建的模型来说要更加准确,更容易发现自变量与因变量之间的关系。

❑来自两个特定省份A省和B省的卖家,其初次成交的转换率约为3.3%,所覆盖的初次成交卖家数为70%左右,即是丢失了将近30%的初次成交卖家。

❑可交易Offer占比大于等于0.5的卖家,其初次成交的转换率约为3.7%,所覆盖的初次成交卖家数为85%左右。

基于上述的一些数据摸底和重要发现,数据分析师与业务方沟通后,决定设置阀值为月度登录即时通信工具达到10天次以上,在此基础上尝试数据分析挖掘建模和后期应用。

在数据摸底环节中,还有一个重要的基础性工作,那就是与业务方一起列出潜在的分析字段和分析指标,如图10-3所示[1]。这个工作是后期分析挖掘的基础,可圈定大致的分析指标和分析字段的范围,并据此进行数据的抽取工作。之所以强调要与业务方一起列出潜在的分析字段和分析指标,是因为在项目的前期阶段,业务方的业务经验和灵感非常重要,可以协助数据分析师考虑得更加全面和周详。

00116.jpeg

图 10-3 初步分析字段一览

在上述原始字段的基础上,数据分析师通过走访业务方,以及经过资深业务专家的检验,增添了一些重要的衍生变量如下:

❑类目专注度。公式是卖家该类目下总的有效商品Offer数量除以该卖家在网站中总的有效商品Offer。因为有足够的理由相信,类目专注度越高,越容易产生成交。

❑优质商品Offer占比。公式是卖家的优质Offer数量除以该卖家总的有效商品的Offer数量。因为有足够的理由相信,优质的商品Offer越多,越容易产生成交。

❑可在线交易Offer的占比。公式是卖家的可在线交易Offer数量除以该卖家总的有效商品的Offer数量。

[1]限于业务方的商业隐私,这些字段和指标的中文含义就不详述了。

10.6.3 建模数据的抽取和清洗

在完成了前期摸底和变量罗列之后,接下来的工作就是抽取建模数据和熟悉、清洗数据环节了。这个环节的工作量是最大的,它和随后的数据转换环节,所需要消耗的时间占整个数据分析建模项目时间的70%,甚至更多。

抽取、熟悉、清洗数据的目的主要包括:熟悉数据的分布特征和数据的基本统计指标、发现数据中的缺失值(及规模)、发现数据中的异常值(及规模)、发现数据中明显与业务逻辑相矛盾的错误。这样最终就可以得到比较干净的数据,从而提高随后分析的准确性和后期模型搭建的效果了。

在本项目的数据清洗过程中,发现了以下的数据错误:

❑Company_Reg_Capital这个字段有少数的样本夹杂了中文,与绝大多数观察值中的数字格式不一致,容易引起机器的误判,需要直接把这些少数样本删除。

❑Credit_Status这个字段有将近40%是空缺的,经过业务讨论,决定直接删除该字段。

❑Bu_Name这个字段是中文输入,属于类别型变量,为了后期数据分析需要,将其转化为数字格式的类别型变量。

❑Credit_Balance_Amt有将近20%的观察值是N,而其余观察值是区间型数字变量,经过走访数据仓库相关人员,确认这些为N的观察值实际上应该是0。为了后期数据分析需要,将该字段所有为N的观察值替换成0。

同时,对原始变量进行基本的统计观察,图10-4是各字段的基本统计指标一览表。

00117.jpeg

图 10-4 各字段的基本统计指标一览表

10.6.4 初步的相关性检验和共线性排查

在该阶段进行初步的相关性检验,主要有3个目的:一是进行潜在自变量之间的相关性检验后,高度相关的自变量就可以择一进入模型,而不需要都放进去。二是通过相关性检验,排除共线性高的相关字段,为后期的模型搭建做好前期的基础清查工作。三是,如果潜在自变量与目标变量之间的高度线性相关,则可以作为筛选自变量的方法之一进行初步筛选。

图10-5是相关性检验的部分截屏,从中可以发现,tradable_grade45_offer_bu与valid_sale_offer_cnt线性相关系数为0.668 53,且P值小于0.000 1,这说明这两变量之间有比较强的线性相关性,在后续的建模中至多只能二选一,也就是说只能挑选出来一个作为潜在的自变量,然后根据其他筛选自变量的方法综合考虑是否最终进入模型中。

00118.jpeg

图 10-5 相关性检验的截屏图

10.6.5 潜在自变量的分布转换

本环节主要是针对前面的基础统计结论,包括偏度Skewness和峰度Kurtosis进行分箱转换、以正态分布为目的的转换,以及其他形式的转换。

比如,在前面的基础统计结论里,我们发现:

Valid_Sale_Offer_Cnt偏度(Skewness)为17.008,峰度Kurtosis为438.62,这样的分布非常不均衡,不利于后期模型的拟合,因此需要对这些分布不均匀的变量进行转换,(如图10-6和图10-7)。

00119.jpeg

图 10-6 变量Valid_Sale_Offer_Cnt的原始分布图

00120.jpeg

图 10-7 变量Valid_Sale_Offer_Cnt取对数后的分布图

10.6.6 自变量的筛选

自变量的筛选有很多方法,比如本书第8.6节就具体分享了各种不同筛选输入变量的方法。在数据挖掘商业实战中,通常的做法是分别采用多种方法,这样可以防止单一筛选方法有可能遗漏一些重要的变量。

在本项目里,数据分析师采用了多种筛选方法逐一尝试、对比,最终得到了以下一些重要变量,并将其作为自变量收入模型当中,如表10-1所示。

00121.jpeg

10.6.7 响应模型的搭建与优化

在本项目的模型搭建过程中,数据分析师分别尝试了3种不同的模型工具,即决策树、逻辑回归及神经网络,在每一种工具里又分别尝试了不同的算法或参数调整,经过反复的比较和权衡,得到了比较满意的模型结论。具体内容参考10.6.8节的结论分析。

关于模型优化的详细方法论,可参考本书第7章。

10.6.8 冠军模型的确定和主要的分析结论

经过比较和权衡,最终的冠军模型,即投入落地应用的模型是逻辑回归模型,相应的模型响应率曲线图,如图10-8所示,模型捕获率曲线图,如图10-9所示,模型lift曲线图,如图10-10所示。关于如何解读模型捕获率曲线、响应率曲线和Lift曲线,可参考本书7.4.4节的详细介绍。

00122.jpeg

图 10-8 模型响应率曲线图

00123.jpeg

图 10-9 模型捕获率曲线图

00124.jpeg

图 10-10 模型Lift曲线图

之所以最终选择逻辑回归模型作为冠军模型,主要是基于两方面的理由:一方面是逻辑回归模型的效果,即提升率、捕获率及转化率与最高的神经网络模型相差无几,另一方面是逻辑回归的可解释性远远高于神经网络模型,这一点对于落地应用中的业务方来说尤为重要。

模型的最终确定,还需要经过最新的真实数据验证,数据分析师用选好的冠军模型来对最新月度的真实数据进行模拟打分验证,结果表明冠军模型非常稳定,表现非常出色,具体验证结果如图10-11所示。

00125.jpeg

图 10-11 模型应用到新数据后的捕获率曲线效果图

10.6.9 基于模型和分析结论基础上的运营方案

基于模型的效果和主要自变量的业务含义,本项目落地应用方案包括两部分,即卖家基于概率分数的分层,以及在分层基础上的相应运营措施和重点,具体内容讲解如下。

根据模型打分后的次月初次成交概率的分数高低,对潜在成交卖家进行分层精细化运营。比如,模型打分最高的10%的卖家,是最有可能在次月实现初次成交突破的,运营方对该类群体的运营方针应该是临门一脚式的一击即中,也就是与流量资源团队合作,给这批优质客户群体提供更大的流量,有效提升初次成交转化率。

对于模型打分的概率分数为10%~30%之间的群体,这类群体没有前10%的卖家在次月实现初次成交的可能性那么高,但也是仅次于前10%卖家的,根据模型中有价值的输入变量的业务含义,运营方应该作出相应的运营策略,即对于基础操作不够的,要通过运营提升相关的基础操作完成率;对于活跃度不够的,要通过相关的运营帮助卖家提升其活跃度等。

对于模型打分概率在30%之后的群体,尤其是40%之后的群体,由于其在近期实现初次成交的可能性很低,考虑到运营方的运营资源有限,无法面面俱到,所以针对这一群体,不能急功近利,需要有长期培育的心理准备。运营方可以通过线上广而告之的讲座、社区活动等,让这类卖家逐步完善自己的基础建设和深化其参与度,最终完成从量变到质变的转化。

10.6.10 模型落地应用效果跟踪反馈

初期模型,针对代号为120023的细分产品类目的卖家运营的测试效果不错,在此基础上又对模型进行了调整,因涉及企业商业隐私,具体技术手段在此略去,然后延伸到全站全行业应用,经过数据分析团队、业务运营团队等相关部门的通力合作,模型落地应用效果反馈不错。

针对Top30%的优质卖家进行重点运营后,在随后两周对运营效果进行验证,发现各个行业运营后的效果提升(初次成交突破的卖家数量)显著,效果对比如图10-12所示。相比未做专门运营的自然增长效果,本次重点运营的活动效果总体平均提升了99%。

00126.jpeg

图 10-12 基于模型的精细化运营后的效果对比图