3.2 目标客户的预测(响应、分类)模型

这里的预测(响应、分类)模型包括流失预警模型、付费预测模型、续费预测模型、运营活动响应模型等。

预测(响应、分类)模型是数据挖掘中最常用的一种模型类型,几乎成了数据挖掘技术应用的一个主要代名词。很多书籍介绍到数据挖掘的技术和应用,首先都会列举预测(响应、分类)模型,主要的原因可能是响应模型的核心就是响应概率,而响应概率其实就是我们在第1章中介绍的数据化运营六要素里的核心要素——概率(Probability),数据化运营6要素的核心是以数据分析挖掘支撑的目标响应概率(Probability),在此基础上围绕产品功能优化、目标用户细分、活动(文案)创意、渠道优化、成本的调整等重要环节、要素,共同达成数据化运营的持续完善、成功。

预测(响应、分类)模型基于真实业务场景产生的数据而进行的预测(响应、分类)模型搭建,其中涉及的主要数据挖掘技术包括逻辑回归、决策树、神经网络、支持向量机等。有没有一个算法总是优先于其他算法呢?答案是否定的,没有哪个算法在任何场景下都总能最优胜任响应模型的搭建,所以在通常的建模过程中,数据分析师都会尝试多种不同的算法,然后根据随后的验证效果以及具体业务项目的资源和价值进行权衡,并做出最终的选择。

根据建模数据中实际响应比例的大小进行分类,响应模型还可以细分为普通响应模型和稀有事件响应模型,一般来讲,如果响应比例低于1%,则应当作为稀有事件响应模型来进行处理,其中的核心就是抽样,通过抽样技术人为放大分析数据样本里响应事件的比例,增加响应事件的浓度,从而在建模过程中更好地捕捉、拟合其中自变量与因变量的关系。

预测(响应、分类)模型除了可以有效预测个体响应的概率之外,模型本身显示出的重要输入变量与目标变量的关系也有重要的业务价值,比如说可以转化成伴随(甚至导致)发生响应(生成事件)的关联因素、重要因素的提炼。而很多时候,这种重要因素的提炼,是可以作为数据化运营中的新规则、新启发,甚至是运营的“新抓手”的。诚然,从严格的统计学角度来看,预测响应模型中的输入变量与目标变量之间的重要关系并不一定是因果关系,严格意义上的因果关系还需要后期进行深入的分析和实验;即便如此,这种输入变量与目标变量之间的重要关系也常常会对数据化运营具有重要的参考和启发价值。

比如说,我们通过对在线交易的卖家进行深入分析挖掘,建立了预测响应模型,从而根据一系列特定行为和属性的组合,来判断在特定时间段内发生在线交易的可能性。这个响应模型除了生成每个Member_Id在特定时间段发生在线交易的可能性之外,从模型中提炼出来的一些重要输入变量与目标变量(是否发生在线交易),以及它们之间的关系(包括正向或负向关系,重要性的强弱等)对数据化运营也有着很重要的参考和启发。在本案例中,我们发现输入变量近30天店铺曝光量、店铺装修打分超过25分等与是否在线交易有着最大的正相关。根据这些发现和规则整理,尽管不能肯定这些输入变量与是否在线交易有因果关系,但这些正向的强烈的关联性也足以为提升在线交易的数据化运营提供重要的启发和抓手。我们有一定的理由相信,如果卖家提升店铺的曝光量,如果卖家把自己的店铺装修得更好,促进卖家在线成交的可能性会加大。