6.6 与业务方讨论模型的初步结论,提出新的思路和模型优化方案

在本阶段,需要整理模型的初步报告、结论,以及对主要预测字段进行提炼,还要通过与业务方沟通和分享,在此基础上讨论出模型的可能优化方向,并对落地应用的方案进行讨论,同时罗列出注意事项。

具体针对本项目而言,除了上面提到的模型比较之外,还对核心自变量进行了整理提炼,并进行了权重排序,如图6-2所示。

00046.jpeg

图 6-2 核心自变量的提炼

针对目前模型的表现和后期的落地应用场景,数据分析师就下列事项与运营方交换了意见,其中沟通和讨论的主要内容如下:

❑对建模时给出的流失用户的定义要进行后续新数据的跟踪,看该定义是否合理,是否表现稳定,是否符合业务运营的需求。

❑在后期的落地应用中,针对模型所判断出来的流失风险最大的用户群,可以考虑进行更加深入的分析,以找出运营的抓手和进一步的细分特征,其中所涉及的技术包括聚类技术、特征阀值的设定等。

❑模型落地应用后的效果跟踪也非常关键,主要包括:对于模型的稳定性要结合新的数据来验证,要考虑如何评价运营的挽留效果,如何设置运营组和对照组,如何进行客观公正公平的评价(包括模型效果的评价和运营效果的评价等)。

❑模型的优化要遵循资源合理应用的总原则。关于模型的优化和限度,第7章有详细的分享和讨论,在此不再过多地扩展讲解。

❑细分建模也是提升模型效果的一种有效手段。具体针对本项目而言,即开通了WinPort的会员,其流失率7%;未开通Win Port的会员,其流失率高达15%。那么,针对这两类群体分别建模,有可能会提升模型的预测效果和效率。

❑在项目实践过程中,业务团队的直觉和建议有时候会有“一字千金”的价值,所以要鼓励业务方积极参与模型的讨论和建议。

❑预测模型的搭建和完善也跟网站分析一样,遵循着“持续优化,永无止境”的规律。

在上述讨论、交流的基础上,业务团队也提出了很多有价值的建议和意见,在此不一一列举了。但是当数据分析师对截止到当前的进度和成果进行反思时,突然发现了一个以前没有想到、但有可能会非常严重的漏洞。截止到目前为止,无论是数据分析师,还是业务团队都没有考虑到是否有可能从当初高活跃度客户的定义里直接推测出是否有流失的可能性。当初高活跃度的定义主要是依据用户在某入口页面的30天PV量是否超过相应的行业平均值来给出的,那么我们有理由推测,虽然用户在该入口页面的30天PV量大于相应行业的平均值,但是超过的幅度不大,只是超过行业平均值的10%,这样的用户是否更加容易流失呢?这种猜测看上去有道理,但是当初都没有想到。如果这个猜测被验证是正确的,并且效果比上述的预测模型还好,那么这个预测模型就没有意义了。

在将这个重要的想法及时跟业务方进行沟通后,得到了业务方的理解和支持,那么接下来就要验证该猜想了。首先要增加衍生变量,围绕上述猜想增添了下列衍生变量,主要是衡量用户跟行业平均值的差值和比例,具体衍生变量如图6-3所示。

00047.jpeg

图 6-3 模型优化时新增的衍生变量一览表