6.5 按计划初步搭建挖掘模型

对数据进行初步的摸底和清洗之后,就进入初步搭建挖掘模型阶段了。在该阶段,包括以下3个主要的工作内容:

❑进一步筛选模型的输入变量。最终进入模型的输入变量应遵循“少而精”的总原则,该总原则一方面是为了提高模型的稳定性,另一方面也是为了有效提升模型的预测精度。关于如何筛选模型的输入变量,在8.6节、9.3.3节、第10章中会有比较详细、深入的分析和讨论,有兴趣的读者可以参考上述章节详细了解。

❑尝试不同的挖掘算法和分析方法,并比较不同方案的效果、效率和稳定性。关于模型的比较和优化,7.4节有比较详细的整理和总结,有兴趣的读者可以参考阅读。

❑整理经过模型挑选出来的与目标变量的预测最相关的一系列核心输入变量,将其作为与业务方讨论落地应用时的参考和建议。

具体针对本项目实践来说,本阶段在通过不同算法的尝试和对结果的比较中,发现神经网络搭建的模型相对来说准确度更高、效率更高,如图6-1所示。

00045.jpeg

图 6-1 不同算法的模型效果(响应率)比较

从图6-1可以看出:通过神经网络模型得到的分数最高的前10%的用户中,流失率高达44%左右,而样本的整体流失率在10.1%左右;得分最高的前20%的用户中,流失率高达29%;得分最高的前30%的用户中,流失率高达24%。

通过逻辑回归模型得到的分数最高的前10%的用户中,流失率高达41%左右;得分最高的前20%的用户中,流失率高达27%;得分最高的前30%用户中,流失率高达23%。

通过对上述的模型效果的比较,大致可以认为,目前的神经网络模型相对于其他模型而言,有更高的预测效果,可以更多地有效锁定有流失风险的用户。