6.7 按优化方案重新抽取样本并建模,提炼结论并验证模型

在上述优化方案和新增衍生变量的基础上,重新抽取样本,一方面验证之前的重要猜想;另一方面尝试搭建新的模型提升预测效果。

在随后的数据验证中,虽然之前的猜想不成立,但是通过增加新的衍生变量,重新搭建的预测模型的效果明显要比之前的模型效果好,如图6-4所示。

00048.jpeg

图 6-4 增添衍生变量后新的模型效果提升明显

从图6-4可以看出,增加了新的衍生变量之后,模型的整体预测效果和效率相比于前期的模型有了明显的提升和改善,具体数据如下。

通过神经网络模型得到的分数最高的前10%的用户中,流失率高达47%左右,而样本的整体流失率在10.1%左右;得分最高的前20%的用户中,流失率高达34%;得分最高的前30%的用户中,流失率高达27%。

通过决策树模型得到的分数最高的前10%的用户中,流失率高达45%左右;得分最高的前20%的用户中,流失率高达33%;得分最高的前30%用户中,流失率高达26%。

相应的,逻辑回归模型的效果也比之前,没有考虑这些衍生变量时有明显提升,对此读者可以自己对比、评价。

在对上述的模型效果进行比较后,初步可以认为,目前的神经网络模型相比于其他模型而言,有更好的预测效果,可以更多地有效锁定有流失风险的用户。

模型建好了,还不能马上提交给业务方进行落地应用,还必须用最新的实际数据来验证模型的稳定性。如果通过相关验证得知模型的稳定性非常好,那无论对模型的效果,还是对项目应用的前景,就都有比较充足的底气了。