7.1 数据挖掘模型的优化要遵循有效、适度的原则

任何一个数据挖掘模型都是针对一个特定业务需求的,围绕着一个具体的业务需求,数据挖掘模型总是可以有办法不断完善、不断提升,即提升精确度、提升转化率等。这里自然就出现了一个限度的问题,到底模型优化到什么程度才算可以呢?或者说模型到了什么程度算可以接受?什么程度不能接受,要继续优化呢?这是数据挖掘商业实践中经常碰到的问题,对此,有一个有效、适度的总原则必须坚持。

既然任何一个数据挖掘模型都是针对一个特定业务需求的,那么评价模型是否合格的一个原则性标准就是模型的结论或应用效果是否满足当初的业务需求,即有效的原则。虽然这个原则的表述听上去比较虚,但是具体到业务实践和具体的分析需求中,一般都是有一系列具体、明确、可量化的指标和尺度的。比如,一个某付费产品的续费客户预测模型的建模需求,必然要求所构建的预测模型能有效锁定最可能续费的用户群体,从而可以提升续费转化率,是相对于不做客户细分时的总体续费转化率来说的,即原始转化率,或者称为随机转化率,最起码在对最终模型进行验证后,确实可以得出模型挑选出的优质群体的续费转化率显著高于随机转化率这样的结论,这时才可以称为有效。

一旦模型满足了有效的标准,是否还要继续优化呢?此时要考虑第二个原则,即适度的原则。所谓适度,是说此时模型还是可以继续投入资源、投入精力去持续优化的,即继续不断提升模型的精度、转化率等,但是必须要考虑投入产出之间的性价比是否合适,是否适度。如果花了很大的力气,投入了很多的资源,但是模型的提升不明显,即模型优化的投入与产出相比得不偿失,那么就违反了适度的原则;如果花了较少的力气,增加了不多的资源,但是模型的提升很明显,很显著(相比当初已经有效的模型而言),那么可以认为这种持续性的优化是适度的,是具有较好的性价比的。

在第6章分享的案例中,包含了模型优化的详细思路、过程、效果对比,以及落地应用的跟踪。从这个详细的案例可以发现,换个思路、新添分析变量、不断尝试不同的算法、对算法的参数进行调整、将数据的处理方式进行变化等,常常是可以有效提升模型效果的。

有效和适度作为模型优化的总原则听上去很简单,但是在实际操作中则需要数据分析师具备一定的项目经验,且要对业务有足够的理解和把握,否则是不容易实现有效和适度目的的。数据挖掘建模的王道是有丰富的项目经验积累,个中没有捷径可走,唯有踏踏实实多实践、多做项目、多动手、多思考,仅此而已。