8.1 数据的抽取要正确反映业务需求

一个数据挖掘(分析)需求一旦被分析师接受和认可,数据分析师接下来要做的事情就是抽取分析用的数据,并熟悉数据。在数据挖掘实践中,因为抽取的数据不能正确反映业务需求而导致挖掘项目失败的例子并不少见,原因很简单,从错误的数据里,肯定是不能找到正确的分析挖掘结论的。举例来说,某业务分析需求是找出因为使用店铺装修工具而带来显著销售收入提升的用户群体特征,如果不对此需求详加思考,仅仅凭借字面意思,就去抽取使用了该装修工具并且有明显销售收入提升的人群,然后对该人群加以特征分析,其结果就很有可能是“垃圾进,垃圾出(Garbage In,Garbage Out)”,错误的结论将严重误导业务方接下来的业务应用。本案例里为什么上面的抽取数据思路有误呢?是其没有正确反映业务需求吗?难道不是严格按照需求描述来抽取数据的吗?

之所以说上述的抽取思路是错误的,是因为对于本案例所在的平台来说,用户可以有很多不同的付费工具、付费服务去提升他们的销售收入,比如用户在平台上的竞价排名就可以很有效地提升其销售额。很有可能在购买和使用了店铺装修工具的用户中,有相当数量和相当比例的人也同时使用了竞价排名等多种方式去提升销售额,换句话说,如果仅仅抽取使用了店铺装修工具并且带来显著销售收入提升的用户,而没有排除同时也使用了其他诸如竞价排名等方式的用户,那得到的特征人群的描述肯定是不符合当初的业务需求定义的。

在本案例中,要如何避免出现上述的错误呢?如何保证数据的抽取能尽可能反映和满足业务的需求呢?一个常用的方法就是使用控制变量,确保抽取的用户群里,不包含使用了竞价排名等主要的提升流量和销售收入手段的用户,尽可能使得这个用户群的确是因为仅仅使用了店铺装修工具而带来的销售收入提升。

在数据挖掘分析的实践中,如何尽量确保数据的抽取能正确反映业务需求呢?以下一些方法、原则及技巧可供参考和借鉴。

❑真正熟悉业务背景,这是确保数据抽取能正确反映业务需求的王道。如果分析师对于业务背景非常熟悉,那么在上述的案例中,面对相应的分析需求,他在脑海里的第一反应就应该是排除掉诸如竞价排名之类的影响,真正过滤出仅仅使用了店铺装修工具并且提升了销售收入的特定用户群体。熟悉业务背景,这句话看似老生常谈,却是历久弥坚。在很多时候最朴素的总是最珍贵的,最平凡的总是最核心的,生活的哲理也是数据挖掘的哲理,即所谓的万法归宗。

❑确保抽取的数据所对应的当时业务背景,与现在的业务需求即将应用的业务背景没有明显的重大改变。数据挖掘分析所针对的分析数据是有时效性的,如果应用场景的基础条件发生了根本变化,根据历史数据做出的挖掘结论对于变化了的业务环境来说是没有意义的。举例来说,如果最初的产品销售是基于猛烈的折扣和赠品活动来推动的,后期的销售并没有类似的折扣和赠品,那么基于前面折扣和赠品所带来的销售数据所做的付费用户特征分析,或者付费用户预测模型,是不能用到后期(没有折扣和赠品)对付费用户的预测上的。类似的业务环境改变的场景在瞬息万变的企业经营中是司空见惯的,数据分析师在分析挖掘实践中,一定要有意识地提醒自己,建模数据所对应的当时的业务环境,与现在业务需求所对应的业务环境是否已发生了根本性的变化,这样才能确保数据的抽取可正确反映业务需求。