5.5 机器万能论

“机器万能论”的主要特点就是在建模过程中,认为机器(分析软件)是可以最大程度(甚至几乎可以完全)代替分析师手工劳动,于是,即使在很多关键的需要人工介入的步骤和节点,数据分析师仍然简单、轻率地交给机器去处理,盲目、过分地依赖机器的“智能”。其主要的表现形式就是,数据分析师拿了一堆分析数据,不加任何处理(或者只做了简单的处理)就交给机器(分析软件)去自动完成模型搭建,然后直接拿这个去交差,提交业务应用。

“机器万能论”背后的原因主要在于数据分析师自身对于数据挖掘技术、数据分析技术的理解和掌握不熟悉、不透彻,对于挖掘技术和分析技术的把握还是很粗糙,或者是浅尝辄止,分析技术层面的基本功不扎实。在数据挖掘项目中,80%的时间是花在数据的熟悉、清洗、整理、转换等数据处理阶段的,在这个阶段虽然机器(分析软件)可以大量取代分析师手工进行规范化的、重复性的工作,但是仍然有相当多关键性的工作是需要分析师手工进行的,比如机器最多可以告诉你数据的分布统计特征、变量之间的相关性,但是背后隐藏的是什么样的业务逻辑,如何取舍这些变量等核心的问题是需要分析师去判断去决定的(机器在这时是无能为力的);又比如,现在很多分析(挖掘)软件都有默认(Default)的参数设置,但是实际上这些默认的设置并不能有效符合任何一个特定的、具体的数据分析课题场景。因此在具体的数据建模过程中,各种算法的参数如何设置,选择哪种算法最合适等这些重要的问题,都是需要数据分析师凭借自己的专业水平和项目经验去作出判断和决定。另外,即使是经验丰富的优秀数据分析师,在层出不穷的新的业务需求和新的业务场景面前,也常常出现已有的经验、原理等无法有效解决新问题、新挑战的情况。在这种情形下,就更需要数据分析师从大量的分析数据里不断探索、尝试了,其中的过程有可能是耗时、曲折、充满艰辛的。

上述种种场景都说明了,数据分析和数据挖掘建模过程中,纵然有先进的分析(挖掘)工具,但是数据分析师人工的投入和判断仍然是必不可少的,我们经常需要手工进行探索。“机器万能论”不可取,不可信,更不可行。

任何事情要做好,都必须具有持续的热情和兴趣。没有热情和兴趣的驱使,就没有持久的深入钻研的动力,也就无法在一个领域、一个专业里得到快乐和干出成绩。数据分析师如果没有对于数据分析、数据挖掘的兴趣和热情,也就不可能深入钻研相关技术,很可能会简单轻松奉行“机器万能论”。把一切都交给机器(分析软件)去撞大运。虽然放手让机器去“万能”很轻松,但是其结果基本上都是不靠谱的、都是不能足够有效满足业务应用需求的。“有得必有失”、“付出才有回报”这些人间的正道,同样也是数据挖掘里的“正道”。

“机器万能论”的根源是对于分析、挖掘技术缺乏必要的理解和掌握,“因为不知如何下手,所以交给机器去代理”。无论有没有相应的管理措施,管理措施带来的效果都不如分析师找到自己对于数据分析、挖掘的热爱和兴趣的效果来得有效和彻底。管理的手段大多是被动的,只有主动的兴趣和热情才是更直接、更有效、更彻底摈弃“机器万能论”的良方,这也是为什么企业在招聘数据分析师的时候,要重点考察应聘者对于数据分析专业的兴趣和热情。

其实,岂止是数据分析领域需要从业者的专业兴趣和热情,人生一路的风景,哪一幕的精彩不是因为兴趣和热情所激发和创造出来的呢?