17.1 为什么会条条大道通罗马

之所以会出现条条大道通罗马的现象,主要是因为事物是普遍联系的,具体包括以下内容:

❑不同的思路之间是普遍联系的。以用户行为特征专题分析为例,既然分析目标是找出用户的行为特征,那么不论是什么思路,其最终目的一定是围绕分析目标的。你可以从用户历史行为数据之间的分布中看出明显的区别,也可以从用户调研中发现典型特征,还可以把用户细分成不同的群体(从商业应用的角度来细分),然后看不同群体间的特征、区别等。不同的人有不同的思路,优秀的数据分析师常常有多个思路。同样的目标,可以横看成岭侧成峰,所有这些思路上的普遍联系使得数据分析中的条条大道通罗马不仅是可能的,更是必然的。

❑不同的算法之间是普遍联系的。还是以用户行为特征专题分析为例,不管你用什么算法(聚类算法,或者是决策树算法、假设检验算法、逻辑回归算法),不同的算法虽然看起来技术不同,但是在应用到这个具体的用户行为特征专题时,都是在努力区分哪些是与其他字段(行为)有最明显区别的核心字段。在聚类算法中,这些核心字段是用来有效区分用户与非用户的;而在决策树算法中,这些核心字段是为了让满足这些字段要求的群体尽量纯,尽量排除非用户,或者大幅减低非用户在这些群体中的比例;在假设检验算法中,这些核心字段就是用于找出用户与非用户最有显著意义的特征区别的;在逻辑回归的算法中,则是尽量发现哪些字段可以最有效地区分用户与非用户。所以,算法的不同只是实现结果的方式不同,但是其目的都是一样的,这就是所谓的殊途同归、条条大道通罗马。

❑数据本身是普遍联系的。无论是海量的互联网数据,还是积累不多的传统行业数据,甚至是每个人自身的生理指标数据,都不是孤立的,而是普遍联系的。你的身高、体重,仅是两个最简单的指标,就可以在很大程度上通过你是否超重来判断你患高血压的可能性,而舒张压和收缩压的指标也可以判断出你患高血压的可能性,你不觉得身高、体重与舒张压、收缩压之间有密切的联系吗?正因为数据本身是普遍联系的,才使得我们在分析数据的时候,虽然考虑的思路不一样、抽取的数据不太一致,但是最后完全有可能得到相同的答案。