第8章 常见的数据处理技巧

工欲善其事,必先利其器。

——《论语·卫灵公》

8.1 数据的抽取要正确反映业务需求

8.2 数据抽样

8.3 分析数据的规模有哪些具体的要求

8.4 如何处理缺失值和异常值

8.5 数据转换

8.6 筛选有效的输入变量

8.7 共线性问题

在前面的章节里,重点谈到了数据挖掘实践中值得我们警惕和预防的错误观念(第5章),以及模型优化中主要用到的优化原则和方法(第7章)。虽然在“道”层面上的内容对于数据挖掘应用的影响是决定性的和根本性的,但是在“术”层面上的内容对于数据挖掘应用来说也是不可或缺的,只要应用得当定能“锦上添花”。另外,常见挖掘技术上的使用技巧,即所谓的“术”,属于数据分析师分析的基本功,有了基本功不代表你就可以进行完美的数据挖掘应用,但是如果没有基本功,你的数据挖掘应用肯定不会成功,从这个角度来看,这些“术”应该成为每个数据分析师必备的技能和知识,它们很重要也很基础。

提到数据挖掘中的技巧,首当其冲就是数据处理中的技巧,另外还包括各种挖掘算法的应用技巧,以及数据化运营整个闭环中的各环节所涉及的一些相应技巧。鉴于数据挖掘项目实践中有将近60%左右的时间和精力是用来熟悉、清理和转换数据的,因此本章专门针对数据处理中一些普遍性的,同时也是非常重要的一些技巧进行分析、总结和提炼。至于各种挖掘算法应用中的技巧和数据化运营中的其他技巧,将在随后相关的章节中分别进行讲解。

本章将对数据挖掘中最常见的一些判断和处理数据的方法进行展开阐述,对于本章的各节都可以看成是一个独立的环节,其中介绍了常见的容易犯错误的地方,同时每一节又会独立地从技术角度来思考挖掘过程中的风险点和需要注意的地方。