6.4 抽取样本数据、熟悉数据、数据清洗和摸底

本阶段的主要内容包括:根据前期讨论的分析思路和建模思路,以及初步圈定的分析字段(分析变量)编写代码,从数据仓库中提取分析、建模所需的样本数据;通过对样本数据的熟悉和摸底,找到无效数据、脏数据、错误数据等,并且对样本数据中存在的这些明显的数据质量问题进行清洗、剔除、转换,同时视具体的业务场景和项目需求,决定是否产生衍生变量,以及怎样衍生等。

在互联网行业,由于业务发展迅猛,产品日新月异,不断在优化或换代,且相关的存储方案和战略方向在不断修改和调整,所有这些因素都导致了数据仓库的数据存储或多或少都存在这样或那样的漏洞、缺憾、偏差,而且直接导致了具体抽取的分析样本数据中不可避免地存在无效数据、脏数据、错误数据等有问题的数据。对于这些数据问题,在本环节不仅要将其明确找出来,还要应用具体的技术手段来加以应对。具体针对本项目的数据质量来说,本阶段有下列主要的发现和应对策略:

❑通过对原始样本数据和原始字段的摸底、排查,发现有些字段缺失值高达50%以上,经过研究发现这些缺失是数据仓库存储过程中的记录缺失,或者是由于产品优化后的业务逻辑更改所造成的,这些问题虽然可以向相关的数据仓库接口人反映,但是对于本项目来说已经无法回滚所需的真实数据了,对这些数据我们采取直接删除的措施。

❑通过输入变量之间的相关性分析,找出潜在共线性问题的相关输入变量,对于高度线性相关的变量只保留一个。

❑在数据仓库的数据回滚过程中造成了某些字段的严重不符合逻辑或明显自相矛盾,比如用户最近30天登录网站次数为0,其最近30天发布产品信息的天数不为0。针对类似的严重不符合逻辑的数据问题,要提请数据仓库重新回滚数据,直到数据正确为止。

经过处理,即删除严重缺失数据、数据仓库重新回滚明显矛盾的数据、对高度相关性的部分数据的有取有舍,在本阶段结束时共保留了36个比较有意义的字段、变量和相应数据。

关于数据清洗的主要注意事项和常用技术,在第8章中会有比较详细的介绍和分析。