19.2 CRISP-DM方法论

CRISP-DM方法论全称为Cross-Industry Standard Process for Data Mining,即跨行业的数据挖掘标准流程。它是以SPSS、Daimler Chrysler等几家当时在数据挖掘商业实践中经验丰富的商业公司所倡立的(CRISP-DM Special Interest Group,SIG)组织于1999年开发并提炼出来的。CRISP-DM方法论,目前已经成为世界数据挖掘业界公认的有关数据挖掘项目实践的标准方法论。

按照CRISP-DM方法论,一个数据挖掘商业实践的完整过程包括6个阶段,分别为业务理解(Business Understanding)、数据理解(Data Understanding)、数据准备(DataPreparation)、模型搭建(Modeling)、模型评估(Evaluation)和模型发布(Deployment)。

上述6个阶段的顺序并不是固定不变的,在不同的业务背景中,可以有不同的流转方向,如图19-2所示。但是总体来讲,业务理解(Business Understanding)是第1位的,是数据挖掘商业实践过程中的第1环节。

00150.jpeg

图 19-2 CRISP-DM方法论示意图[1]

图19-2的外圈象征数据挖掘自身的循环本质,数据挖掘的过程可以不断循环、优化,后续的过程可以从前面的过程中得到借鉴和启发。

下面具体介绍一下CRISP-DM方法论所倡导的6个环节。

19.2.1 业务理解

本阶段为数据挖掘商业实践(项目)的起始阶段,该阶段的核心内容包括正确理解业务背景和业务需求,同时能把业务需求有效转化成合理的分析需求(建模需求),并完成初步的分析(项目)计划。

[1]本图片摘自SPSS官方宣传资料。

19.2.2 数据理解

本环节从数据收集开始,通过一系列的数据探索和熟悉,识别数据质量问题,发现数据的内部属性。

19.2.3 数据准备

这个阶段类似于SEMMA中的数据调整阶段,其主要任务是数据清洗、重组、转换及衍生等。

19.2.4 模型搭建

该环节类似于SEMMA中的模式化环节,也就是模型的搭建和知识的发现环节。

19.2.5 模型评估

本环节主要内容包括彻底评估备选模型,挑选冠军模型,评价模型的稳定性,确保模型(或结论)正确回答了当初的业务需求。

19.2.6 模型发布

正如本书多次强调的那样,模型的搭建并不是数据分析挖掘的目的,更不是项目的结束。只有将模型应用于业务实践,才能实现数据分析挖掘的商业价值,所以这个环节的重要性不言而喻。

本环节的核心内容包括模型投入业务应用,产生商业价值,并且应用效果要及时跟踪和反馈,以便后期的优化和更新。

仔细对照SEMMA方法论和CRISP-DM方法论,细心的读者不难发现,两者其实表达的是相同的意思,正所谓英雄所见略同。两大最知名的商业智能品牌异口同声说出来的数据挖掘方法论,难道不值得我们回味吗?