2.1 数据挖掘的发展历史

数据挖掘起始于20世纪下半叶,是在当时多个学科发展的基础上发展起来的。随着数据库技术的发展应用,数据的积累不断膨胀,导致简单的查询和统计已经无法满足企业的商业需求,急需一些革命性的技术去挖掘数据背后的信息。同时,这期间计算机领域的人工智能(Artificial Intelligence)也取得了巨大进展,进入了机器学习的阶段。因此,人们将两者结合起来,用数据库管理系统存储数据,用计算机分析数据,并且尝试挖掘数据背后的信息。这两者的结合促生了一门新的学科,即数据库中的知识发现(Knowledge Discovery in Databases,KDD)。1989年8月召开的第11届国际人工智能联合会议的专题讨论会上首次出现了知识发现(KDD)这个术语,到目前为止,KDD的重点已经从发现方法转向了实践应用。

而数据挖掘(Data Mining)则是知识发现(KDD)的核心部分,它指的是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。进入21世纪,数据挖掘已经成为一门比较成熟的交叉学科,并且数据挖掘技术也伴随着信息技术的发展日益成熟起来。

总体来说,数据挖掘融合了数据库、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可视化、信息检索和空间数据分析等多个领域的理论和技术,是21世纪初期对人类产生重大影响的十大新兴技术之一。