本文对数据挖掘概念的产生,数据挖掘与常规数据分析的主要区别,所能解决的几大类问题和所应 用的领域都有着非常清晰的论述。作者在此篇文章中认为数据挖掘最重要的要素是分析人员的相关业务知识和思维模式。丰富的业务知识是设计有效的相关变量的必 要条件,而分析人员的思维模式从另外一个方面也保障了设计变量的结构化和完整性。所以我们在掌握丰富的业务知识同时,如果能够按照正确的思维模式去思考问 题,将会发现解决问题并不是很困难的。
一、 数据挖掘的本质 数据挖掘研究院
一般来说,比较狭义的观点认为数据挖掘区别于常规数据分析的关键点在于:数据挖掘主要侧重解决四类问题:分类、聚类、关联、预测(关于这四类问题后文会详细阐述),而常规数据分析则侧重于解决除此之外的其他数据分析问题:如描述性统计、交叉报表、假设检验等。 数据挖掘研究院
让我们来看一个例子:某移动运营商想了解目前彩铃业务的发展现状如何?解决这个问题的方法就 是常规的数据分析,通过描述性统计和交叉报表,可以知道目前彩铃业务的用户数、普及率、收入情况?不同品牌用户间的情况和差异?不同消费水平用户间的情况 和差异……。这样的分析主要解决了企业过去发生了什么以及存在什么问题;如果该运营商希望建立一个模型(或者规则),从没有使用彩铃的用户群中找出一部分 用户作为彩铃营销活动的目标用户,如通过短信或者外呼的方式告知用户可以免费试用彩铃一个月。解决这个问题则需要使用数据挖掘的方法,如通过决策树方法可 以找出使用彩铃业务可能性较高的用户的一系列特征规则,然后根据这些规则去筛选目标用户。当然数据挖掘也并不是解决这个问题唯一办法,因为在没有数据挖据 这个概念之前(1990年以前),这样的问题在商业中也是普遍存在的。通过常规的数据分析依然能解决这个问题,例如研究不同品牌、不同消费水平、不同年 龄、不同……的用户使用彩铃的情况,也可以总结出一套比较实用的规则来作为筛选彩铃目标用户的规则。当然,这样的方法跟数据挖掘方法相比存在一定的不足, 由于篇幅的限制,这个问题留给大家去思考。 数据挖掘研究院
个人的观点:数据挖掘很大程度上来说更像是一个框架概念。它所使用的各种方法在这个概念形成 之前已经普遍存在,例如统计学中的多元回归、Logistic回归,人工智能中的神经网络等。在上个世纪90年代,由于数据库的高速发展,企业对精确化营 销的迫切需求,导致了数据挖掘这个概念和新名词的诞生。当然我们也不能简单的认为数据挖掘就是一个“新瓶装老酒”,毕竟,数据挖掘根据所解决的不同类型的 问题,把包含统计学在内的各种方法进行了整合和重新设计,形成了一套新的数据分析方法论和框架,在这个框架内,源源不断的很多人投入进来,这其中主要包含 两类人:一类人是在更新设计新的算法;一类人是在不断的探索既有的方法在商业中的各种应用。 数据挖掘研究院
二、 数据挖掘主要解决的四类问题 数据挖掘实验室
数据挖掘非常清晰的界定了它所能解决的几类问题。这是一个高度的归纳,数据挖掘的应用就是把这几类问题演绎的一个过程。下面让我们来看看它所解决的四类问题是如何界定的:

