KDNuggets今年对业界人士采用何种数据挖掘方法论的调查,CRISP-DM又一次遥遥领先。
What main methodology are you using for data mining?
|
[150 votes total](Aug 2007)
CRISP-DM (63) 42% My own (29) 19% 数据挖掘研究院 SEMMA (19) 13% KDD Process (11) 7% My organizations' (8) 5% 数据挖掘研究院 Domain-specific methodology (7) 5% Other methodology, not domain-specific (6) 4% None (7) 5% |
1.NCR、SPSS等多家公司大力推广的CRISP-DM(数据挖掘的跨行业标准流程),它将数据挖掘过程分为以下6个阶段: -商业理解(Business Understanding) -数据理解(Data Understanding) -数据准备(Data Preparation) -建立模型(Modeling) -模型评估(Evaluation) -结果部署(Deployment) 2.SAS公司鼓吹的SEMMA是Sample(抽样)、Explore(探索)、Modify(修正)、Model(建模)以及Assess(评估)的缩写 3.数据挖掘经常被置于更广阔的数据库知识发现(knowledge discovery in database, KDD)的大背景下,KDD过程包括几个阶段:选择目标数据、预处理数据、转化数据、进行数据挖掘以提取模式和关系、解释并评估发现的结构 |
可以对照前几年的投票结果,注意其实很多人使用不只一种方法论,当然它们也大同小异。
|
[170 votes total](Apr 2004) CRISP-DM (72) 42% SEMMA (17) 10% My organization's (11) 6% 数据挖掘研究院 My own (48) 28% Other (10) 6% 数据挖掘研究院 None (12) 7% |
[189 votes total](Jul 2002) 数据挖掘研究院 CRISP-DM (96) 51% 数据挖掘研究院 SEMMA (22) 12% 数据挖掘研究院 My organization's (13) 7% 数据挖掘研究院 My own (43) 23% Other (8) 4% None (7) 4% 数据挖掘实验室 |
附: 数据挖掘实验室
CRISP-DM: 数据挖掘研究院
商业理解——商业理解是从业务角度来理解数据挖掘的目标和要求,再转化为数据挖掘问题;
数据理解——数据理解的任务是对原始数据进行收集和熟悉,检查数据质量,对数据进行初步探索,并发现可能存在的、有分析价值的数据特征,以形成对隐藏信息的假设;
数据准备——数据准备阶段初步完成变量的选择和导出变量的生成,同时对一些存在数据质量问题的字段进行相应的处理; 数据挖掘研究院
建立模型——建立预测模型,比如回归模型、决策树、神经网络等等;
模型评估——选择最好的最终模型,需要快速简单地应用和比较不同方法,比较产生的结果,然后对得到的不同规则给予商业评价。从可用的统计和非统计模型中找到最好的分析模型,对于产生最终决策是必需的;
结果部署——结果部署的目标是将预测模型生成的结果以一定的形式展现给业务人员使用。因此,应当从业务的角度来关注模型发布的形式。 数据挖掘研究院
SEMMA: 数据挖掘研究院
抽样——确认输入数据、取样、数据分割(把数据分割为训练、验证和测试样本);
探索——利用统计技术和可视化技术对原始数据进行探索性分析,以找出重要的变量,以及得出粗糙的直觉性结论;
修正——数据准备,如数据转换、确认野码、缺失值处理等等; 数据挖掘研究院
建模——建立预测模型,比如回归模型、决策树、神经网络等等; 数据挖掘研究院
评估——比较不同的模型。 数据挖掘研究院

