深入浅出谈数据挖掘

 

    聚类问题在商业案例中也是一个非常常见的,例如需要选择若干个指标(如价值、成本、使用的产品等)对已有的用户群进行划分:特征相似的用户聚为一类,特征不同的用户分属于不同的类。 数据挖掘实验室

 

    聚类的方法层出不穷,基于用户间彼此距离的长短来对用户进行聚类划分的方法依然是当前最流行的方法。大致的思路是这样的:首先确定选择哪些指标对用户进行 聚类;然后在选择的指标上计算用户彼此间的距离,距离的计算公式很多,最常用的就是直线距离(把选择的指标当作维度、用户在每个指标下都有相应的取值,可 以看作多维空间中的一个点,用户彼此间的距离就可理解为两者之间的直线距离。);最后聚类方法把彼此距离比较短的用户聚为一类,类与类之间的距离相对比较 长。 数据挖掘研究院

如需了解细节,请查阅:聚类分析、系统聚类、K-means聚类、欧氏距离、闵氏距离、马氏距离等知识。 数据挖掘交友

  数据挖掘研究院

  数据挖掘研究院

关联问题

  数据挖掘工具

说起关联问题,可能要从“啤酒和尿布”说起了。有人说啤酒和尿布是沃尔玛超市的一个经典案例,也有人说,是为了宣传数据挖掘/数据仓库而编造出来的虚构的“托”。不管如何,“啤酒和尿布”给了我们一个启示:世界上的万事万物都有着千丝万缕的联系,我们要善于发现这种关联。 数据挖掘论坛

 

关联分析要解决的主要问题是:一群用户购买了很多产品之后,哪些产品同时购买的几率比较高? 买了A产品的同时买哪个产品的几率比较高?可能是由于最初关联分析主要是在超市应用比较广泛,所以又叫“购物篮分析”,英文简称为MBA,当然此MBA非 彼MBA,意为Market Basket Analysis。 数据挖掘交友

  数据挖掘工具

如果在研究的问题中,一个用户购买的所有产品假定是同时一次性购买的,分析的重点就是所有用 户购买的产品之间关联性;如果假定一个用户购买的产品的时间是不同的,而且分析时需要突出时间先后上的关联,如先买了什么,然后后买什么?那么这类问题称 之为序列问题,它是关联问题的一种特殊情况。从某种意义上来说,序列问题也可以按照关联问题来操作。

数据挖掘研究院

 

数据挖掘实验室

关联分析有三个非常重要的概念,那就是“三度”:支持度、可信度、提升度。假设有10000 个人购买了产品,其中购买A产品的人是1000个,购买B产品的人是2000个,AB同时购买的人是800个。支持度指的是关联的产品(假定A产品和B产 品关联)同时购买的人数占总人数的比例,即800/10000=8%,有8%的用户同时购买了A和B两个产品;可信度指的是在购买了一个产品之后购买另外 一个产品的可能性,例如购买了A产品之后购买B产品的可信度=800/1000=80%,即80%的用户在购买了A产品之后会购买B产品;提升度就是在购 买A产品这个条件下购买B产品的可能性与没有这个条件下购买B产品的可能性之比,没有任何条件下购买B产品可能性=2000/10000=20%,那么提 升度=80%/20%=4。 数据挖掘论坛

  数据挖掘研究院

如需了解细节,请查阅:关联规则、apriror算法中等相关知识。

数据挖掘工具

 

数据挖掘论坛

  数据挖掘论坛

 

上一页 1 2 34 5 下一页
[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:数据挖掘资源荟萃
下一篇:企业数据挖掘能力BI的价值
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • 数据挖掘资料汇编
  • 深入浅出谈数据挖掘
  • Microsoft Says SAAS Version of CRM Produ
  • 2007年清华信息学院部分顶尖论文
  • 实现基于.NET的ERP系统中数据挖掘技术
  • KDNuggets调查2007:数据挖掘方法论
  • 计算机专业考研需考哪几门
  • 请问计算机专业考研的专业课一般是考什么课
  • 数据挖掘投资回报率调查
  • 关于数据挖掘的几点体会
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • 数据挖掘入门介绍
  • 数据挖掘在容户流失分析中的应用
  • 深入浅出谈数据挖掘
  • 实时数据挖掘实验
  • Data Mining Your Life
  • 调查:Web数据挖掘判别用户性别
  • 数据挖掘投资回报率调查
  • CRM趋势与CRM选型
  • Data Mining: An Introduction
  • New Web Spam Dataset available
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静