数据挖掘交友
数据挖掘实验室
预测问题
数据挖掘实验室
数据挖掘研究院
此处说的预测问题指的是狭义的预测,并不包含前面阐述的分类问题,因为分类问题也属于预测。一般来说我们谈预测问题主要指预测变量的取值为连续数值型的情况。 数据挖掘交友
例如天气预报预测明天的气温、国家预测下一年度的GDP增长率、电信运营商预测下一年的收入、用户数等?
数据挖掘实验室
数据挖掘研究院
预测问题的解决更多的是采用统计学的技术,例如回归分析和时间序列分析。回归分析是一种非常 古典而且影响深远的统计方法,最早是由达尔文的表弟高尔顿在研究生物统计中提出来的方法,它的主要目的是研究目标变量与影响它的若干相关变量之间的关系, 通过拟和类似Y=aX1+bX2+……的关系式来揭示变量之间的关系。通过这个关系式,在给定一组X1、X2……的取值之后就可以预测未知的Y值。
数据挖掘工具
数据挖掘交友
相对来说,用于预测问题的回归分析在商业中的应用要远远少于在医学、心理学、自然科学中的应 用。最主要的原因是后者是更偏向于自然科学的理论研究,需要有理论支持的实证分析,而在商业统计分析中,更多的使用描述性统计和报表去揭示过去发生了什 么,或者是应用性更强的分类、聚类问题。 数据挖掘实验室
如需了解细节,请查阅:一元线性回归分析、多元线性回归分析、最小二乘法等相关知识。
数据挖掘交友
数据挖掘交友
三、 数据挖掘的应用领域
数据挖掘论坛
数据挖掘一开始就是面向应用而诞生的,前面说到数据挖掘主要解决四大类的问题,如果把这些问题演绎到不同的行业,我们将看到数据挖掘的应用是非常广泛的。 数据挖掘论坛
以我们经常接触的移动通信行业来说,结合前面提到的四大类问题,我们看看数据挖掘在通信行业都有哪些应用。
数据挖掘实验室
分类问题: 数据挖掘工具
l 离网预测:预测用户在未来一段时间内离网的风险。 数据挖掘交友
l 信用申请评分:根据用户资料评估用户是否可以授信(如预付费用户可以透支、后付费用户可以延长帐期)。 数据挖掘交友
l 信用行为评分:根据用户过去的消费行为特征评估信用得分高低,便于调整话费透支额度或者付费帐期。 数据挖掘论坛
l 定位产品(如彩铃、WAP、增值数据业务等)目标用户:构建模型筛选产品营销的目标用户群。 数据挖掘研究院
聚类问题:
l 用户细分:选择若干指标把用户群聚为若干个组,组内特征相似、组间特征差异明显。当然用户细分的方法很多,不一定都是采用聚类方法。聚类的优点是可以综合 处理多维变量,缺点是随之带来的不易解释性。一种便于解释的细分方法是结合业务对用户群进行人为的划分,习惯上称为Pre-Define的方法。这种方法 的优点是便于解释且应用性强,缺点是对业务要求比较高,划分边界比较难定,对多维变量处理有难度。