RSS
热门关键字:  数据挖掘  人工智能  数据仓库  搜索引擎  数据挖掘导论

第六章 试验设计与方差分析 (1)

来源: 作者:unkonwn 时间:2004-12-08 点击:

一、试验设计初步。

    1 、试验及其模型; 数据挖掘研究院

    2 、处理设计:单因素试验、多因素试验; 数据挖掘研究院

    3 、试验误差:系统误差、随机误差、错失误差;

    4 、试验的排列:设置重复、随机化、区组化、拉丁方试验。

数据挖掘研究院

二、方差分析 —ANOVA

    方差分析( analysis of variance , ANOVA ) 数据挖掘研究院

    在研究一个变量时,能够解决多个总体的均值是否相等的检验问题;

    在研究多个变量对不同总体的影响时,它也是分析各个自变量对因变量影响的一种方法。 数据挖掘研究院

    1 .方差分析的内容

    首先我们对多个总体均值是否相等这一假设进行检验。 数据挖掘研究院

    例 6.1

    某饮料生产企业研制出一种新型饮料 . 饮料的颜色共有四种 : 橘黄色、粉色、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超市上收集了该种饮料的销售情况。 数据挖掘实验室

    该饮料在五家超市的销售情况: 数据挖掘研究院

超市 数据挖掘研究院

无色 数据挖掘研究院

粉色

橘黄色 数据挖掘实验室

绿色 数据挖掘研究院

1

数据挖掘研究院

2

数据挖掘研究院

3 数据挖掘研究院

4

数据挖掘研究院

5

数据挖掘实验室

26.5

28.7

数据挖掘研究院

25.1 数据挖掘研究院

29.1 数据挖掘研究院

27.2 数据挖掘研究院

31.2 数据挖掘实验室

28.3

30.8 数据挖掘研究院

27.9

29.6

27.9 数据挖掘实验室

25.1

数据挖掘研究院

28.5

24.2 数据挖掘实验室

26.5 数据挖掘研究院

30.8

数据挖掘研究院

29.6

数据挖掘研究院

32.4

31.7 数据挖掘研究院

32.8

数据挖掘研究院

均值

27.32 数据挖掘研究院

29.56 数据挖掘研究院

26.44 数据挖掘研究院

31.46 数据挖掘研究院

    进行方差分析:

数据挖掘研究院

    问题:饮料的颜色是否对销售量产生影响?

    在其他条件相同的情况下,上述问题就归结为一个检验问题,即:检验饮料颜色对销售量是否有影响?

数据挖掘研究院


    即:

数据挖掘实验室

    2 .方差分析的原理

    从方差分析的目的看,是要检验四种颜色的饮料的销售均值是否相等,我们可用方差比较的方法来判断。

    首先,四种颜色的销售情况可看作为分为四个组: 数据挖掘研究院

颜色 数据挖掘研究院

组内平均数 数据挖掘研究院

组内平方和 SSA 数据挖掘实验室

数据挖掘研究院

组间平方和 SSE

数据挖掘研究院

无色

数据挖掘研究院

27.32

10.688 数据挖掘研究院

  数据挖掘研究院

 

76.8455

数据挖掘研究院

粉色 数据挖掘研究院

29.56

数据挖掘研究院

8.572

数据挖掘研究院

橘黄色 数据挖掘实验室

26.44

数据挖掘研究院

13.192

绿色

31.46

数据挖掘研究院

6.632

合计

-

数据挖掘研究院

39.084 数据挖掘实验室

总平方和 SST 数据挖掘研究院

数据挖掘研究院

    由此可知:差异的产生来自两个方面: 数据挖掘研究院

    一方面是由不同颜色的差异造成的,既不同的饮料颜色对销售量产生了影响 数据挖掘研究院

    另一方面是由于抽选样本的随机性而产生的差异,即各颜色内的随机误差,如相同颜色的饮料在不同的商场销售量也不同。

数据挖掘研究院

    这两个方面产生的差异可以用两个方差来计量:

    一个称为水平之间(组间)方差 ( 组间平方和除以自由度 (r-1) , r 为组数 ) ,一个称为水平内部(组内)方差(组内平方和除以自由度( n-1) , n 为样本容量总数)。

数据挖掘研究院

    水平之间的方差既包括系统性因素,也包括随机性因素;水平内部方差仅包括随机性因素。如果不同的水平(饮料颜色)对结果没有影响,那么在水平之间的方差中,就仅仅有随机因素的差异,而没有系统性差异,它与水平内部方差就应该近似,从而应有:

数据挖掘研究院

数据挖掘研究院


    即,两个方差的比值就会接近于 1 。反之,水平之间的方差就会大于水平内的方差,当这个比值达到某个程度,或者说达到某临界点,就可做出判断,既不同的水平之间存在着显著差异。 数据挖掘实验室

    因此,方差分析就是通过不同方差的比价,做出拒绝原假设或不能拒绝原假设的判断。 数据挖掘研究院

数据挖掘研究院


    水平间的方差和水平内方差之比是一个统计量,这个统计量服从 F 分布: 数据挖掘研究院

  数据挖掘研究院

    3 .方差分析的种类

    分析多个变量时,称为多元方差分析 Multivariate

数据挖掘研究院

    4 .应用方差分析的条件

    各组的观察数据,要看作是从服从正态分布的总体随机抽取的样本;

    各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。

三、一元单因素方差分析

数据挖掘研究院

    例 6.1 中有一个变量和一个因素,即:变量 dependent variable :饮料的销售量;因素 factor :饮料的颜色。

数据挖掘实验室

    用 Spss 处理数据:

数据挖掘研究院

    Spss 数据:饮料的颜色

数据挖掘研究院

    Spss 选项: Analyze — Compare Mean — One-Way ANOVA

    SPSS 输出结果: 数据挖掘研究院

 


   SPSS 单因素方差分析的进一步分析

    Spss 单因素方差分析的前提检验

    由于方差分析的前提是各水平下的总体服从方差相等的正态分布。其中,正态分布的要求不是很严格,但对于方差相等的要求是比较严格的,因此,我们有必要对方差分析的前提进行检验。检验的方法是: Homogeneity-of -variance

数据挖掘研究院

    Spss 选项:在 One-Way ANOVA 中选择 Option ,选定 Homogeneity-of –variance 即可。

数据挖掘研究院

    Spss 输出结果: 数据挖掘研究院


   Spss 单因素方差分析的多重比较检验

    通过上面的检验,我们只能判断控制变量的不同水平是否对观察变量产生了显著影响。我们还想进一步了解:究竟是哪一个水平对观察变量产生了显著影响,即那种颜色的饮料对销售量有显著影响。这就是单因素方差分析的多重比较检验。检验结果输出如下: 数据挖掘研究院


数据挖掘研究院

四、一元多因素方差分析。

数据挖掘研究院

    1 、只考虑主效应的方差分析; 数据挖掘研究院

    2 、考虑交互效应的方差分析; 数据挖掘研究院

    3 、考虑多变量的方差分析; 数据挖掘研究院

    4 、协方差分析。 数据挖掘实验室

    例 6.2

数据挖掘实验室

    某商家有如下的数据,研究这个问题的主要目的是看销售额是否受到促销方式、售后服务和奖金这三个自变量的影响,以及怎样的影响。

数据挖掘研究院

    Dependent variable 因变量:销售额

数据挖掘研究院

    Factor 因素:促销方式、售后服务 数据挖掘研究院

    Covariate 协变量:奖金

数据挖掘研究院

    数据文件: Sales.sav 数据挖掘研究院


   当有两个或两个以上因素,进行方差分析时,不仅要考虑每个因素的主效应,往往还要考虑因素与因素之间的交互效应。 数据挖掘研究院

    主效应就是每个因素对因变量的单独影响,而交互效应是当两个或更多的因素的某些水平同时出现时除了主效应之外的附加影响。

    1 .只考虑主效应的方差分析

数据挖掘研究院

    首先假定自变量受到的仅仅有不同因素的主效应( main effect )而没有交互效应( interaction )和协变量的影响。

    即: 数据挖掘实验室

    因变量 = 因素 A 主效应 + 因素 B 的主效应 + 随机误差项 数据挖掘研究院

    销售额 = 促销方式 + 售后服务 + 随机误差项 数据挖掘研究院

    以例 6.2 来说,当只考虑主效应时,假定主动促销比被动促销可以多产生 8 万元效益,而有售后服务比没有售后服务多产生 9 万元效益。那么在没有交互作用时,同时采取主动促销和售后服务会产生 8 + 9 = 17 万元的效益(称为可加的)。 数据挖掘研究院

    但如果存在交互效应,那么同时采取主动促销和售后服务会产生一个附加的效应即交互效应(一般来说也可能是正面的,也可能是负面的),这时的总效应就不是 17 万元了。

数据挖掘研究院

    用 Spss 处理数据: 数据挖掘研究院

    Spss 选项: Analyze— Gereral Linear Model — Univariate

    选择效应分析: Model— custom— Main effect


   Spss 主效应输出结果:

数据挖掘研究院


   没有交互作用的模型可以从下面点图中直观看出。图中下面一条折线连接了没有售后服务时三种促销状况的销售均值,而上面一条连接了有售后服务时三种促销状况的销售均值。由于模型选择为无交互作用,所以这两条线是平行的。从该图可以看出,两个因子效应综合效应是简单的加法。 数据挖掘研究院

 

    2 .考虑交互效应的方差分析 数据挖掘研究院

    考虑交互效应的方差分析为:

数据挖掘研究院

    因变量 = 因素 A 主效应 + 因素 B 的主效应 + 因素 A 与 B 的交互效应 + 随机误差

    即: 数据挖掘研究院

    销售额 = 促销方式 + 售后服务 + 促销方式与售后服务的交互效应 + 随机误差项 数据挖掘研究院

    用 Spss 处理数据: 数据挖掘研究院

    SPSS 选项: Model— Custom ,


    在 Build Terms 中选择 Interaction ,先把 promot(F) 和 service(F) 选入 Model ,再把 promot(F) 和 service(F) 同时选入 Model (出现 “promot*service” ); 数据挖掘研究院

    SPSS 输出结果: 数据挖掘研究院

    方差分析表的意义:

数据挖掘研究院

    图示: 数据挖掘研究院

数据挖掘实验室

    3 .考虑协变量的多因素方差分析 数据挖掘研究院

    在进行方差分析时,要求控制变量(因素)是可控的,但实际中,有些因素的不同水平很难人为控制,但他们确确实实对观测变量产生显著的影响。在方差分析中如果忽略这些因素的存在,而单单去分析其他因素对观测变量的影响,往往会夸大或缩小这些因素的影响作用,使得分析结论不正确。

    协方差分析

数据挖掘研究院

    如:我们研究销售额时,仅仅考虑促销方式和售后服务,而不去考虑销售人员的奖金对销售情况的影响,显然是不全面的。因此为了更加准确地研究控制变量不同水平对观测变量的影响,应尽量排除其他能够排出的因素对分析的影响作用。

    协方差分析是将那些很难控制的因素作为协变量,在排除协变量影响的条件下,分析控制变量对观察变量的影响,从而更加准确地对控制因素进行评价。

数据挖掘研究院

    方差分析中的影响变量(因素)都是定性变量,而协方差分析中的协变量应是定量变量,即连续数值型,协变量之间没有交互影响,且与控制变量之间也没有交互影响。 数据挖掘研究院

    现在加上作为协变量的定量变量奖金,看它对销售有没有影响,这时的线性模型就又多了一个如同回归一样的代表自变量奖金的一项:

    因变量 = 因素 A 主效应 + 因素 B 的主效应(观察变量) + 因素 A 与 B 的交互效应 + 协变量 + 随机误差 数据挖掘研究院

    用 Spss 处理数据:

数据挖掘研究院

    Spss 选项:只要将奖金( bonus )这个变量放入 Covariate 中即可。

数据挖掘研究院

    SPSS 输出结果: 数据挖掘研究院


    多因素方差分析的其他选项: 数据挖掘研究院

    Model 选项:建立多因素方差分析的模型。 数据挖掘实验室

    Contrast 选项:对控制变量各水平的观察变量的差异进行对比检验。 数据挖掘研究院

    Post Hoc 选项:进行多重比较检验。

数据挖掘研究院

    Plots 选项:以图形的方式展现各控制变量之间是否有交互影响。

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?