RSS
热门关键字:  数据挖掘  数据仓库  商业智能  搜索引擎  人工智能

第十二章 定性数据分析

来源: 作者:unkonwn 时间:2004-12-08 点击:

第一节  列联表

数据挖掘实验室

一、列联表的含义

列联表是由两个或两个以上的变量进行交叉分类的频数分布表。 数据挖掘研究院

这些变量中每个都有两个或更多的可能取值。这些取值也称为水平;比如观点有两个水平,性别有两个水平等。

数据挖掘研究院

如教材中关于某项政策调查所得数据table7.txt所示:  数据挖掘研究院

  数据挖掘实验室

观点: 数据挖掘实验室

不赞成 数据挖掘研究院

观点:

赞成 数据挖掘实验室

合计

数据挖掘研究院

数据挖掘实验室

23

18 数据挖掘研究院

35

数据挖掘研究院

47 数据挖掘研究院

58 数据挖掘实验室

65 数据挖掘研究院

合计

41 数据挖掘研究院

82

123

  数据挖掘研究院

一般将横向变量的划分类别视为R,纵向变量的划分类别视为C,则可以将列联表称为R×C列联表。上表即为2×2列联表。

SPSS数据中,收入的用代码123代表;性别的用代码01代表;观点赞成不赞成10代表。 数据挖掘研究院

二、列联表的分布 数据挖掘研究院

列联表有两个分布:一个是观察值的分布和一个是期望值的分布。 数据挖掘研究院

1.观察值的分布

事实上,上表就是一个最简单的观察值的分布。

数据挖掘研究院

观察值分布虽然反映了数据的分布,但因为基数不同,不适合于进行对比。 数据挖掘研究院

为了能在此相统的基数上比较,使列联表中的数据提供更多的信息,可以计算相应的百分比。 数据挖掘研究院

2.期望值的分布 数据挖掘实验室

如果我们想进一步了解不同性别的人对这项政策的观点是否存在着显著的差异,就要进行检验。 数据挖掘研究院

从逻辑上讲,如果男女性别的人对这项政策的看法相同,那么男性不赞同方案的人应为:58×33.3%=19人,女性不赞同方案的人应为:65×33.3%=22人。

19人和22人就是本例中的期望值,由此可以计算出期望值的分布。如下表: 数据挖掘实验室

观点

不赞成 数据挖掘研究院

赞成

数据挖掘研究院

合计

数据挖掘研究院

数据挖掘研究院

数据挖掘研究院

58×33.3%=19

65×33.3%=22

58 ×66.7%=39

65 ×66.7%=43 数据挖掘研究院

58

65 数据挖掘研究院

合计 数据挖掘研究院

41 数据挖掘研究院

82

 

  数据挖掘研究院

如果男女性别对该性政策的观点相同,就应有: 数据挖掘研究院

数据挖掘研究院


  

  数据挖掘实验室

如果假设成立,观察值和期望值就应当非常接近。对于这个假设的检验,可以采用 分布进行 检验。

 

数据挖掘研究院

第二节  分布与 检验 数据挖掘研究院

一、 统计量 数据挖掘研究院

f0表示观察值频数,fe表示期望值的频数,则 统计量为:

数据挖掘实验室


  
数据挖掘研究院

 

由于 值的大小与观察值与期望值的配对数,即R×C有关,所以, 统计量的分布与自由度有关。自由度=(R-1)(C-1) 数据挖掘实验室

二、 检验 数据挖掘实验室

检验可在交叉汇总分析中进行,实际上有不止一个X2检验统计量。包括Pearson X2统计量和似然比(likelihood ratio 统计量;它们都有渐近的 分布。 数据挖掘研究院

统计量值很大或P值很小时,就可以拒绝零假设。 数据挖掘研究院

此外还有精确的统计量——Fisher精确检验;它不是X2分布,而是超几何分布。 数据挖掘研究院

对本问题,计算Fisher统计量得到的p-值也大于0.05

聪明的同学必然会问,既然有精确检验为什么还要用近似的X2检验呢? 数据挖掘研究院

这是因为当数目很大时,超几何分布计算相当缓慢(比近似计算会差很多倍的时间);而且在计算机速度不快时,根本无法计算。因此人们多用大样本近似的X2统计量。 数据挖掘研究院

三、列联表中的相关测量。

数据挖掘研究院

利用检验对列联表中变量之间的相互关系进行检验之后,如果认为拒绝原假设,变量之间存在联系,

那么,接下来的问题就是它们之间的相关程度有多大? 数据挖掘研究院

列联表中的相关测量

数据挖掘研究院

SPSS中提供了多种相关检验的方法: 数据挖掘研究院

定距变量与定距变量相关的检验 数据挖掘研究院

名义变量与名义变量相关的检验 数据挖掘研究院

     序次变量与序次变量相关的检验 数据挖掘研究院

第三节  对属线性模型 数据挖掘研究院

一、从常规交互表分析到对数线性模型 数据挖掘实验室

1.传统交互表的局限性 数据挖掘研究院

无论是简单交互表还是复杂的交互表,其中分布的所有频数之间的关联都可以分解为两种不同性质的效应。

数据挖掘研究院

一种反映了变量本身的频数分布的影响,称之为主效应; 数据挖掘实验室

另一种反映变量之间关联所产生的效应,称之为交互效应。 数据挖掘研究院

传统交互表具有较大的局限性,它失去了对多个变量之间的交互联系的分析。如下表中,如果我们将观点、性别和收入水平一起进行研究时,我们无法对这三个变量之间的交互联系放在一起分析。 数据挖掘研究院

  数据挖掘研究院

观点:赞成

观点:不赞成

  数据挖掘实验室

低收入 数据挖掘研究院

中等收入 数据挖掘实验室

高收入

低收入

中等收入

高收入

数据挖掘研究院

20 数据挖掘研究院

10 数据挖掘研究院

5 数据挖掘研究院

5 数据挖掘研究院

8

数据挖掘研究院

10 数据挖掘研究院

数据挖掘研究院

25

15

7 数据挖掘研究院

2 数据挖掘研究院

7

数据挖掘研究院

9

数据挖掘研究院

 并且在进行两个变量之间的关联分析时缺乏必要的统计控制,也不能准确定量描述一个变量对另一个变量的作用幅度。

2.对数线性模型的发展 数据挖掘实验室

对数线性模型既可以在控制其他分类变量的条件下研究两个分类变量之间的关联,又可以将多元频数分布分解成具体的各项主效应和各项交互效应; 数据挖掘实验室

能够以发生比的形式来表示自变量的类型不同反应在因变量频数分布上的差异,因此具有了定量测量自变量作用幅度的能力;

数据挖掘研究院

还具有强大的统计检验功能! 数据挖掘研究院

二、对数线性模型的基本原理 数据挖掘研究院

中国几千年社会发展中形成了重男轻女的旧风俗。现在研究的任务是:根据调查数据检验这种情况是否在事实上存在,并定量描述育龄妇女所生育的第一个孩子的性别对后续生育决策的影响。

在上例中涉及两个变量:一个是已经生育第一个子女的夫妻是否领取独生子女证(A),另一个是第一次生育子女的性别(B)。 数据挖掘研究院

观测频数交互表

  数据挖掘研究院

按照我们研究的目的,初育孩子的性别应该明确作为自变量、是否领证应明确作为因变量。 数据挖掘实验室

但是,对数线性模型本省实际上并不是对自变量值的分析,而是对交互频数得分,

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?