RSS
热门关键字:  数据挖掘  人工智能  数据仓库  搜索引擎  数据挖掘导论

第十一章 非参数统计 (1)

来源: 作者:unkonwn 时间:2004-12-08 点击:

第一节  非参数统计引论

数据挖掘实验室

一、为什么要用非参数统计 数据挖掘研究院

经典统计的多数检验都假定了总体的背景分布。

数据挖掘研究院

在那里,总体的分布形式或分布族往往是给定的或者是假定了的。所不知道的仅仅是一些参数得知或它们的范围。于是,人们的主要任务就是对一些参数,比如均值和方差(或标准差)进行估计或检验。

数据挖掘实验室

比如检验正态分布的均值是否相等或等于零等等。最常见的检验维和正态总体有关的t-检验、F-检验、X2检验和最大似然比检验等。 数据挖掘研究院

但在实际中,那种对总体的分布的假定并不是能随便做出的。

有时,数据并不是来自所假定分布的总体;或者,数据根本不是来自一个总体;还有可能,数据因为种种原因被严重污染。这样,在假定总体分布的情况下进行推断的做法就可能产生错误的或者甚至灾难性的结论。

数据挖掘研究院

于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的总体信息。

数据挖掘实验室

因为非参数统计方法不利用关于总体分布的知识,所以,就是在对总体的任何知识都没有的情况下,它也能很容易而又很可靠地获得结论。

这时非参数方法往往优于参数方法,并且非参数检验总是比传统检验安全。

数据挖掘研究院

但是在总体分布形式已知时,非参数检验就不如传统方法效率高。这是因为非参数方法利用的信息要少些。往往在传统方法可以拒绝零假设的情况,非参数检验无法拒绝。

数据挖掘研究院

但非参数统计在总体未知时效率要比传统方法要高,有时要高很多。是否用非参数统计方法,要根据对总体分布的了解程度来确定。  数据挖掘研究院

二、秩的概念 数据挖掘实验室

非参数检验中秩是最常使用的概念。什么是一个数据的秩呢?一般来说,秩就是该数据按照升幂排列之后,每个观测值的位置。例如我们有下面数据 数据挖掘研究院

Xi 数据挖掘实验室

15 数据挖掘研究院

9 数据挖掘实验室

18

数据挖掘研究院

3

数据挖掘研究院

17 数据挖掘实验室

8

5 数据挖掘实验室

13

7 数据挖掘实验室

19

数据挖掘研究院

Ri

7

5 数据挖掘研究院

9

数据挖掘研究院

1

数据挖掘研究院

8

数据挖掘研究院

4 数据挖掘实验室

2

数据挖掘研究院

6 数据挖掘研究院

3 数据挖掘研究院

10 数据挖掘研究院

这下面一行(记为Ri)就是上面一行数据Xi的秩。 数据挖掘研究院

利用秩的大小进行推断就避免了不知道背景分布的困难。这也是大多数非参数检验的优点。

数据挖掘研究院

多数非参数检验明显地或隐含地利用了秩的性质;但也有一些非参数方法没有涉及秩的性质。

常用的非参数检验的方法有:单样本检验、两独立样本检验、多个独立样本检验、多个相关样本检验和列联表某一变量各水平比例检验等。 数据挖掘研究院

第二节  单样本检验

一、单样本的Kolmogorov-Smirnov检验 数据挖掘研究院

单样本的Kolmogorov-Smirnov检验(K-S检验)是用来检验一个数据的观测累积分布是否是已知的理论分布。 数据挖掘实验室

这些作为零假设的理论分布在SPSS的选项中有正态分布,Poisson分布,均匀分布和指数分布。在SPSS软件中对于是否是正态分布或均匀分布的检验统计量为:

数据挖掘研究院

  数据挖掘研究院

 

 

数据挖掘研究院


 
数据挖掘研究院

1.正态分布检验

数据挖掘实验室

以教材Ksdata.txt资料为例,正态分布检验结果为:

  数据挖掘研究院

数据挖掘研究院

从检验的结果可知: 数据挖掘研究院

单边检验的P-值等于0.074/2=0.037(渐进检验)和0.069/2=0.0345(精确检验)。因此,如果按照显著性水平为0.05的标准,可以拒绝产生数据的总体为正态分布的零假设。 数据挖掘实验室

2.均匀分布检验 数据挖掘研究院

数据挖掘研究院

从结果看P值等于0,如果按照显著性水平为0.05的标准,可以拒绝产生数据的总体为均匀分布的零假设。 数据挖掘研究院

3.指数分布检验

从检验结果看,P值为0.664,如果按照显著性水平为0.05的标准,不能拒绝产生数据的总体为指数分布的零假设。

数据挖掘研究院

二、随机性的游程检验(run test) 数据挖掘研究院

游程检验方法是检验一个取两个值的变量的,这两个值的出现是否是随机的。假定下面是由01组成的一个这种变量的样本(数据run1.sav):

数据挖掘研究院

0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0 数据挖掘研究院

其中相同的0(或相同的1)在一起称为一个游程(单独的01也算)。 数据挖掘研究院

这个数据中有40组成的游程和31组成的游程。一共是R=7个游程。其中0的个数为m=15,而1的个数为n=10

出现01的的这样一个过程可以看成是参数为某未知pBernoulli试验。 数据挖掘研究院

但在给定了mn之后,在01的出现是随机的零假设之下,R的条件分布就和这个参数无关了。根据初等概率论,R的分布可以写成(令N=m+n 数据挖掘研究院

  数据挖掘研究院

  数据挖掘研究院

  数据挖掘实验室

 

数据挖掘研究院

数据挖掘研究院


  
数据挖掘研究院

  数据挖掘研究院

于是就可以算出在零假设下有关R的概率,以及进行有关的检验了。利用上面公式可进行精确检验;也可以利用大样本的渐近分布和利用Monte Carlo方法进行检验。利用上面数据的结果是 数据挖掘研究院

  数据挖掘研究院

数据挖掘研究院

当然,游程检验并不仅仅用于只取两个值的变量,它还可以用于某个连续变量的取值小于某个值及大于该值的个数(类似于01的个数)是否随机的问题。看下面例子。

数据挖掘研究院

(run2.sav): 从某装瓶机出来的30盒化妆品的重量如下(单位克) 数据挖掘研究院

71.6    71.0    71.8    70.3    70.5    72.9    71.0    71.0 70.1 71.8    71.9    70.3    70.9    69.3    71.2    67.3    67.6 67.7 67.6    68.1    68.0    67.5    69.8    67.5    69.7    70.0 69.1 70.4    71.0    69.9

数据挖掘实验室

为了看该装瓶机是否工作正常,首先需要验证是否大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。 数据挖掘研究院

如果把小于中位数的记为0,否则记为1,上面数据变成下面的01序列

1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0

直接利用这个数据,通过SPSS,得到下面游程检验结果的输出。

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?