1
收集判断一个样本是否
来自正态总体的
学院: 数学与统计学院
专业: 09 级统计 01 班
科目: 统计建模与 R 软件
指导老师: 张应应
学号: 20092392
姓名: 陈思优
摘要:本文通过收集一些 R 软件的实际应用方法,来判断一个样本是否来自正
态总体。整理并分析了包括图示法、非参数检验法等判断方法。分别从样本数据
分布形态、对称性、分布的集中和分散程度、假设检验等方面判断该样本数据是
当否具有正态性,并举例实际应用所收集方法进行判断,并将所收集方法进行比
较分析。
关键词:样本、正态性、图示法、非参数检验
2012 年 5 月 15 日
2
目 录
1. 绪论……………………………………………………………………………3
1.1 正态分布…………………………………………………………………3
1.2 正态分布检验……………………………………………………………3
2. 判断方法收集……………………………………………………………… 3
2.1 图示法……………………………………………………………………3
2.1.1 直方图………………………………………………………………3
2.1.2 经验分布图…………………………………………………………3
2.1.3 QQ图…………………………………………………………………4
2.1.4 箱线图………………………………………………………………4
2.1.5 茎叶图………………………………………………………………4
2.2 非参数检验法……………………………………………………………4
2.2.1 正态性W 检验方法…………………………………………………4
2.2.2 Pearson拟合优度 2 检验…………………………………………4
2.2.3 经验分布的 Kolmogorov-Smirnov检验方法………………………5
2.2.4 符号检验……………………………………………………………5
2.2.5 Wilcoxon秩检验……………………………………………………5
3. 实例应用………………………………………………………………………6
3.1 例一………………………………………………………………………6
3.2 例二………………………………………………………………………6
4. 方法的比较分析……………………………………………………………14
5. 总结…………………………………………………………………………15
参考文献…………………………………………………………………………15
3
1 绪论
1.1 正态分布
正态分布又称高斯分布,是一种最重要的连续型分布。该分布由两个参数
——平均值和方差决定。概率密度函数曲线以均值为对称中线,方差越小,分布
越集中在均值附近。正态分布的特征:服从正态分布的变量的频数分布由 、
完全决定:
集中性:正态曲线的高峰位于正中央,即均数所在的位置。
对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
正态分布有两个参数,即均数 μ 和标准差 σ,可记作 N( , ):均数 决
定正态曲线的中心位置;标准差 决定正态曲线的陡峭或扁平程度。 越小,曲
线越陡峭; 越大,曲线越扁平。
1.2 正态分布检验
正态分布是许多检验的基础,比如 F检验,t 检验,卡方检验等在总体不是
正态分布是没有任何意义。因此,对一个样本是否来自正态总体的检验是至关重
要的。当然,我们无法证明某个数据的确来自正态总体,但如果使用效率高的检
验还无法否认总体是正态的检验,我们就没有理由否认那些和正态分布有关的检
验有意义。通过这个思想,可以得到以下一些判断一个样本是否来自正态总体的
方法,并举例进行检验。
2 判断方法收集
通过对正态总体特征的解析,可将判断方法归为一下两类,分别是:图示法
和非参数检验法。
2.1 图示法
我们可以通过直方图、QQ 图和经验分布图等大概描述样本数据是否服从正
态分布。
2.1.1 直方图
将数据取值的范围分成若干区间,在等间隔的情况下,通过在每个区间上
画一个矩形,来考察数据落入每一区间的频数与频率。
判断方法:是否以钟形分布,同时可以选择输出正态性曲线。
2.1.2 经验分布图
以样本的累计频率作为横坐标,以按照正态分布计算的相应累计概率作为纵
坐标,以样本值
现为直角坐标系的散点。如果数据服从正态分布,则样本点应
4
围绕第一象限的对角线分布。
2.1.3 QQ 图
以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐
标,把样本表现为直角坐标系的散点。如果数据服从正太分布,则样本点应围绕
第一象限的对角线分布。
2.1.4 箱线图
判断方法:观察矩形位置和中位数,若矩形位于中间位置且中位数位于矩形
的中间位置,则分布较为对称,否则是偏态分布。
2.1.5 茎叶图
判断方法:观察图形的分布状态,是否是对称分布。
2.2 非参数检验法
在许多实际问
中,人们往往对总体的分布知之甚少,很难对总体的分布形
式作出正确的假定,最多只能对总体的分布作出诸如连续型分布、关于某点对称
分布等一般性的假定,通过针对分布的类型来进行假设检验。
2.2.1 正态性W 检验方法
检验统计量:
2
1
2
2
1 1
n
i i
i
n n
i i
i i
a a X X
W
a a X X
当原假设为真时,W 的值应接近于 1,若值过小,则怀疑原假设,从而拒
绝域为: R W c
在给定的 水平下: P W c
2.2.2 Pearson 拟合优度 2 检验
检验统计量为:
2
2 2
1 1
( )
( )
k k
i i i
i
i ii i
f f npn
p
p n np
1)k
2
2 2
1 1
ˆ( )
ˆ( )
ˆ ˆ
k k
i i i
i
i ii i
f f npn
p
p n np
1)k r
r是被估参数的个数
若原假设为真时, 2 应较小,否则就怀疑原假设,从而拒绝域为
5
2{ }R d ,对于给定的 有: 2{ }P d , 又 2 2ˆ{ }p P
2.2.3 经验分布的 Kolmogorov-Smirnov 检验方法
统计量是计算 ( )nF x 与 0 ( )F x 的距离D ,即:
0max | |nD F x F x
nF x 表示一组随机样本的累计概率函数, 0F x 表示分布的分布函数。
当原假设为真时,D的值应较小,p值应大于0.05,若反之,则怀疑原假设,
从而,拒绝域为 R D d
对于给定的 有: p P D d , 又 ˆ{ }n np P D D
而对于一个参数未知的样本数据,要检验其是否具有正态性,可以根据样本均值
ˆ X ,样本方差 2 2ˆ S 可计算得检验统计量 ˆ nD 的值。
2.3.4 符号检验
假设某个总体的中位数为 0M ,如果样本中位数 0M M ,我们就接受样本是
来自某个总体的假设。首先,从每个样本观察值中减去总体中位数 0M ,得出的
正、负差额用正 ( ) 、负 ( ) 号加以表示。如果总体中位数等于样本中位数,即
0M M ,那么,样本观察值在中位数上、下的数目应各占一半,因而出现正号
或负号的概率应各占1 2。设样本容量为 n,就可以用二项分布 ( ,1 2)B n 来计算出
现负号(或正号)个数的概率,从而根据一定的显著性水平 ,作出是否接受原
假设 0H : 0M M 的判定。
2.3.5 Wilcoxon 秩检验
如果原观察值的数目为 'n ,减去差额为 0的观察数据后,其样本数为n。用
( )
iR
表示正秩次,W 表示正秩次的和,则 Wilcoxon 统计量为:
( )
1
n
i
i
W R
6
因为 n个整数1, 2, ,n 的总和用
( 1)
2
n n
计算,而正秩次总和可以在区间
( 1)
0,
2
n n
内变动,如果观察值来自中位数为
0M 的某个总体的假设为真,那么
Wilcoxon 检验统计量的取值将是秩次和的平均数,即
( 1)
4
W
n n
的左右变动。
如果该假设不成立,则W 的取值将向秩次和两头的数值靠近。这样,在一定的
显著水平下便可进行秩次和检验。
3 实例应用
3.1 例 1
某班有 31名学生,某门课的考试成绩如下:
25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84
84 85 86 86 86 87 89 89 89 90 91 91 92 100
分别运用以上方法来判断该样本是否来自正态总体。
3.1.1 直方图
Histogram of x
x
D
e
n
si
ty
20 40 60 80 100
0
.0
0
0
.0
1
0
.0
2
0
.0
3
0
.0
4
图3.1 学生成绩的直方图
根据学生成绩的直方图可以看出,学生成绩不满足正态分布的特性,在等间
隔的情况下,成绩在80 ~ 90分之间的较多,而且整个直方分布图并不满足对称
性。因此,初步判断,学生成绩并不来自正态总体。
3.1.2 经验分布图
7
20 40 60 80 100
0
.0
0
.2
0
.4
0
.6
0
.8
1
.0
ecdf(x)
x
F
n
(x
)
图3.2 学生成绩的经验分布图
从样本数据经验分布图与正态分布曲线来看,二者并不吻合,有明显的区别,
在80 ~ 90分这一区间,经验分布更加陡峭,而正态分布曲线却是在整个区间内
都相对比较平滑的,因此,判断改成绩分布并不具有正态性。
3.1.3 QQ图
-2 -1 0 1 2
4
0
6
0
8
0
1
0
0
Normal Q-Q Plot
Theoretical Quantiles
S
a
m
p
le
Q
u
a
n
ti
le
s
图3.3 学生成绩的QQ图
由QQ图的判定特征可知,若样本数据近似于正态分布,则在QQ图上这些
8
点近似地分布在直线 y x 附近。而由学生成绩的QQ图看来,学生成绩的
分布并没有近似地分布在该直线附近,有一定的差距,吻合度不够好。因此,判
断该样本数据并不近似接近于正态总体。
3.1.4 箱线图
4
0
6
0
8
0
1
0
0
图3.4 学生成绩的箱线图
由箱线图可以更直观简洁地分析数据的特征,该样本中位数在85左右,而
整个数据在 44 ~100之间,而25分作为异常值出现在图像的最下方且整个数据分
布并不关于中位数对称,呈偏态分布,因此判断学生成绩不具有正态性。
3.1.5 茎叶图
The decimal point is 1 digit(s) to the right of the |
2 | 5
3 |
4 | 5
5 | 045
6 | 148
7 | 25589
8 | 1344456667999
9 | 0112
10 | 0
与直方图比较,营业图更能细致地看出数据分布的结构,十位为8的数据较
多,而其他的则相对较少,80分以前的数据随分数增长而增多,90分以后的数
据随分数增长而减少,但数据分布不对称,因此由数据结构可判断该样本数据并
9
非具有正态性。
3.1.6 正态性W 检验方法
> w<-c(25, 45, 50, 54, 55, 61, 64, 68, 72, 75, 75,
+ 78, 79, 81, 83, 84, 84, 84, 85, 86, 86, 86,
+ 87, 89, 89, 89, 90, 91, 91, 92, 100)
> shapiro.test(w)
Shapiro-Wilk normality test
data: w
W = 0.8633, p-value = 0.0009852
得出的 p值为0.0009852<0.05,因此,认为该门课程的成绩不服从正态分布。
3.1.7 Pearson拟合优度 2 检验
> X<-scan()
1: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86
87 89 89 89 90 91 91 92 100
32:
Read 31 items
> A<-table(cut(X,br=c(0,69,79,89,100)))
> p<-pnorm(c(70,80,90,100),mean(X),sd(X))
> p<-c(p[1],p[2]-p[1],p[3]-p[2],1-p[3])
> chisq.test(A,p=p)
Chi-squared test for given probabilities
data: A
X-squared = 8.334, df = 3, p-value = 0.03959
P值=0.03959<0.05,因此认为该门课程的成绩不服从正态分布。
3.1.8 经验分布的Kolmogorov-Smirnov检验方法
由于该样本总体的参数并不知道,因此可用样本均值和样本方差代替参数来
建立假设检验。
>x<-c(25,45,50,54,55,61,64,68,72,75,75,78,79,81,83,84,84,84,85,86,86,86,87,89,8
9,89,90,91,91,92,100)
> ks.test(x,"pnorm",mean(x),sd(x))
One-sample Kolmogorov-Smirnov test
data: x
D = 0.1952, p-value = 0.1883
alternative hypothesis: two-sided
其 P值大于0.05,无法拒绝原假设,因此认为学生成绩的样本来自正态分布总体。
3.1.9 符号检验
同样地,该样本总体的参数并不知道,因此可用样本中位数代替参数来建立
10
假设检验。
X<-scan()
1: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89
90 91 91 92 100
binom.test(sum(X>mean(x)),length(X),al="l")
Exact binomial test
data: sum(X > mean(x)) and length(X)
number of successes = 20, number of trials = 31, p-value = 0.9646
alternative hypothesis: true probability of success is less than 0.5
95 percent confidence interval:
0.0000000 0.7866395
sample estimates:
probability of success
0.6451613
计算出的值大于0.05,应接受原假设,即认为,学生成绩是来自正态总体的。
注意,单侧区间估计的上界为0.7866,高于0.5,所得的结论还是接受原假设。
3.1.10 Wilcoxon秩检验
> X<-scan()
1: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86
87 89 89 89 90 91 91 92 100
32:
Read 31 items
>wilcox.test(X,mu=median(X),alternative="less",exact=FALSE,correct=
FALSE,conf.int=TRUE)
Wilcoxon signed rank test
data: X
V = 126.5, p-value = 0.04065
alternative hypothesis: true location is less than 84
95 percent confidence interval:
-Inf 83.50002
sample estimates:
(pseudo)median
78.28927
这里 126.5V 是Wilcoxon统计量, P值0.04065 0.05 ,拒绝原假设,即学
生成绩不来自正态分布总体。
3.2 例2
已知15位学生的体重(单位: kg)如下:
75.0 64.0 47.4 66.9 62.2 62.2 58.7 63.5
66.6 64.0 57.0 69.0 56.9 50.0 72.0
求学生体重是否来自正态总体。
11
3.2.1 直方图
Histogram of w
w
D
e
n
s
it
y
45 50 55 60 65 70 75
0
.0
0
0
.0
2
0
.0
4
0
.0
6
图3.5 学生体重的直方图
从学生体重的直方图大致可以看出,数据分布基本符号正态总体的特征,关
于均值对称,中间高,两边依次递减,因此初步判断学生体重来自正态总体。
3.2.2 经验分布图
45 50 55 60 65 70 75
0
.0
0
.2
0
.4
0
.6
0
.8
1
.0
ecdf(w)
x
F
n
(x
)
图3.6 学生体重的经验分布图
从学生体重的经验分布图可以看出,其样本数据的经验分布图基本与正态分
布曲线重合,因此判断该样本数据来自正态总体。
12
3.2.3 QQ图
-1 0 1
5
0
5
5
6
0
6
5
7
0
7
5
Normal Q-Q Plot
Theoretical Quantiles
S
a
m
p
le
Q
u
a
n
til
e
s
图3.7 学生体重的QQ图
从学生体重的QQ图上这些点近似地分布在直线 y x 附近,因此判断
该样本数据近似于正态分布。
3.2.4 箱线图
5
0
5
5
6
0
6
5
7
0
7
5
图3.8 学生体重的箱线图
13
从学生体重的箱线图可以直观地分析样本数据,中位线基本为与均值附近,
且上下延伸距离差不多相等,近乎对称,因此判断该样本总体具有正态性。
3.2.5 茎叶图
The decimal point is 1 digit(s) to the right of the |
4 | 7
5 | 0779
6 | 22444779
7 | 25
从学生体重的茎叶图更能细致地看出数据分布的结构,十位数字为6的数据
最多,其前后的数据则相对于其较对称,因此判断该样本数据具有正态性。
3.2.6 正态性W 检验方法
> w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5,
+ 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
> shapiro.test(w)
Shapiro-Wilk normality test
data: w
W = 0.9686, p-value = 0.8371
得出的 p值为0.8371 0.05 ,因此,认为学生体重服从正态分布。
3.2.7 Pearson拟合优度 2 检验
X<-scan()
75 64 47.4 66.9 62.2 62.2 58.7 63.5 66.6 64 57 69 56.9 50 72
A<-table(cut(X,br=c(0,45,55,65,75)))
p<-pnorm(c(46,56,66,75),mean(X),sd(X))
p<-c(p[1],p[2]-p[1],p[3]-p[2],1-p[3])
chisq.test(A,p=p)
Chi-squared test for given probabilities
data: A
X-squared = 0.5131, df = 3, p-value = 0.916
P值= 0.916 0.05 ,因此认为学生体重服从正态分布。
3.2.8 经验分布的Kolmogorov-Smirnov检验方法
> w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5,
66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
> ks.test(x,"pnorm",mean(x),sd(x))
One-sample Kolmogorov-Smirnov test
data: x
D = 0.0755, p-value = 0.999
alternative hypothesis: two-sided
14
其 P值= 0.999 0.05 ,无法拒绝原假设,因此认为学生体重服从正态分布。
3.2.9 符号检验
X<-scan()
75 64 47.4 66.9 62.2 62.2 58.7 63.5 66.6 64 57 69 56.9 50 72
binom.test(sum(X>mean(x)),length(X),al="l")
Exact binomial test
data: sum(X > mean(x)) and length(X)
number of successes = 15, number of trials = 15, p-value = 1
alternative hypothesis: true probability of success is less than 0.5
95 percent confidence interval:
0 1
sample estimates:
probability of success
1
计算出的 P值=1,应接受原假设,也就是说,学生体重服从正态总体分布。
同时,单侧区间估计的上界也为1,远大于0.05,所得的结论还是拒绝原假设。
3.2.10 Wilcoxon秩检验
>X<-scan()
75 64 47.4 66.9 62.2 62.2 58.7 63.5 66.6 64 57 69 56.9 50 72
>wilcox.test(X,mu=median(X),alternative="less",exact=FALSE,correct=
FALSE,conf.int=TRUE)
Wilcoxon signed rank test
data: X
V = 45, p-value = 0.3188
alternative hypothesis: true location is less than 63.5
95 percent confidence interval:
-Inf 66.00002
sample estimates:
(pseudo)median
62.65003
这里 45V 是Wilcoxon统计量, 0.3188 0.05P 值 ,接受原假设,即学生体
重数据总体服从正态分布。
4 方法比较分析
将判断一个样本总体是否来自正态分布的方法比较如下:
1.图示法相对于其他方法而言,比较直观,方法简单,从图中可以直接判断,
无需计算,但这种方法效率不是很高,它所提供的信息只是正态性检验的重要补
充。
2.经常使用的 2 拟合优度检验和 Kolmogorov-Smirnov 检验的检验功效较
15
低,在许多计算机软件的 Kolmogorov-Smirnov 检验无论是大小样本都用大样本
近似的公式,很不精准,一般使用 Shapiro-Wilk检验和 Lilliefor检验。
3. Kolmogorov-Smirnov检验只能检验是否一个样本来自于一个已知样本,
而 K-S检验法可以用样本参数来检验是否来自未知总体。
4. Shapiro-Wilk检验和 Lilliefor检验都是进行大小排序后得到的,所以
易受异常值的影响。
5. Shapiro-Wilk检验只适用于小样本场合(3 n 50),其他方法的检验功
效一般随样本容量的增大而增大。
6. 2 拟合优度检验和 Kolmogorov-Smirnov 检验都采用实际频数和期望频
数进行检验,前者既可用于连续总体,又可用于离散总体,而Kolmogorov-Smirnov
检验只适用于连续和定量数据。
7. 2 拟合优度检验的检验结果依赖于分组,而其他方法的检验结果与区间
划分无关。
8.假设检验的目的是拒绝原假设,当 p值不是很大时,应根据数据背景再作
讨论。
9.应用符号检验法和Wilcoxon检验法只是对样本中位数进行检验,并为对其
他的参数进行检验,因此具有一定的不准确性。
10.由于参数均未知,需运用原参数的地方均替换成了样本参数,检验结果
或许会有偏差,影响假设的稳定性及准确性。
5 总结
判断一个样本数据是否来自正态总体,根据正态分布的特点,从形状、参数
特点、假设检验等方面,可以从不同程度上加以判断。通过对正态分布的了解以
及R软件实现正态总体判断的应用,我们得到许多种判断方法并加以分析,掌握
了R软件的应用技巧以及相告函数的应用,获益匪浅。
参考文献:
[1]薛毅、陈丽萍:《统计建模与R软件》2007
[2]茆诗松、周纪芗:《概率论与数理统计》2008
[3]吴喜之、赵博娟:《非参数统计》2009
[4]《资料的正态性检验汇总》2009