为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

20092392 陈思优

2013-07-08 15页 pdf 308KB 19阅读

用户头像

is_505592

暂无简介

举报
20092392 陈思优 1 收集判断一个样本是否 来自正态总体的方法 学院: 数学与统计学院 专业: 09 级统计 01 班 科目: 统计建模与 R 软件 指导老师: 张应应 学号: 20092392 姓名: 陈思优 摘要:本文通过收集一些 R...
20092392 陈思优
1 收集判断一个样本是否 来自正态总体的 学院: 数学与统计学院 专业: 09 级统计 01 班 科目: 统计建模与 R 软件 指导老师: 张应应 学号: 20092392 姓名: 陈思优 摘要:本文通过收集一些 R 软件的实际应用方法,来判断一个样本是否来自正 态总体。整理并分析了包括图示法、非参数检验法等判断方法。分别从样本数据 分布形态、对称性、分布的集中和分散程度、假设检验等方面判断该样本数据是 当否具有正态性,并举例实际应用所收集方法进行判断,并将所收集方法进行比 较分析。 关键词:样本、正态性、图示法、非参数检验 2012 年 5 月 15 日 2 目 录 1. 绪论……………………………………………………………………………3 1.1 正态分布…………………………………………………………………3 1.2 正态分布检验……………………………………………………………3 2. 判断方法收集……………………………………………………………… 3 2.1 图示法……………………………………………………………………3 2.1.1 直方图………………………………………………………………3 2.1.2 经验分布图…………………………………………………………3 2.1.3 QQ图…………………………………………………………………4 2.1.4 箱线图………………………………………………………………4 2.1.5 茎叶图………………………………………………………………4 2.2 非参数检验法……………………………………………………………4 2.2.1 正态性W 检验方法…………………………………………………4 2.2.2 Pearson拟合优度 2 检验…………………………………………4 2.2.3 经验分布的 Kolmogorov-Smirnov检验方法………………………5 2.2.4 符号检验……………………………………………………………5 2.2.5 Wilcoxon秩检验……………………………………………………5 3. 实例应用………………………………………………………………………6 3.1 例一………………………………………………………………………6 3.2 例二………………………………………………………………………6 4. 方法的比较分析……………………………………………………………14 5. 总结…………………………………………………………………………15 参考文献…………………………………………………………………………15 3 1 绪论 1.1 正态分布 正态分布又称高斯分布,是一种最重要的连续型分布。该分布由两个参数 ——平均值和方差决定。概率密度函数曲线以均值为对称中线,方差越小,分布 越集中在均值附近。正态分布的特征:服从正态分布的变量的频数分布由  、 完全决定: 集中性:正态曲线的高峰位于正中央,即均数所在的位置。 对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。 均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。 正态分布有两个参数,即均数 μ 和标准差 σ,可记作 N(  , ):均数  决 定正态曲线的中心位置;标准差 决定正态曲线的陡峭或扁平程度。 越小,曲 线越陡峭; 越大,曲线越扁平。 1.2 正态分布检验 正态分布是许多检验的基础,比如 F检验,t 检验,卡方检验等在总体不是 正态分布是没有任何意义。因此,对一个样本是否来自正态总体的检验是至关重 要的。当然,我们无法证明某个数据的确来自正态总体,但如果使用效率高的检 验还无法否认总体是正态的检验,我们就没有理由否认那些和正态分布有关的检 验有意义。通过这个思想,可以得到以下一些判断一个样本是否来自正态总体的 方法,并举例进行检验。 2 判断方法收集 通过对正态总体特征的解析,可将判断方法归为一下两类,分别是:图示法 和非参数检验法。 2.1 图示法 我们可以通过直方图、QQ 图和经验分布图等大概描述样本数据是否服从正 态分布。 2.1.1 直方图 将数据取值的范围分成若干区间,在等间隔的情况下,通过在每个区间上 画一个矩形,来考察数据落入每一区间的频数与频率。 判断方法:是否以钟形分布,同时可以选择输出正态性曲线。 2.1.2 经验分布图 以样本的累计频率作为横坐标,以按照正态分布计算的相应累计概率作为纵 坐标,以样本值现为直角坐标系的散点。如果数据服从正态分布,则样本点应 4 围绕第一象限的对角线分布。 2.1.3 QQ 图 以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐 标,把样本表现为直角坐标系的散点。如果数据服从正太分布,则样本点应围绕 第一象限的对角线分布。 2.1.4 箱线图 判断方法:观察矩形位置和中位数,若矩形位于中间位置且中位数位于矩形 的中间位置,则分布较为对称,否则是偏态分布。 2.1.5 茎叶图 判断方法:观察图形的分布状态,是否是对称分布。 2.2 非参数检验法 在许多实际问中,人们往往对总体的分布知之甚少,很难对总体的分布形 式作出正确的假定,最多只能对总体的分布作出诸如连续型分布、关于某点对称 分布等一般性的假定,通过针对分布的类型来进行假设检验。 2.2.1 正态性W 检验方法 检验统计量:           2 1 2 2 1 1 n i i i n n i i i i a a X X W a a X X                 当原假设为真时,W 的值应接近于 1,若值过小,则怀疑原假设,从而拒 绝域为:  R W c  在给定的 水平下:  P W c   2.2.2 Pearson 拟合优度 2 检验 检验统计量为: 2 2 2 1 1 ( ) ( ) k k i i i i i ii i f f npn p p n np         1)k   2 2 2 1 1 ˆ( ) ˆ( ) ˆ ˆ k k i i i i i ii i f f npn p p n np         1)k r    r是被估参数的个数 若原假设为真时, 2 应较小,否则就怀疑原假设,从而拒绝域为 5 2{ }R d  ,对于给定的 有: 2{ }P d   , 又 2 2ˆ{ }p P    2.2.3 经验分布的 Kolmogorov-Smirnov 检验方法 统计量是计算 ( )nF x 与 0 ( )F x 的距离D ,即:    0max | |nD F x F x   nF x 表示一组随机样本的累计概率函数,  0F x 表示分布的分布函数。 当原假设为真时,D的值应较小,p值应大于0.05,若反之,则怀疑原假设, 从而,拒绝域为  R D d  对于给定的 有:  p P D d    , 又 ˆ{ }n np P D D  而对于一个参数未知的样本数据,要检验其是否具有正态性,可以根据样本均值 ˆ X  ,样本方差 2 2ˆ S  可计算得检验统计量 ˆ nD 的值。 2.3.4 符号检验 假设某个总体的中位数为 0M ,如果样本中位数 0M M ,我们就接受样本是 来自某个总体的假设。首先,从每个样本观察值中减去总体中位数 0M ,得出的 正、负差额用正 ( ) 、负 ( ) 号加以表示。如果总体中位数等于样本中位数,即 0M M ,那么,样本观察值在中位数上、下的数目应各占一半,因而出现正号 或负号的概率应各占1 2。设样本容量为 n,就可以用二项分布 ( ,1 2)B n 来计算出 现负号(或正号)个数的概率,从而根据一定的显著性水平 ,作出是否接受原 假设 0H : 0M M 的判定。 2.3.5 Wilcoxon 秩检验 如果原观察值的数目为 'n ,减去差额为 0的观察数据后,其样本数为n。用 ( ) iR  表示正秩次,W 表示正秩次的和,则 Wilcoxon 统计量为: ( ) 1 n i i W R    6 因为 n个整数1, 2, ,n 的总和用 ( 1) 2 n n  计算,而正秩次总和可以在区间 ( 1) 0, 2 n n      内变动,如果观察值来自中位数为 0M 的某个总体的假设为真,那么 Wilcoxon 检验统计量的取值将是秩次和的平均数,即 ( 1) 4 W n n    的左右变动。 如果该假设不成立,则W 的取值将向秩次和两头的数值靠近。这样,在一定的 显著水平下便可进行秩次和检验。 3 实例应用 3.1 例 1 某班有 31名学生,某门课的考试成绩如下: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 分别运用以上方法来判断该样本是否来自正态总体。 3.1.1 直方图 Histogram of x x D e n si ty 20 40 60 80 100 0 .0 0 0 .0 1 0 .0 2 0 .0 3 0 .0 4 图3.1 学生成绩的直方图 根据学生成绩的直方图可以看出,学生成绩不满足正态分布的特性,在等间 隔的情况下,成绩在80 ~ 90分之间的较多,而且整个直方分布图并不满足对称 性。因此,初步判断,学生成绩并不来自正态总体。 3.1.2 经验分布图 7 20 40 60 80 100 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 ecdf(x) x F n (x ) 图3.2 学生成绩的经验分布图 从样本数据经验分布图与正态分布曲线来看,二者并不吻合,有明显的区别, 在80 ~ 90分这一区间,经验分布更加陡峭,而正态分布曲线却是在整个区间内 都相对比较平滑的,因此,判断改成绩分布并不具有正态性。 3.1.3 QQ图 -2 -1 0 1 2 4 0 6 0 8 0 1 0 0 Normal Q-Q Plot Theoretical Quantiles S a m p le Q u a n ti le s 图3.3 学生成绩的QQ图 由QQ图的判定特征可知,若样本数据近似于正态分布,则在QQ图上这些 8 点近似地分布在直线 y x   附近。而由学生成绩的QQ图看来,学生成绩的 分布并没有近似地分布在该直线附近,有一定的差距,吻合度不够好。因此,判 断该样本数据并不近似接近于正态总体。 3.1.4 箱线图 4 0 6 0 8 0 1 0 0 图3.4 学生成绩的箱线图 由箱线图可以更直观简洁地分析数据的特征,该样本中位数在85左右,而 整个数据在 44 ~100之间,而25分作为异常值出现在图像的最下方且整个数据分 布并不关于中位数对称,呈偏态分布,因此判断学生成绩不具有正态性。 3.1.5 茎叶图 The decimal point is 1 digit(s) to the right of the | 2 | 5 3 | 4 | 5 5 | 045 6 | 148 7 | 25589 8 | 1344456667999 9 | 0112 10 | 0 与直方图比较,营业图更能细致地看出数据分布的结构,十位为8的数据较 多,而其他的则相对较少,80分以前的数据随分数增长而增多,90分以后的数 据随分数增长而减少,但数据分布不对称,因此由数据结构可判断该样本数据并 9 非具有正态性。 3.1.6 正态性W 检验方法 > w<-c(25, 45, 50, 54, 55, 61, 64, 68, 72, 75, 75, + 78, 79, 81, 83, 84, 84, 84, 85, 86, 86, 86, + 87, 89, 89, 89, 90, 91, 91, 92, 100) > shapiro.test(w) Shapiro-Wilk normality test data: w W = 0.8633, p-value = 0.0009852 得出的 p值为0.0009852<0.05,因此,认为该门课程的成绩不服从正态分布。 3.1.7 Pearson拟合优度 2 检验 > X<-scan() 1: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 32: Read 31 items > A<-table(cut(X,br=c(0,69,79,89,100))) > p<-pnorm(c(70,80,90,100),mean(X),sd(X)) > p<-c(p[1],p[2]-p[1],p[3]-p[2],1-p[3]) > chisq.test(A,p=p) Chi-squared test for given probabilities data: A X-squared = 8.334, df = 3, p-value = 0.03959 P值=0.03959<0.05,因此认为该门课程的成绩不服从正态分布。 3.1.8 经验分布的Kolmogorov-Smirnov检验方法 由于该样本总体的参数并不知道,因此可用样本均值和样本方差代替参数来 建立假设检验。 >x<-c(25,45,50,54,55,61,64,68,72,75,75,78,79,81,83,84,84,84,85,86,86,86,87,89,8 9,89,90,91,91,92,100) > ks.test(x,"pnorm",mean(x),sd(x)) One-sample Kolmogorov-Smirnov test data: x D = 0.1952, p-value = 0.1883 alternative hypothesis: two-sided 其 P值大于0.05,无法拒绝原假设,因此认为学生成绩的样本来自正态分布总体。 3.1.9 符号检验 同样地,该样本总体的参数并不知道,因此可用样本中位数代替参数来建立 10 假设检验。 X<-scan() 1: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 binom.test(sum(X>mean(x)),length(X),al="l") Exact binomial test data: sum(X > mean(x)) and length(X) number of successes = 20, number of trials = 31, p-value = 0.9646 alternative hypothesis: true probability of success is less than 0.5 95 percent confidence interval: 0.0000000 0.7866395 sample estimates: probability of success 0.6451613 计算出的值大于0.05,应接受原假设,即认为,学生成绩是来自正态总体的。 注意,单侧区间估计的上界为0.7866,高于0.5,所得的结论还是接受原假设。 3.1.10 Wilcoxon秩检验 > X<-scan() 1: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 32: Read 31 items >wilcox.test(X,mu=median(X),alternative="less",exact=FALSE,correct= FALSE,conf.int=TRUE) Wilcoxon signed rank test data: X V = 126.5, p-value = 0.04065 alternative hypothesis: true location is less than 84 95 percent confidence interval: -Inf 83.50002 sample estimates: (pseudo)median 78.28927 这里 126.5V  是Wilcoxon统计量, P值0.04065 0.05 ,拒绝原假设,即学 生成绩不来自正态分布总体。 3.2 例2 已知15位学生的体重(单位: kg)如下: 75.0 64.0 47.4 66.9 62.2 62.2 58.7 63.5 66.6 64.0 57.0 69.0 56.9 50.0 72.0 求学生体重是否来自正态总体。 11 3.2.1 直方图 Histogram of w w D e n s it y 45 50 55 60 65 70 75 0 .0 0 0 .0 2 0 .0 4 0 .0 6 图3.5 学生体重的直方图 从学生体重的直方图大致可以看出,数据分布基本符号正态总体的特征,关 于均值对称,中间高,两边依次递减,因此初步判断学生体重来自正态总体。 3.2.2 经验分布图 45 50 55 60 65 70 75 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 ecdf(w) x F n (x ) 图3.6 学生体重的经验分布图 从学生体重的经验分布图可以看出,其样本数据的经验分布图基本与正态分 布曲线重合,因此判断该样本数据来自正态总体。 12 3.2.3 QQ图 -1 0 1 5 0 5 5 6 0 6 5 7 0 7 5 Normal Q-Q Plot Theoretical Quantiles S a m p le Q u a n til e s 图3.7 学生体重的QQ图 从学生体重的QQ图上这些点近似地分布在直线 y x   附近,因此判断 该样本数据近似于正态分布。 3.2.4 箱线图 5 0 5 5 6 0 6 5 7 0 7 5 图3.8 学生体重的箱线图 13 从学生体重的箱线图可以直观地分析样本数据,中位线基本为与均值附近, 且上下延伸距离差不多相等,近乎对称,因此判断该样本总体具有正态性。 3.2.5 茎叶图 The decimal point is 1 digit(s) to the right of the | 4 | 7 5 | 0779 6 | 22444779 7 | 25 从学生体重的茎叶图更能细致地看出数据分布的结构,十位数字为6的数据 最多,其前后的数据则相对于其较对称,因此判断该样本数据具有正态性。 3.2.6 正态性W 检验方法 > w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, + 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0) > shapiro.test(w) Shapiro-Wilk normality test data: w W = 0.9686, p-value = 0.8371 得出的 p值为0.8371 0.05 ,因此,认为学生体重服从正态分布。 3.2.7 Pearson拟合优度 2 检验 X<-scan() 75 64 47.4 66.9 62.2 62.2 58.7 63.5 66.6 64 57 69 56.9 50 72 A<-table(cut(X,br=c(0,45,55,65,75))) p<-pnorm(c(46,56,66,75),mean(X),sd(X)) p<-c(p[1],p[2]-p[1],p[3]-p[2],1-p[3]) chisq.test(A,p=p) Chi-squared test for given probabilities data: A X-squared = 0.5131, df = 3, p-value = 0.916 P值= 0.916 0.05 ,因此认为学生体重服从正态分布。 3.2.8 经验分布的Kolmogorov-Smirnov检验方法 > w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0) > ks.test(x,"pnorm",mean(x),sd(x)) One-sample Kolmogorov-Smirnov test data: x D = 0.0755, p-value = 0.999 alternative hypothesis: two-sided 14 其 P值= 0.999 0.05 ,无法拒绝原假设,因此认为学生体重服从正态分布。 3.2.9 符号检验 X<-scan() 75 64 47.4 66.9 62.2 62.2 58.7 63.5 66.6 64 57 69 56.9 50 72 binom.test(sum(X>mean(x)),length(X),al="l") Exact binomial test data: sum(X > mean(x)) and length(X) number of successes = 15, number of trials = 15, p-value = 1 alternative hypothesis: true probability of success is less than 0.5 95 percent confidence interval: 0 1 sample estimates: probability of success 1 计算出的 P值=1,应接受原假设,也就是说,学生体重服从正态总体分布。 同时,单侧区间估计的上界也为1,远大于0.05,所得的结论还是拒绝原假设。 3.2.10 Wilcoxon秩检验 >X<-scan() 75 64 47.4 66.9 62.2 62.2 58.7 63.5 66.6 64 57 69 56.9 50 72 >wilcox.test(X,mu=median(X),alternative="less",exact=FALSE,correct= FALSE,conf.int=TRUE) Wilcoxon signed rank test data: X V = 45, p-value = 0.3188 alternative hypothesis: true location is less than 63.5 95 percent confidence interval: -Inf 66.00002 sample estimates: (pseudo)median 62.65003 这里 45V  是Wilcoxon统计量, 0.3188 0.05P 值 ,接受原假设,即学生体 重数据总体服从正态分布。 4 方法比较分析 将判断一个样本总体是否来自正态分布的方法比较如下: 1.图示法相对于其他方法而言,比较直观,方法简单,从图中可以直接判断, 无需计算,但这种方法效率不是很高,它所提供的信息只是正态性检验的重要补 充。 2.经常使用的 2 拟合优度检验和 Kolmogorov-Smirnov 检验的检验功效较 15 低,在许多计算机软件的 Kolmogorov-Smirnov 检验无论是大小样本都用大样本 近似的公式,很不精准,一般使用 Shapiro-Wilk检验和 Lilliefor检验。 3. Kolmogorov-Smirnov检验只能检验是否一个样本来自于一个已知样本, 而 K-S检验法可以用样本参数来检验是否来自未知总体。 4. Shapiro-Wilk检验和 Lilliefor检验都是进行大小排序后得到的,所以 易受异常值的影响。 5. Shapiro-Wilk检验只适用于小样本场合(3 n 50),其他方法的检验功 效一般随样本容量的增大而增大。 6. 2 拟合优度检验和 Kolmogorov-Smirnov 检验都采用实际频数和期望频 数进行检验,前者既可用于连续总体,又可用于离散总体,而Kolmogorov-Smirnov 检验只适用于连续和定量数据。 7. 2 拟合优度检验的检验结果依赖于分组,而其他方法的检验结果与区间 划分无关。 8.假设检验的目的是拒绝原假设,当 p值不是很大时,应根据数据背景再作 讨论。 9.应用符号检验法和Wilcoxon检验法只是对样本中位数进行检验,并为对其 他的参数进行检验,因此具有一定的不准确性。 10.由于参数均未知,需运用原参数的地方均替换成了样本参数,检验结果 或许会有偏差,影响假设的稳定性及准确性。 5 总结 判断一个样本数据是否来自正态总体,根据正态分布的特点,从形状、参数 特点、假设检验等方面,可以从不同程度上加以判断。通过对正态分布的了解以 及R软件实现正态总体判断的应用,我们得到许多种判断方法并加以分析,掌握 了R软件的应用技巧以及相告函数的应用,获益匪浅。 参考文献: [1]薛毅、陈丽萍:《统计建模与R软件》2007 [2]茆诗松、周纪芗:《概率论与数理统计》2008 [3]吴喜之、赵博娟:《非参数统计》2009 [4]《资料的正态性检验汇总》2009
/
本文档为【20092392 陈思优】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索