20092392 陈思优下载_在线阅读_15

输入关键词搜索资料

首页 > 高等教育 > 经济学

is_505592

暂无简介

20092392 陈思优 1 收集判断一个样本是否来自正态总体的方法学院：数学与统计学院专业： 09 级统计 01 班科目：统计建模与 R 软件指导老师：张应应学号： 20092392 姓名：陈思优摘要：本文通过收集一些 R...

1 收集判断一个样本是否来自正态总体的

方法

快递客服问题件处理详细方法山木方法pdf 计算方法pdf 华与华方法下载八字理论方法下载

学院：数学与统计学院专业： 09 级统计 01 班科目：统计建模与 R 软件指导老师：张应应学号： 20092392 姓名：陈思优摘要：本文通过收集一些 R 软件的实际应用方法，来判断一个样本是否来自正态总体。整理并分析了包括图示法、非参数检验法等判断方法。分别从样本数据分布形态、对称性、分布的集中和分散程度、假设检验等方面判断该样本数据是当否具有正态性，并举例实际应用所收集方法进行判断，并将所收集方法进行比较分析。关键词：样本、正态性、图示法、非参数检验 2012 年 5 月 15 日 2 目录 1. 绪论……………………………………………………………………………3 1.1 正态分布…………………………………………………………………3 1.2 正态分布检验……………………………………………………………3 2. 判断方法收集……………………………………………………………… 3 2.1 图示法……………………………………………………………………3 2.1.1 直方图………………………………………………………………3 2.1.2 经验分布图…………………………………………………………3 2.1.3 QQ图…………………………………………………………………4 2.1.4 箱线图………………………………………………………………4 2.1.5 茎叶图………………………………………………………………4 2.2 非参数检验法……………………………………………………………4 2.2.1 正态性W 检验方法…………………………………………………4 2.2.2 Pearson拟合优度 2 检验…………………………………………4 2.2.3 经验分布的 Kolmogorov-Smirnov检验方法………………………5 2.2.4 符号检验……………………………………………………………5 2.2.5 Wilcoxon秩检验……………………………………………………5 3. 实例应用………………………………………………………………………6 3.1 例一………………………………………………………………………6 3.2 例二………………………………………………………………………6 4. 方法的比较分析……………………………………………………………14 5. 总结…………………………………………………………………………15 参考文献…………………………………………………………………………15 3 1 绪论 1.1 正态分布正态分布又称高斯分布，是一种最重要的连续型分布。该分布由两个参数 ——平均值和方差决定。概率密度函数曲线以均值为对称中线，方差越小，分布越集中在均值附近。正态分布的特征：服从正态分布的变量的频数分布由  、 完全决定：集中性：正态曲线的高峰位于正中央，即均数所在的位置。对称性：正态曲线以均数为中心，左右对称，曲线两端永远不与横轴相交。均匀变动性：正态曲线由均数所在处开始，分别向左右两侧逐渐均匀下降。正态分布有两个参数，即均数 μ 和标准差 σ，可记作 N（  ， ）：均数  决定正态曲线的中心位置；标准差 决定正态曲线的陡峭或扁平程度。 越小，曲线越陡峭； 越大，曲线越扁平。 1.2 正态分布检验正态分布是许多检验的基础，比如 F检验，t 检验，卡方检验等在总体不是正态分布是没有任何意义。因此，对一个样本是否来自正态总体的检验是至关重要的。当然，我们无法证明某个数据的确来自正态总体，但如果使用效率高的检验还无法否认总体是正态的检验，我们就没有理由否认那些和正态分布有关的检验有意义。通过这个思想，可以得到以下一些判断一个样本是否来自正态总体的方法，并举例进行检验。 2 判断方法收集通过对正态总体特征的解析，可将判断方法归为一下两类，分别是：图示法和非参数检验法。 2.1 图示法我们可以通过直方图、QQ 图和经验分布图等大概描述样本数据是否服从正态分布。 2.1.1 直方图将数据取值的范围分成若干区间，在等间隔的情况下，通过在每个区间上画一个矩形，来考察数据落入每一区间的频数与频率。判断方法：是否以钟形分布，同时可以选择输出正态性曲线。 2.1.2 经验分布图以样本的累计频率作为横坐标，以按照正态分布计算的相应累计概率作为纵坐标，以样本值

表

关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf 视力表打印pdf 用图表说话 pdf

现为直角坐标系的散点。如果数据服从正态分布，则样本点应 4 围绕第一象限的对角线分布。 2.1.3 QQ 图以样本的分位数作为横坐标，以按照正态分布计算的相应分位点作为纵坐标，把样本表现为直角坐标系的散点。如果数据服从正太分布，则样本点应围绕第一象限的对角线分布。 2.1.4 箱线图判断方法：观察矩形位置和中位数,若矩形位于中间位置且中位数位于矩形的中间位置，则分布较为对称，否则是偏态分布。 2.1.5 茎叶图判断方法：观察图形的分布状态,是否是对称分布。 2.2 非参数检验法在许多实际问

题

快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题

中，人们往往对总体的分布知之甚少，很难对总体的分布形式作出正确的假定，最多只能对总体的分布作出诸如连续型分布、关于某点对称分布等一般性的假定，通过针对分布的类型来进行假设检验。 2.2.1 正态性W 检验方法检验统计量：           2 1 2 2 1 1 n i i i n n i i i i a a X X W a a X X                 当原假设为真时，W 的值应接近于 1，若值过小，则怀疑原假设，从而拒绝域为：  R W c  在给定的 水平下：  P W c   2.2.2 Pearson 拟合优度 2 检验检验统计量为： 2 2 2 1 1 ( ) ( ) k k i i i i i ii i f f npn p p n np         1)k   2 2 2 1 1 ˆ( ) ˆ( ) ˆ ˆ k k i i i i i ii i f f npn p p n np         1)k r    r是被估参数的个数若原假设为真时， 2 应较小，否则就怀疑原假设，从而拒绝域为 5 2{ }R d  ，对于给定的 有： 2{ }P d   ，又 2 2ˆ{ }p P    2.2.3 经验分布的 Kolmogorov-Smirnov 检验方法统计量是计算 ( )nF x 与 0 ( )F x 的距离D ,即：    0max | |nD F x F x   nF x 表示一组随机样本的累计概率函数，  0F x 表示分布的分布函数。当原假设为真时，D的值应较小，p值应大于0.05，若反之，则怀疑原假设，从而，拒绝域为  R D d  对于给定的 有：  p P D d    ，又 ˆ{ }n np P D D  而对于一个参数未知的样本数据，要检验其是否具有正态性，可以根据样本均值 ˆ X  ，样本方差 2 2ˆ S  可计算得检验统计量 ˆ nD 的值。 2.3.4 符号检验假设某个总体的中位数为 0M ，如果样本中位数 0M M ，我们就接受样本是来自某个总体的假设。首先，从每个样本观察值中减去总体中位数 0M ，得出的正、负差额用正 ( ) 、负 ( ) 号加以表示。如果总体中位数等于样本中位数，即 0M M ，那么，样本观察值在中位数上、下的数目应各占一半，因而出现正号或负号的概率应各占1 2。设样本容量为 n，就可以用二项分布 ( ,1 2)B n 来计算出现负号（或正号）个数的概率，从而根据一定的显著性水平 ，作出是否接受原假设 0H ： 0M M 的判定。 2.3.5 Wilcoxon 秩检验如果原观察值的数目为 'n ，减去差额为 0的观察数据后，其样本数为n。用 ( ) iR  表示正秩次，W 表示正秩次的和，则 Wilcoxon 统计量为： ( ) 1 n i i W R    6 因为 n个整数1, 2, ,n 的总和用 ( 1) 2 n n  计算，而正秩次总和可以在区间 ( 1) 0, 2 n n      内变动，如果观察值来自中位数为 0M 的某个总体的假设为真，那么 Wilcoxon 检验统计量的取值将是秩次和的平均数，即 ( 1) 4 W n n    的左右变动。如果该假设不成立，则W 的取值将向秩次和两头的数值靠近。这样，在一定的显著水平下便可进行秩次和检验。 3 实例应用 3.1 例 1 某班有 31名学生，某门课的考试成绩如下： 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 分别运用以上方法来判断该样本是否来自正态总体。 3.1.1 直方图 Histogram of x x D e n si ty 20 40 60 80 100 0 .0 0 0 .0 1 0 .0 2 0 .0 3 0 .0 4 图3.1 学生成绩的直方图根据学生成绩的直方图可以看出，学生成绩不满足正态分布的特性，在等间隔的情况下，成绩在80 ~ 90分之间的较多，而且整个直方分布图并不满足对称性。因此，初步判断，学生成绩并不来自正态总体。 3.1.2 经验分布图 7 20 40 60 80 100 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 ecdf(x) x F n (x ) 图3.2 学生成绩的经验分布图从样本数据经验分布图与正态分布曲线来看，二者并不吻合，有明显的区别，在80 ~ 90分这一区间，经验分布更加陡峭，而正态分布曲线却是在整个区间内都相对比较平滑的，因此，判断改成绩分布并不具有正态性。 3.1.3 QQ图 -2 -1 0 1 2 4 0 6 0 8 0 1 0 0 Normal Q-Q Plot Theoretical Quantiles S a m p le Q u a n ti le s 图3.3 学生成绩的QQ图由QQ图的判定特征可知，若样本数据近似于正态分布，则在QQ图上这些 8 点近似地分布在直线 y x   附近。而由学生成绩的QQ图看来，学生成绩的分布并没有近似地分布在该直线附近，有一定的差距，吻合度不够好。因此，判断该样本数据并不近似接近于正态总体。 3.1.4 箱线图 4 0 6 0 8 0 1 0 0 图3.4 学生成绩的箱线图由箱线图可以更直观简洁地分析数据的特征，该样本中位数在85左右，而整个数据在 44 ~100之间，而25分作为异常值出现在图像的最下方且整个数据分布并不关于中位数对称，呈偏态分布，因此判断学生成绩不具有正态性。 3.1.5 茎叶图 The decimal point is 1 digit(s) to the right of the | 2 | 5 3 | 4 | 5 5 | 045 6 | 148 7 | 25589 8 | 1344456667999 9 | 0112 10 | 0 与直方图比较，营业图更能细致地看出数据分布的结构，十位为8的数据较多，而其他的则相对较少，80分以前的数据随分数增长而增多，90分以后的数据随分数增长而减少，但数据分布不对称，因此由数据结构可判断该样本数据并 9 非具有正态性。 3.1.6 正态性W 检验方法 > w<-c(25, 45, 50, 54, 55, 61, 64, 68, 72, 75, 75, + 78, 79, 81, 83, 84, 84, 84, 85, 86, 86, 86, + 87, 89, 89, 89, 90, 91, 91, 92, 100) > shapiro.test(w) Shapiro-Wilk normality test data: w W = 0.8633, p-value = 0.0009852 得出的 p值为0.0009852<0.05,因此，认为该门课程的成绩不服从正态分布。 3.1.7 Pearson拟合优度 2 检验 > X<-scan() 1: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 32: Read 31 items > A<-table(cut(X,br=c(0,69,79,89,100))) > p<-pnorm(c(70,80,90,100),mean(X),sd(X)) > p<-c(p[1],p[2]-p[1],p[3]-p[2],1-p[3]) > chisq.test(A,p=p) Chi-squared test for given probabilities data: A X-squared = 8.334, df = 3, p-value = 0.03959 P值=0.03959<0.05,因此认为该门课程的成绩不服从正态分布。 3.1.8 经验分布的Kolmogorov-Smirnov检验方法由于该样本总体的参数并不知道，因此可用样本均值和样本方差代替参数来建立假设检验。 >x<-c(25,45,50,54,55,61,64,68,72,75,75,78,79,81,83,84,84,84,85,86,86,86,87,89,8 9,89,90,91,91,92,100) > ks.test(x,"pnorm",mean(x),sd(x)) One-sample Kolmogorov-Smirnov test data: x D = 0.1952, p-value = 0.1883 alternative hypothesis: two-sided 其 P值大于0.05，无法拒绝原假设，因此认为学生成绩的样本来自正态分布总体。 3.1.9 符号检验同样地，该样本总体的参数并不知道，因此可用样本中位数代替参数来建立 10 假设检验。 X<-scan() 1: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 binom.test(sum(X>mean(x)),length(X),al="l") Exact binomial test data: sum(X > mean(x)) and length(X) number of successes = 20, number of trials = 31, p-value = 0.9646 alternative hypothesis: true probability of success is less than 0.5 95 percent confidence interval: 0.0000000 0.7866395 sample estimates: probability of success 0.6451613 计算出的值大于0.05，应接受原假设，即认为，学生成绩是来自正态总体的。注意，单侧区间估计的上界为0.7866，高于0.5，所得的结论还是接受原假设。 3.1.10 Wilcoxon秩检验 > X<-scan() 1: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 32: Read 31 items >wilcox.test(X,mu=median(X),alternative="less",exact=FALSE,correct= FALSE,conf.int=TRUE) Wilcoxon signed rank test data: X V = 126.5, p-value = 0.04065 alternative hypothesis: true location is less than 84 95 percent confidence interval: -Inf 83.50002 sample estimates: (pseudo)median 78.28927 这里 126.5V  是Wilcoxon统计量， P值0.04065 0.05 ，拒绝原假设，即学生成绩不来自正态分布总体。 3.2 例2 已知15位学生的体重（单位： kg）如下： 75.0 64.0 47.4 66.9 62.2 62.2 58.7 63.5 66.6 64.0 57.0 69.0 56.9 50.0 72.0 求学生体重是否来自正态总体。 11 3.2.1 直方图 Histogram of w w D e n s it y 45 50 55 60 65 70 75 0 .0 0 0 .0 2 0 .0 4 0 .0 6 图3.５学生体重的直方图从学生体重的直方图大致可以看出，数据分布基本符号正态总体的特征，关于均值对称，中间高，两边依次递减，因此初步判断学生体重来自正态总体。 3.2.2 经验分布图 45 50 55 60 65 70 75 0 .0 0 .2 0 .4 0 .6 0 .8 1 .0 ecdf(w) x F n (x ) 图3.６学生体重的经验分布图从学生体重的经验分布图可以看出，其样本数据的经验分布图基本与正态分布曲线重合，因此判断该样本数据来自正态总体。 12 3.2.3 QQ图 -1 0 1 5 0 5 5 6 0 6 5 7 0 7 5 Normal Q-Q Plot Theoretical Quantiles S a m p le Q u a n til e s 图3.７学生体重的ＱＱ图从学生体重的QQ图上这些点近似地分布在直线 y x   附近，因此判断该样本数据近似于正态分布。 3.2.4 箱线图 5 0 5 5 6 0 6 5 7 0 7 5 图3.８学生体重的箱线图 13 从学生体重的箱线图可以直观地分析样本数据，中位线基本为与均值附近，且上下延伸距离差不多相等，近乎对称，因此判断该样本总体具有正态性。 3.2.5 茎叶图 The decimal point is 1 digit(s) to the right of the | 4 | 7 5 | 0779 6 | 22444779 7 | 25 从学生体重的茎叶图更能细致地看出数据分布的结构，十位数字为６的数据最多，其前后的数据则相对于其较对称，因此判断该样本数据具有正态性。 3.2.6 正态性W 检验方法 > w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, + 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0) > shapiro.test(w) Shapiro-Wilk normality test data: w W = 0.9686, p-value = 0.8371 得出的 p值为0.8371 0.05 ，因此，认为学生体重服从正态分布。 3.2.7 Pearson拟合优度 2 检验 X<-scan() 75 64 47.4 66.9 62.2 62.2 58.7 63.5 66.6 64 57 69 56.9 50 72 A<-table(cut(X,br=c(0,45,55,65,75))) p<-pnorm(c(46,56,66,75),mean(X),sd(X)) p<-c(p[1],p[2]-p[1],p[3]-p[2],1-p[3]) chisq.test(A,p=p) Chi-squared test for given probabilities data: A X-squared = 0.5131, df = 3, p-value = 0.916 P值= 0.916 0.05 ，因此认为学生体重服从正态分布。 3.2.8 经验分布的Kolmogorov-Smirnov检验方法 > w <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0) > ks.test(x,"pnorm",mean(x),sd(x)) One-sample Kolmogorov-Smirnov test data: x D = 0.0755, p-value = 0.999 alternative hypothesis: two-sided 14 其 P值= 0.999 0.05 ，无法拒绝原假设，因此认为学生体重服从正态分布。 3.2.9 符号检验 X<-scan() 75 64 47.4 66.9 62.2 62.2 58.7 63.5 66.6 64 57 69 56.9 50 72 binom.test(sum(X>mean(x)),length(X),al="l") Exact binomial test data: sum(X > mean(x)) and length(X) number of successes = 15, number of trials = 15, p-value = 1 alternative hypothesis: true probability of success is less than 0.5 95 percent confidence interval: 0 1 sample estimates: probability of success 1 计算出的 P值=1，应接受原假设，也就是说，学生体重服从正态总体分布。同时，单侧区间估计的上界也为1，远大于0.05，所得的结论还是拒绝原假设。 3.2.10 Wilcoxon秩检验 >X<-scan() 75 64 47.4 66.9 62.2 62.2 58.7 63.5 66.6 64 57 69 56.9 50 72 >wilcox.test(X,mu=median(X),alternative="less",exact=FALSE,correct= FALSE,conf.int=TRUE) Wilcoxon signed rank test data: X V = 45, p-value = 0.3188 alternative hypothesis: true location is less than 63.5 95 percent confidence interval: -Inf 66.00002 sample estimates: (pseudo)median 62.65003 这里 45V  是Wilcoxon统计量， 0.3188 0.05P 值，接受原假设，即学生体重数据总体服从正态分布。 4 方法比较分析将判断一个样本总体是否来自正态分布的方法比较如下： 1.图示法相对于其他方法而言，比较直观，方法简单，从图中可以直接判断，无需计算，但这种方法效率不是很高，它所提供的信息只是正态性检验的重要补充。 2.经常使用的 2 拟合优度检验和 Kolmogorov-Smirnov 检验的检验功效较 15 低，在许多计算机软件的 Kolmogorov-Smirnov 检验无论是大小样本都用大样本近似的公式，很不精准，一般使用 Shapiro-Wilk检验和 Lilliefor检验。 3. Kolmogorov-Smirnov检验只能检验是否一个样本来自于一个已知样本，而 K-S检验法可以用样本参数来检验是否来自未知总体。 4. Shapiro-Wilk检验和 Lilliefor检验都是进行大小排序后得到的，所以易受异常值的影响。 5. Shapiro-Wilk检验只适用于小样本场合（3 n 50）,其他方法的检验功效一般随样本容量的增大而增大。 6. 2 拟合优度检验和 Kolmogorov-Smirnov 检验都采用实际频数和期望频数进行检验，前者既可用于连续总体，又可用于离散总体，而Kolmogorov-Smirnov 检验只适用于连续和定量数据。 7． 2 拟合优度检验的检验结果依赖于分组，而其他方法的检验结果与区间划分无关。 8.假设检验的目的是拒绝原假设，当 p值不是很大时，应根据数据背景再作讨论。 9.应用符号检验法和Wilcoxon检验法只是对样本中位数进行检验，并为对其他的参数进行检验，因此具有一定的不准确性。 10.由于参数均未知，需运用原参数的地方均替换成了样本参数，检验结果或许会有偏差，影响假设的稳定性及准确性。 5 总结判断一个样本数据是否来自正态总体，根据正态分布的特点，从形状、参数特点、假设检验等方面，可以从不同程度上加以判断。通过对正态分布的了解以及R软件实现正态总体判断的应用，我们得到许多种判断方法并加以分析，掌握了R软件的应用技巧以及相告函数的应用，获益匪浅。参考文献: [1]薛毅、陈丽萍：《统计建模与R软件》2007 [2]茆诗松、周纪芗:《概率论与数理统计》2008 [3]吴喜之、赵博娟:《非参数统计》2009 [4]《资料的正态性检验汇总》2009

本文档为【20092392 陈思优】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

20092392 陈思优

热门搜索

历史搜索