绪论
随机抽样:保证总体中的每一个研究对象都有一个已知且相等并不为零的概率被选取作为
样本的抽样方法。
1统计工作的基本步骤
1设计:这是对整个统计工作的规划,具体规定做什么,怎么做,什么时候做,谁去做,预计可能需要什么资源以及可能取得的结果等。
2搜集资料,就是按照设计的规定,及时取得完整而准确的数据资料;
3整理资料,即按照设计指定的方式方法,审核校正资料,使资料系统化、条理化。4统计分析资料,即按照设计规定的方法,进行合理的归类
,计算相应的统计指标,进行适合的统计检验和综合理论分析。
2统计资料的类型和特点
计量资料通过度量衡的方法测得的研究对象的研究指标的值,它是有单位的,大多数计量资料是连续性资料,即可以有小数
计数资料先将研究对象按照某种特性分成不同的组/类,然后清点各组/类所包含研究对象的个数而得到的资料,可以说没有单位,属于间断性资料,不能有小数
等级资料介于计量资料和计数资料之间,尽管等级资料能部分反映量的变化,但不能具体说明每个研究对象的研究指标的数量值;虽然也是清点个数得到的,但能部分反映量的变化。
3总体与样本
总体是指根据研究目的而确定的研究对象的全体。更确切地说,总体是指同质的所有研究对象某项研究变量值的集合。因此,实际工作中,当有明确而具体的研究指标时,总体是指所有研究对象的该项研究指标值的集合;而没有明确而具体的研究指标时,总体则是所有研究对象的集合。样本是指从总体中抽取的部分研究对象。4误差
非抽样误差:1. 抽样框误差; 2. 无回答误差;3. 计量误差。
抽样误差:是指抽样研究时由于抽样而造成的研究结果与真实值之间的误差。抽
样研究时,由于只选择了部分研究对象进行研究,这部分研究对象所反映出来的研究结果肯定与全部研究对象的真实值之间会有误差,这是产生抽样误差的直接原因——抽样;但从根本上说,研究对象之间存在变异,部分和全部是不一样的,即产生抽样误差的根本原因是变异。正因为这直接原因和根本原因,只要是抽样研究,就存在抽样误差。抽样误差是不可避免的。
1. 改进抽样方法,使样本更具代
性;
2. 增加样本量,使样本量达到一定水平;
3. 选择变异程度小的指标作为研究指标。
5小概率事件
指在一次观察/研究中,只发生大概率事件,不发生小概率事件。或者说,在一次观察/研究中,小概率事件不发生。
计量资料的描述性研究
1频数表/频数图的绘制
绘制频数表时,应根据样本量的大小合理确定所分的组数,其原则是能正确反映数据分布规律。分的组数太多,不方便以后的应用;分的组数太少,不能正确反映数据的规律。因此,绘制频数表时,所分的组数既不能太多也不能太少。一般以分8~15组为宜。 2频数表/频数图的用途
(1)揭示资料的分布特征和分布类型,据此判断资料的对称性;(2)便于发现可疑值;
(3)便于进一步计算指标和统计分析处理。
3集中趋势
(1)算术均数,简称均数。适合于对称分布资料,尤其是正态分布资料;
(2)几何均数。适合于成倍变化的数据(数学上称等比级数),尤其是对数正态分布资料;
(3)中位数。适合于偏态分布资料、不规则分布资料或说分布不清楚资料和开放性资料。中位数的适用范围比较广泛,即使是对称分布的资料,中位数也会接近或等于算术均数/几何均数。(4)百分数。
4离散趋势
(1)极差
(2)四分位数间距 (3)方差(variance )方差越大,变异越大;反之亦然。
总体(或说理论)方差用符号σ2表示;
样本(或说估计)方差用符号s2表示。
优点:考虑了所有观察/测量值的变异,比较稳定。
缺点:量纲(即单位)发生了改变,有时无法解释。
(4)
差(无缺点)
(5)变异系数
1. 比较单位不同的多组资料的变异程度;
2. 比较均数相差悬殊的多组资料的变异程度。
5正态分布
位置参数——均数μ;形状参数——标准差σ
%100?=x
s CV ),(+∞<<∞-??=--x e x f x )2/()(2221)(σμπσ∑-?+=)%(L x
x f x n f i L P
总面积100%(1);
几个特殊数:
-∞~-2.58——0.5%
-∞~-1.96——2.5%
-∞~-1.645——5.0%
正态变换 标准正态分布
正态分布资料的表示方法:N(μ,σ2)
6正常值范围
通常把绝大多数(如90%、95%和99%)研究对象的某指标值范围称为该研究对象该指标的正常值范围。最常用的有95%正常值范围。
估计方法
正态分布法/百分位数
(1)太大太小都不正常; / P2.5-P97.5
(2)太大不正常,越小越好; /0-P95 (3)太小不正常,越大越好。 / P5-
用途:评判某观察对象某指标是否正常。
质量控制:在实验研究中,用来控制误差,保证数据质量。
7标准误(standard error )
概念:样本均数的标准差 计算:理论 样本 意义:说明样本均数的变异程度,反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大。与样本量的关系:S 一定,n 增大,标准误减小。也就是说,样本量越大,标准误越小
(1)概念不一样:标准差是方差的平方根,而标准误是样本均数的标准差。
(2)计算方法不一样。
(3)意义不一样:标准差反映个体测量值的变异程度,而标准误反映样本均数(群体测量值)的变异程度。
σ
μ-=x z ),(+∞<<∞-?=-z e z z 2/221)(π?s z x ?±-2/1αs
z x ?+-α1~0+∞?--~1s z x αn
x σσ=n s S x =
(4)用途不同:标准差用于估计正常值范围,而标准误用于估计总体参数和假设检验。
(5)特点不同:标准差还可以反映样本均数的代表性,而标准误还可以反映抽样误差的大小,衡量用样本均数估计总体参数的可靠性。
8 t 分布
概念:在作正态变换的过程中,如果用小样本的均数和标准差替代变换公式中的均数和标准差,得到的结果就不再是z 值,我们用t 值表示新的结果,该值的分布称为t 分布。 特点:与z 分布相比,t 分布曲线也是以0为中心、单峰、左右对称的曲线。但t 分布曲线中点处比标准正态曲线低,两侧尾部比正态曲线翘得高; 曲线形状与样本量(严格地说是自由度)有关。自由度越小,与正态曲线相差越大;自由度越大,越接近正态曲线。 是一组曲线。
计量资料的统计推断
1概念:由样本的信息来推论总体特征的过程,称为统计推断。
2
:参数估计(点估计,区间估计)和假设检验
3可信区间:利用样本均数,按一定的可信程度(置信度)估计得到的总体均数所在的范围。
估计方法:z 分布法
大样本100+ 理论标准差已知
小样本
可信区间vs 正常值范围:(1)概念不同;(2)估计方法不同:估计正常值范围用标准差,而估计可信区间用标准误;(3)意义不同:正常值范围说明正常情况下绝大多数该指标的测量值所在的范围,而可信区间是按一定置信度估计得到的总体均数所在的范围。
(4)用途不同:正常值范围用于评判某研究对象的该指标是否正常,而可信区间用于推论总体的参数。(5)特点不同:由于指标的性质不同,其正常值范围常有单双侧之分,而其总体均数可信区间绝大多数情况下都是双侧的。
4假设检验
目的意义:两个样本均数或者一个样本均数和一个总体均数不相同的原因。判断/区分均数不同是哪一个原因造成的。
前提条件:首先要满足统计推断的条件;其次要具有可比性,可比性是指除要研究/考察的因素外,其它可能影响结果的因素都相同或相近;此外要求均数具有良好的代表性和可靠性。
一般步骤:
1建立假设
x S z x ?±-2/1αx z x σα?±-2/1x v S t x ?±-,2/1α
检验假设,又称无效假设,用符号H 0表示。一般假设比较的样本来自相同的总体,或者说它们所代表的总体相同。
备择假设,用符号H 1表示。与检验假设相对立。单侧检验和双侧检验有些不同。 单侧或双侧检验的确定
2确定检验水准
又称显著性水平,用符号α表示,是区分大小概率事件的标准/界限,是我们人为选择而确定的。一般定为0.05或者0.01。
3选择检验方法,计算统计量
根据研究设计的类型、资料的特点/类型和比较研究的目的,选择检验方法。一旦确定了检验方法,计算什么样的统计量以及如何计算该统计量就可以确定。
4确定概率值P
这里的概率P 是指,如果比较的两个均数所代表的总体相同,那么在这个相同的总体中作随机抽样研究,得到均数差值至少是现在所观察到的这么大这一事件的概率。 5进行统计学判断,进而作出推断结论
? P>α,差别无统计学意义,或者说差别不显著
? P ≤α,差别有统计学意义,或者说差别显著
“差别”的含义
推断结论:所研究的总体有/无差别,是否相同。
5 z 检验
z 的绝对值越大,所对应的面积P 越小。
适用于大样本或理论标准差已知 两大样本均数比较
6 t 检验
自由度(υ)一定时,t 越大,p 越小;
概率(p )一定时,υ越大,t 越小。 小样本正态资料;两样本均数比较时,两总体方差齐(相同)
配对t 检验
配对设计将受试对象按一定条件配成对子,再分别给予每对中的两个受试对象以不同的处理。 已知)或者未知)(σσμσμ(00x x x z S x z -=-=22212121n s n s x x z +-=1
0-=-=n v S x t x
自由度μ
温馨推荐
您可前往百度文库小程序
享受更优阅读体验
不去了
立即体验
优点增加了处理组间的均衡性,提高了实验效率 形式
1两组受试者分别接受两种不同的处理; 2同一样品,用两种不同的方法测试;
3同一受试者,在不同时间接受同一种方法的处理和测试。
解决配对资料的比较,先要求出各对测量值的差值的均数和标准差。 从理论上讲,如果两组之间没有区别,那么差值的总体均数应该等于0。
因此,可以将配对资料的t 检验看成差值的样本均数与已知的总体均数0之间的比较。 n 是对子数
成组t 检验
小样本正态资料;方差齐。 先两样本的方差齐性检验 再计算统计量
7两类错误
I 类错误:拒绝了实际上成立的H 0 。最大允许概率为α——显著性水平,是人为确定的,一般为0.05或者0.01。
II 类错误:不拒绝实际上不成立的H 0概率为β,一般很难确定。
1-β称为检验效能或把握度(power of test),是指两总体确有差别,按α水准能发现它们有差别的能力。
两类错误 1不能同时发生;2样本量确定的情况下,α越大,β越小;3 α越小,β越大;4 α确定的情况下,增加样本量,可减少β。
发生原因:抽样及抽样误差;人为确定α的大小;小概率理论。
1
/0-==
-=
n v n
s d S d t d 1
,1)
(22112
2212221-=-=>=n v n v s s s s F 2)3()11()2(2])([])([)1(21212122122
22
21212122
121-+=-=+?=-+-+-=--∑∑∑∑n n v S
x x t v t n n s S n n n x x n x x s x x c x x c 和自由度求统计量准误求两样本均数的联合标求合并方差
方差分析
1基本思想:根据研究设计方法和分析的需要,将全部观察值之间的变异——总变异,按
设计和需要分解为两个或多个部分再作分析。
2适用条件:随机独立资料;服从正态分布;方差齐。
3完全随机设计的单因素方差分析
4区组设计的两因素方差分析
N X X X X SS k i n j ij k i n j ij i j ij i
i
∑∑
∑∑
∑∑====-=-=112
11
22)()(总
N X n X X X n SS k i n j ij k
i i n j ij i k i i i
i ∑∑∑∑∑=====-=-?=112
1122
1)()()(组间组间总组内
SS SS X X SS k i n j i ij i
-=-=∑∑
==11
2)(11-=-=-=k v k
N v N v 组间组内总组内
组内
组内组间组间组间v SS MS v SS MS =
=分布服从组内组间组内组间
),(v v F F MS MS F =因素无作用。
,差别无显著性,处理,那么如果因素有作用;
,差别有显著性,处理,那么如果αααα><≤≥p v v F F p v v F F )2
,1()2
,1(。
,
,
,
配伍处理总误差配伍
处理总SS SS SS SS k
n X X k X X k SS k n X X n X X n SS k n X X X X SS k i n
j ij n j k
i ij n
j j k i n
j ij k i n
j ij k i i k i n
j ij k i n
j ij k i n j ij --=?-
?=-?=?-?=-?=?-=-=∑∑∑∑∑∑∑
∑∑
∑
∑∑
∑∑
∑∑================11
2
1122
1
112
11212112
11
2
112)()(1)()()(1)()()(配伍
配伍
配伍处理处理处理误差配伍处理总误差配伍处理总v SS MS v SS MS v v v v n k v n v k v k n N v =
=++=-?-=-=-=-?=-=)1()1(1111
方差分析:对于配伍因素
对于处理因素
5多样本均数间的两两比较
多个样本均数间每两个均数之间的比较,常用q 检验,也称SNK 法。
式中 是误差或组内均方。其中α是检验水准,a 为比较的两组间包含的组数,v 为误
差或组内自由度。
最小显著差法,LSD
相对数
1常用指标:
构成比(proportion ):又称构成指标,表示事物或现象内部各组成部分的比重或分布。 (1)总和等于100%或1;(2)不能同时都增大或减小。一般要使结果保留两位小数。
率(rate ):又称频率指标,说明某现象发生的频率或强度。(1)分子是发生某现象的观察单位数,分母是可能发生该现象的观察单位总数。(2)观察单位。(3)比例基数K 。
误差
配伍
配伍MS MS F =
误差
处理
处理MS MS F =
)
112B A X X X X B A n n MS S S X X q B A B
A +?=-=--(误差α
α
αα><≤≥p q
q p q q v a v a ,,),(),(误差MS 误差
误差(
v v n n MS S S X X t B
A d
d
B
A A B
A B
=+=-=)1
1
相对比(ratio ):反映指标间的相对水平。甲/乙
2动态数列
按照一定的时间顺序,将一系列描述某事物的统计指标依次排列起来,以便观察和比较该事物在时间上的变化和发展趋势。这些统计指标可以是绝对数、相对数或平均数等。 动态数列分析是建立在相对比基础上的,采用定基比和环比两种方式。
常用的分析指标有:绝对增长量、发展速度与增长速度、平均发展速度和平均增长速度。
3应用相对数的注意事项
分母不能太小 比与率不能混用 合并率(总率)的计算 可比性
抽样误差——假设检验
4标准化法(合在一起算出人数,再比较)
条件:小组构成影响总率;小组构成各不相同;比较总率。 (1)标化率不能反映实际水平,只能用于比较;
(2)选用标准不同,标化率会改变,但比较结果只有一个,不能改变; (3)比较标化率,也要作显著性检验。
5率的标准误和区间估计
总体率的可信区间 标准误: 小样本时,可直接查相应的统计表而得到某阳性数时的可信区间。 样本量不太小,总体率既不太小,也不太大,接近0.5时,样本率近似正态分布。此时总体率的可信区间为
6率的检验
样本率与总体率比较
阳性数比较小时,可直接计算概率P ,进而完成检验。
满足近似正态条件时,可用z 检验。
10
0-
定基增长速度=定基发展速度=a a a a n
n 111环比增长速度=环比发展速度=--n n n n
a a a a n n
a a 0平均发展速度=
p
s z p ?±α
两样本率的比较
近似正态分布时,仍可用z 检验。
统计图表
统计表
种类:简单表:按一个研究特征/标志/标识分组
复合/组合表:按二个或二个以上研究特征/标志/标识分组 绘制原则:重点突出,简单明了;主谓分明,层次清楚 绘制要求:标题,标目,线条,数字,备注
统计图
直条图(bar graph ): 适用于相互独立的、无连续关系的间断性资料的比较。 种类:单式直条图和复式直条图 圆图和百分条图: 适用于构成比资料。
普通线图:用线段的上升和下降来表示某事物在时间上的发展变化或者某现象随另一现象变迁的情况。适用于连续性资料
半对数线图:横轴是算术尺度,纵轴为对数尺度。因纵轴是对数尺度,所以不能为0和负数。反映的是相对速度,特别适用于绝对值相差悬殊的资料间比较。
直方图: 常用于表示连续性资料的频数分布,故又称频数图。用矩形的面积表示频数分布数列中各组频数的多少,面积总和相当于各组频数的总和。
散点图:用点的密集程度和趋势表示两种现象间的关系。适用于双变量资料,且变量均为连续性变量。
直线回归与相关
1回归分析目的:发现并描述两变量之间的依存关系
2应用条件:自变量容易测定,容易控制;在各种自变量的情况下,应变量服从正态分
布。
3统计学意义:自变量x 每变化一个单位,应变量y 平均改变的单位数。
πσπ
-=p z c
c c c c p p p p p q n n p n p n p n n q p s s p p z -=+?+?=
+??=-=
--1)
1
1(2
12
2112
121212
1,
4直线回归方程建立
b 是回归系数(regression coefficient ):等于回归直线的斜率(slope ),其统计学意义是自变量x 每变化一个单位,应变量y 平均改变的单位数。
截距(a )和回归系数(b )的估计:最小二乘法(least square method )原理:保证各实测点至直线的纵向距离的平方和最小
5直线回归方程的假设检验
残差和剩余标准差
残差(residual )是应变量的实际观察值与估计值之间的差。
剩余标准差S y.x ,又称回归标准差,表示应变量的实际观察值对于回归直线的离散程度。
应变量总离均差平方和(又称总平方和):
回归系数假设检验
根据上述应变量总离均差的分解可知,回归系数(方程)的检验可用方差分析方法。
也可用t 检验 Sb 是回归系数的标准误
x
b a y ?+=∧
x
b y a l l x x y y x x b xx
xy ?-==--?-=∑∑2
)()()(n
y y y y l n x x x x l n
y
x y x y y x x l yy xx xy 2
2
2
2
22)()()()()()(∑∑∑∑∑∑∑∑∑∑-
=-=-
=-=?-
?=-?-=2)(2--=
∑
∧
?n y y s x y ∑
=-=yy l y y SS 2)(总
xx xy xy l l l b y y SS 22)()(=?=-=∑
∧回∑
∧
-=2)y y SS (剩
2
11-==-=n v
v n v 剩回总
剩剩回回
剩回v SS v SS MS MS F ==2
0-==-=n v
s b s b t b
b xx
x
y x y b
l s x x s s ??=-=∑
2
)(
6直线回归方程的应用
预测(forecast )
条件均值及其可信区间:当已知自变量的某一个取值时,将该取值代入回归方程中,便可求得对应的应变量估计值。该估计值是对给定自变量条件下的平均值的估计,是条件均值。 要得到条件均值的可信区间,首先要计算该估计值的标准误。
个体应变量值的容许区间
个体应变量值的标准误为
控制:利用回归方程进行逆运算
7应用直线回归应注意的问题
回归分析要有实际意义; 应先绘制散点图,作初步判断; 在自变量的变化范围内进行预测; 自变量和应变量必须明确,不能混用。
直线相关
1直线相关的概念:双正态变量之间的直线相关关系
2相关的几种情形:散点图 正相关;负相关;零相关(或称不相关)
3相关程度:用直线相关系数客观地反映。相关系数的特点:没单位;在-1~1之间。 4直线相关分析的步骤:绘制散点图,初步判断是否有可能存在直线相关关系;计算样
本相关系数;对样本相关系数进行检验。
5注意的事项:相关分析要有意义;结论只能局限在所测数据的范围内,不能任意外延;
相关关系不是因果关系。
6等级相关:
适用的情形:非双正态资料;资料分布型未知;原始数据为等级资料。 等级相关系数,和查表rs α(n )比,得P 和α比
∑
--+?=?∧22
0)()(1x x x x n s s x y y ∧?±-∧y
n s
t y )2(,2/α∑
--++?=?22
0)()(11x x x x n s s x
y y y
n s t y ?±-∧
)2(,2/αn
n d r s -?-
=∑32
61
非参数统计
概念:对所统计分析的资料没有具体的要求,甚至不知道具体统计分析的是什么参数,那样的统计分析方法称为非参数统计。
优缺点:检验条件比较宽松,适应性强;方法比较灵活,用途广泛;计算相对简单,易于理解。缺乏针对性,功效不如参数检验的高;对信息的利用不够充分。 应用条件:1待分析数据不满足参数检验所要求的假定;2仅由一些等级构成的数据;3所
提的问题中并不包含参数;4当我们需要迅速得出结果时。
χ2检验
1基本思想:比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。其根本思想就是
在于比较理论频数和实际频数的吻合程度或拟合优度问题。
(1)成组(四格表)资料的χ2检验 n>40,T>5时
n>40,1