广州中医药大学统计学复习下载_Word模板_22

is_738794

暂无简介

广州中医药大学统计学复习- 第一章绪论统计学是一门处理数据中变异性的科学和艺术内容包括收集分析解释和表达数据目的是求的可靠的结果 Laplace 认为医疗是概率论应用的一个重要领域 Louis 评价了当时流行的放血疗法 Carl Pearson 是现代统计学之父他将这门学科从描述性统计学改变为推断性统计学 Major Greenwood 最早的医学统计学家(既懂医学又懂统计) 减弱误差的三项原则重复随机化对照实验设计三要素受试对象处理因素实验效应实验设计三原则对照原则重复原则随机化原则 Hill...

- 第一章绪论统计学是一门处理数据中变异性的科学和艺术内容包括收集分析解释和表达数据目的是求的可靠的结果 Laplace 认为医疗是概率论应用的一个重要领域 Louis 评价了当时流行的放血疗法 Carl Pearson 是现代统计学之父他将这门学科从描述性统计学改变为推断性统计学 Major Greenwood 最早的医学统计学家(既懂医学又懂统计) 减弱误差的三项原则重复随机化对照实验设计三要素受试对象处理因素实验效应实验设计三原则对照原则重复原则随机化原则 Hill爵士现代临床试验的主要推动者第一项具有适当随机化对照组的临床试验利用链霉素治疗肺结核医学统计学基本步骤 1研究设计(实验性研究或描述性研究) 2收集资料 3整理资料 4分析资料(统计描述:统计表/图统计推断:参数估计假设检验) 总体是根据研究目的确定的同质观察单位的全体抽样从研究总体中抽取少量有代表性的个体统计学的任务就是在变异的背景上描述同一总体的同质性揭示不同总体的异质性变量的类型定量变量(离散型变量连续型变量) 定性变量(分类变量有序变量) 变量可以转换但只能由高级向低级转换:定量?有序?分类?二值参数是总体的统计指标往往是未知的统计量是样本的统计指标由样本统计量估算总体参数称为参数估计第二章定量资料的统计描述离散型定量变量的频率分布组距=极差/组段数(一般取整) N<100时 8-10组 N>100时 10-15组如6- 8- 10- 12- 14- 16- 18-20 频率分布表(图)的用途 1 揭示资料的分布类型 2 描述分布的集中趋势和离散趋势 3 便于发现某些特大或特小的可疑值 4 便于进一步计算指标和统计分析描述集中趋势的统计指标平均数用于描述一组同质观察值的集中趋势反映一组观察值的平均水平有三种 1 算数均数适用于对称分布资料(特别是正态分布或近似正态分布) 总体均数μ 样本均数X拔 2 几何均数G 适用于原始观察资料不对称但经对数转换后呈对称分布的资料 3 中位数M 指将原始观察值从小到大或从大到小排序后位次居中的那个数(排除前两种才能用特别适合偏锋分布资料对分布末端无确定值的资料亦可使用) 描述离散趋势的统计指标 1 极差(Range)R 2 四分位数间距(Quartile range)Q=P-P即上四分位数—下四分位数 7525 可用于各种分布的资料特别对偏锋分布资料常把中位数与四分位数间距结合起来描述 3 方差考虑到了每个观察值的离散程度离均差平方和/N - - 22总体方差用Var(X)或σ表示样本方差用S表示自由度是统计学中的常用术语 v=n-1 意义是当X拔给定时随机变量X能自由取值的个数推而广之任何统计量的自由度v=n-限制条件的个数 4 标准差单位与原变量单位一致方差和标准差都适用于对称分布资料常把均数和标准差结合起来 5 变异系数主要用于量纲不同的变量间或均数差别较大的变量间变异程度的比较(是对标准差的补充) CV=S/X拔*100% 变异系数无单位消除了量纲的影响第三章定性资料的统计描述定性资料的基础数据是绝对数描述一组定性资料的数据特征常要计算相对数其性质由分子和分母决定三类相对数 1 频率分两种一:多分类变量频率—百分比二:二分类变量频率—频率 2 强度型指标是指单位时间内某现象发生的频率(本质为频率强度) 3 相对比型指标是指两个有关联的指标A与B之比应用相对数时注意事项 1 理解相对数的含义不可望文生义 2 频率型指标的解释要紧扣总体和属性 3 计算相对数时分母应有足够数量如果样本例数较少会使相对数波动较大 4 正确计算合计率 5 注意资料的可比性 6 样本相对数的统计推断粗率的标准化法考概念如果两组个体的年龄性别工龄病情等因素在构成上存在差异则粗死亡率粗发病率等不能直接进行比较为消除两组个体其他因素构成不同的影响需要首先对两组数据进行标准化处理标准化的关键是选择一个“标准” 在这个共同平台上比较两组资料如何选择标准 1 选定两组之一将其作为标准 2 两组合并作为标准 3 在两组之外再选一个群体应用标准化法的注意事项 1 标准化法的应用范围很广 2 标准化后的标准化率已不能反映当时当地的实际水平它只是表示相互比较的资料间的相对水平 3 标准化法的实质是找一个“标准” 使两组得以在一个共同的平台上进行比较 4 两样本标准化率是样本值存在抽样误差第四章统计表与统计图统计表的结构标题标目(横标目纵标目)线条数字备注(必要时才有) 5部分组成 1 标题位于统计表上方中央表达主要内容 2 标目用以说明

表格

关于规范使用各类表格的通知入职表格免费下载关于主播时间做一个表格详细英语字母大小写表格下载简历表格模板下载

内的项目注意标目有单位要注明纵标目(谓语) 说明各纵栏数字的含义横标目位于表的左侧用来说明右边各横行数字的主语总标目必要时可在横标目和纵标目上冠以纵标目 3 线条不宜过多常常仅包括三条基本线顶线底线纵标目分隔线故统计表又称三线表表格中若有合计常用横线隔开统计表的左右两侧不应有边线左上角不宜有斜线表内不应有竖线 4 数字阿拉伯数字表示表内不留空格数字暂缺或未

记录

混凝土养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载

用„„表示无数字用—表示 5 备注不属于统计表固有部分若需对某个数字或指标加以说明在右上角用*标注并在统- - 计表下方用文字加以说明统计图常用的有条图百分条图圆图线图散点图直方图等绘制统计图基本要求 1 各根据资料的性质和分析目的选择最适合的图形 2 要有标题位于图下方中央 3 条图和直方图纵坐标从0开始要标明0点位置纵横坐标长度比例一般为5:7 条图条图用等宽直条的长短表示相互独立的各项指标数量的大小适用于按性质分组的不连续性资料构成图有百分条图和圆图两种适用于定性资料以面积大小表示各部分构成比大小线图是用线段的升降表示统计指标的变化趋势适用于连续型变量半对数线图用于表示事物的发展速度(相对比) 横轴为算数尺度竖轴为对数尺度在比较几组数据的变化速度时特别是两组数据相差悬殊时选此直方图用于表示连续型变量的频数或频率分布常用横轴表示被观察对象纵轴表示频数或频率有时为了考察变量的频率分布特征横轴表示被观察变量的分组纵轴为频率密度即频率/组距于是每个直条的面积就是相应组段的频率此类型直方图又称为频率密度直方图第五章常用概率分布离散型变量二项分布(率的分布呈二项分布) 连续型变量正态分布医学研究中很多现象观察结果是以两分类变量来表示的如阳性阴性治愈未愈如果每个观察对象阳性结果的发生概率均为π 阴性结果发生概率均为(1—π)而且每个观察对象的结果是相互独立的那么重复观察N个人发生阳性结果的人数X的概率分布为二项分布记作B(n，π) P(X)= 二项分布的特征由π和观察次数n决定二项分布的高峰在μ=nπ处或附近 π=0.5时图形对称 π离0.5越远对称性愈差对同一π 随着n增大分布趋于对称当n?? 只要π不太靠近0或1(特别是当nπ和n(1—π)均大于5时)二项分布趋于对称近似于正态分布事实上对于任何二项分布问题如果每一次实验出现阳性结果的概率均为π 进行n次独立 2重复试验出现X次阳性结果那么可以证明 X的总体均数为μ=nπ 方差σ=nπ(1-π) 正态分布一般来说若影响某一数量指标的随机因素很多而每个因素所起的作用均不太大那么这个指标服从正态分布如实验中的随机误差正态曲线是一条高峰位于中央两侧逐渐下降并完全对称曲线两端永远不与横轴相交的钟形曲线其函数表达式f(x)= 其中μ为总体均数(位置参数) σ为总体标准差(形状参数) 正态概率密度曲线的位置和形状具以下特点 1 关于x=μ对称 2 在x=μ处取得该概率密度函数的最大值在μ+-σ处有拐点 3 曲线下面积为1 4 μ决定曲线在横轴上的位置 μ增大往右移 5 σ决定曲线的形状σ越大数据越分散(矮胖) 越小越瘦高 22习惯上用N(μ，σ)表示均数为μ 标准差为σ的正态分布服从于N(μ，σ)的x即为正态变量正态概率密度曲线下的面积 (μ- σ，μ+σ)区间内面积为总面积的68.27% (μ-2σ，μ+2σ)区间内面积为总面积的95.44% - - (μ-3σ，μ+3σ)区间内面积为总面积的99.74% 2对任意一个服从正态分布N(μ，σ)的随机变量可作如下标准化变换即Z变换 Z=(x-μ)/σ 变换后Z值仍服从正态分布且其总体均数为0 总体标准差为1 我们称此正态分布为标准正态分布 N(0,1) 注意 x取值在区间(μ- 1.96σ，μ+1.96σ)内的概率为0.95 x取值在区间(μ- 2.58σ，μ+2.58σ)上的概率为0.99 这两个数要记住正态分布的应用确定医学参考值范围人们习惯用该人群95%的个体某项医学指标的取值范围作为该指标的医学参考值范围确定医学参考值范围的两种方法 1 百分位数法双侧95%医学参考值范围是(P，P)单侧范围是P以下(人体有害物2.597.595质如血铅发汞)或P以上(肺活量) 此方法适合于任何分布类型资料 5 2 正态分布法因为正态分布变量x在区间(μ- 1.96σ，μ+1.96σ)内的概率为0.95 所以正态分布资料双侧医学参考值范围一般近似估计为 X拔-+1.96S 第六章参数估计基础统计学中通过抽样来估计总体参数称为参数估计抽样误差由于生物固有的个体变异的存在从某一总体中随机抽取一个样本所得的样本统计量与相应的总体参数往往是不同的这种差异称为抽样误差样本均数的抽样分布和抽样误差样本均数的抽样分布具有以下特点 1样本均数恰好等于总体均数是极其罕见的 2 样本均数之间存在差异 3 样本均数围绕总体均数中间多两边少左右基本对称呈正态分布 4 样本均数之间的变异(标准误)明显小于原始变量值之间的变异样本均数的标准差通常称为均数的标准误(SE或SEM)可反映均数抽样误差的大小 2若随机变量的均数为μ 方差为σ 则样本均数的均数仍为μ 均数的标准误实际应用中总体标准差常位置需要用样本标准差来估计此时均属标准误估计值为数理统计理论表明对任意分布在样本含量足够大时其样本均属的分布近似于正态分布且样本均数的均数等于原分布的均数均数的标准误由上三行的

公式

小学单位换算公式大全免费下载公式下载行测公式大全下载 excel公式下载逻辑回归公式下载

计算样本频率的抽样分布与抽样误差样本频率的抽样分布与样本均数的抽样分布类似频率的标准误越小则用样本频率估计总体概率的可靠性越好在实际中总体概率π往往未知常用样本频率p来近似的代替得到的标准误的估计值为 S= p t分布又称为student分布记作t~t(v) t分布是总体均数的区间估计和假设检验的理论基础 t值得分布与自由度v有关 t分布只有一个参数即v t分布有如下特征 1 单峰分布以0为中心左右对称 2 v越小 t值越分散曲线的峰部越矮尾部越高 3 随着v值得增大 t分布逐渐接近标准正态分布当v值趋向于?时 t分布趋向于标准正态分布故标准正态分布是t分布的特例用t表示对应于单侧概率的t临界值 t表示对应于双侧概率的t的临界值 α，αv/2,v 总体均数与总体概率的估计参数估计分为点估计与区间估计点估计是直接利用样本统计量的一个数值来估计总体参数如用X拔估计μ p估计π s估计σ 区间估计是将样本统计量与标准误结合起来确定一个具有较大置信度的包含总体参数的范围该范围称为总体参数的置信区间(CI) 置信度一般为1-α α一般取0.1 0.05或 0.01 常取0.05 较小的数值称为置信下限较大的为置信上限置信区间是一个开区间不包括两- - 个置信限的数值在

报告

软件系统测试报告下载 sgs报告如何下载关于路面塌陷情况报告 535n,sgs报告怎么下载竣工报告下载

参数估计的结果时应同时给出点估计和置信区间总体均数及总体概率的区间估计一般的总体均数μ的95%置信区间的含义可以理解为如果重复100次抽样每次样本含量均为n 每个样本均按构建置信区间则在此100个置信区间中平均有95个包括总体均数 5个不包括总体均数根据总体标准差σ是否已知和样本含量n的不同总体均数的置信区间有两种估计方法 1 t分布法条件当σ未知且n较小(n<或=50) 公式如下 2 正态分布法 (1)当σ已知时公式为 (2)当σ未知但n足够大(n>50)时 t分布近似服从标准正态分布公式为总体概率的置信区间对于服从二项分布的样本资料可根据样本含量n和样本频率p的大小选用查表法或正态近似法估计其总体概率π的(1-α)置信区间 1 查表法对于小样本资料如n<50 特别当p非常接近0或100%时可用查表法 2 正态近似法当n足够大且np及n(1-p)均大于5时 p的抽样分布近似正态分布总体概率π的双侧(1-α)置信区间近似等于第七章假设检验基础若对所估计的总体首先提出一个假设然后通过样本数据去推断是否接受这一假设称为假设检验用假设检验来处理的问题一般具有两个特点 1 需要从全局范围即从总体上对问题作出判断 2 不可能或不允许对研究对象的每一个个体均作观察假设检验的步骤 1 建立假设检验确定检验水准根据研究目的研究设计的类型和资料特点等因素选择合适的检验方法并且将需要推断的问题表述为关于总体特征的一对假设两个检验假设应包括所有可能的判断 H0(原假设) H1(对立假设) 注意为稳妥起见一般情况下均采用双侧检验怎样才算P值较小还是P值较大通常我们规定一个小的概率α 若P值小于α 就认为P值较小反之较大通常α取0.05或0.01以保证犯假阳性错误的概率不超过0.05或0.01 2 计算统计量 3 确定p值作出判断 P值的定义:在零假设成立的条件下出现统计量目前值及更不利于零假设数值的概率统计推断的两类错误及其概率实际情况统计推断 H成立，无差异拒绝H有差异(假阳性) 不拒绝H 无差异 00 0 第一类错误概率=α 正确概率=1-α H成立，有差异拒绝H有差异不拒绝H无差异 10 0 正确概率=1-β 第二类错误假阴性概率=β 当做双侧t检验时 P值的大小等于t分布曲线下对应统计量的双侧尾部面积之和切记啊 t检验以t分布为基础的检验应用条件 - - 1 随机样本 2来自正态分布总体 3均数比较时要求两总体方差相等(方差齐性) 有三种t检验 1 单样本资料的t检验实际上是推断该样本来自的总体均数μ与已知的某一总体均数μ有0无差别零假设为H:μ=μ单样本资料t检验的统计量为 00 2 配对设计资料的t检验配对设计能很好的控制非实验因素对结果的影响分异体配对和自身配对配对设计资料的分析着眼于每一对中两个观察值之差这些差值构成一组资料用t检验推断差值的总体均数是否为“0” 检验假设为H:μ=0 即差数的总体均数为“0” 0d 检验统计量为t= P值只能得到一个范围通过它与α的大小比较来推断是否拒绝H0 3 两独立样本资料的t检验将受试对象随机分配成两个处理组每一组接受一种处理一般把这样获得的两种资料视为代表两个不同总体的两个独立样本据以推断他们的总体均数是否相等分两种情况 1 两样本所属总体方差相等即具有方差齐性检验统计量t= 自由度v=n+n-2 122 两样本所属总体方差不等用近似t检验即t’检验思路与t检验同那么现在有个问题如何判断两独立样本是否具有方差齐性呢两独立样本资料的方差齐性检验(F检验) 22 H:σ=σ 即两独立样本资料的总体方差相等 H0121 统计量为 F= v=n-1 v=n-1 1122 不难看出 F统计量是方差之比反映的是较大方差是较小方差的多少倍 F分布有两个自由度分子的自由度v和分母的自由度v 根据附表可查到相应的双侧检验12 的P值 F值越大对应的P值越小如何检验呢关键是找到F,( v v) 即P=0.05的F值再将所求的F值与之相比较若F0.05/21,2 值大于它说明P<0.05 若F值小于它说明P>0.05 同理对检验水准为0.01的亦可推大样本资料的Z检验相应的统计量为Z 其他原理同假设检验与区间估计的关系 1 置信区间具有假设检验的主要功能 2 置信区间可提供假设检验没有提供的信息(置信区间在回答差别有无统计学意义的同时还可以提示差别是否具有实际意义) 3 假设检验比置信区间多提供的信息(有确切的P值) 假设检验的功效第一类错误(假阳性) α 第二类错误(假阴性) β 对于某一具体的检验来说当n一定时 α越小β越大 α越大β越小在实际应用中往往通过α去控制β 在样本量确定时如果要减小β 就把α取大一点要同时减小α和β 就增加样本数量假设检验的功效即1-β 其意义是当所研究的总体与H确实有差别时按检验水平α能够0 发现它(拒绝H)的概率 0 当样本所属总体方差不等时有三种方法 1 近似t检验即t’检验 2 经过数据变换使方差齐然后进行t检验 3 非参数检验即秩和检验应用假设检验需要注意的问题 1 应用检验方法必须符合其使用条件 2权衡两类错误的危害以确定α的大小 - - 3 正确理解P值得意义不要把很小的P值误解为总体参数间差异很大 P值小只是说明犯1类错误的机会远小于α 第八章方差分析(ANOVA)又称F检验是通过对数据变异的分解来判断不同样本所代表的总体均值是否相同用于比较三个或三个以上均数的差别(两样本均数的比较有t检验和Z检验当然此方法2均数也可用) 总变异 36只大白鼠喂养九周后体重差值x大小各异由图可得它围绕总均数X拔的变异 ij 此种变异称为总变异改变异既包括了处理的效应又包括了随机误差 2SS=(观察数据-总均数)之和公式: 总均方MS=SS/v 总总总总V=N-1 总组间变异三组含钙不同的饲料喂养大白鼠其体重差值的样本均数x拔各不相同它与总i 均数x拔的差别即为组间变异它反映了三组含钙不同饲料的影响同时也包括了随机误差 2SS=(组均数-总均数)之和公式: 组间均方MS=SS/v 组间组间组间组间v=v=k-1 (k为组数) 组间1 组内变异各组内大白鼠体重差值大小不同这种变异称为组内变异组内变异反映了随机变异即随机误差 2SS=(观察数据-组均数)之和公式: 组内均方MS= SS/v组内组内组内组内 V=v=N-k 组内2 总变异=组间变异+组内变异总自由度=组间自由度(分子的V)+组内自由度 1 零假设Ho=μ=μ=μ=„=μ 对立假设至少有两个总体均数不相等 123k 比值MS/MS服从自由度为v和v的F分布可查表求的F值注意首先看检验水准α 组间组内12 然后去找出对应的F(v，v) 若所求的F值大于F(v，v) 说明P<α 那就该干嘛αα1212 干嘛了资料的方差分析表变异来源 SS df MS F 总变异组间变异组内变异 (误差) N为观察总例数 k为观察的组数 i代表列 j代表行完全随机设计资料的方差分析(以之前的大白鼠为例) 是将同质的受试对象随机的分配到各处理组再观察其实验效应步骤 1 建立假设检验确定检验水准 2 计算检验统计量即求的F值 3 确定P值并作出推断结论若拒绝原假设即多个总体均数中至少有两个总体均数不相等时如要知道哪些均数不同则需要多样本均数的两两比较我们很容易联想到可否用前面所学的t检验来两两比较呢答案是不能的而应采用专用的两两比较的方法即多重比较有两种情形 1 在研究设计阶段未预先考虑或预料到经假设检验得出多个总体均数不全等的提示后才决定进行多个均数的两两事后比较此类情况常用于探索性研究往往涉及每两个均数的比较可采用SNK法 2 在设计阶段就根据研究目的或专业知识而

计划

项目进度计划表范例计划下载计划下载计划下载课程教学计划下载

好的某些均数间的两两比较它常用于事先- - 有明确假设的证实性研究可采用 Dunnett-t检验和Bonferroni法 SNK法属多重极差检验每两个组都要比其检验统计量为q 故又称q检验 Dunnett-t法其检验统计量为t 它适用于k-1个实验组与对照组均数的比较(试验组与对照组比) D Bonferroni法 Bonferroni不等式若每次检验水准为α’ 共进行m次比较当H为真时犯第一类错误的累0 计概率不会超过mα’ 故要使多次比较后犯第一类错误的累计概率不超过规定的α 可利用Bonferroni不等式令α=mα’ 确定每次比较的检验水准α’=α/m 本质上讲Bonferroni法是对检验水准进行调整该法适用于所有的两两比较多个均数与多个频数均适用方差分析的前提条件 1 各样本是相互独立的随机样本均服从正态分布 2 各样本的总体方差相等即方差齐性实际上只要各组样本含量相近或相当即使方差不齐方差分析仍然稳健且检验效能较高若较大方差组有较大的样本含量则方差分析的结果容易拒绝H 0 若较大方差组有较小样本含量则不容易拒绝H故有一部分统计学家不赞成进行方差0 齐性检验方差齐性检验 2Bartlett X检验资料服从正态分布的多个总体方差齐性检验法 Levene检验资料是任意分布时的方差齐性检验法数据变换对于明显偏离正态性和方差齐性条件的资料通常有三种处理方法 1 通过某种形式的数据变换以改善其假定条件 2 采用非参数统计分析方法如秩和检验 3 采用近似检验如t’检验数据变换虽然改变了资料分布形式但未改变各族资料间的关系常用数据变换方法 1 对数变换适用于对数正态分布资料如抗体滴度资料 2 平方根变换 3 平方根反正弦变换 2 第九章 χ检验对于假设检验我们都是先假定总体的分布类型是已知的比如都认为总体服从正态分布或近似正态分布然在实际中事先并不知道总体的分布类型此时首先需要根据样本对总体分 2布的种种假设进行检验 χ检验就是其中一种检验方法 2χ检验不仅可以推断单个样本的频率分布是否等于某种给定的理论分布还可以检验两个样本的总体分布是否相同四格表卡方检验独立样本资料的四格表组别属性合计 Y Y 12 甲 a(T) b(T) n=a+b 11121乙 c(T) d(T) n=c+d 21222合计 m=a+c m=b+d n=a+b+c+d 12 (a b c d)为观察频数 (T TTT)为理论频数 1112 21 222 =2χΣ(A-T)/T 自由度v=(行数-1)(列数-1) - - 求出卡方值之后确定P值与F检验类似是一个范围卡方值越大 P值越小 2注意以上2X2列联表χ检验要求:n不小于40 T不小于5 当n满足但某一个格子出现 225,T?1 需要做如下矫正χ=Σ(,A-T,-0.5)/T 如果样本例数不是很大计算时首先应估计表中最小的T值以确定是否需采用校正公式 22x2列联表χ检验注意事项 21 χ校正公式只适合v=1的四格表资料对v?2的多组样本分布一般不做矫正 2 当n<40或T<1时校正卡方值也不恰当这时可用Fisher确切检验 3 注意在两例中均强调了两组患者病情相似这点很重要只有在两组资料其他方面“同质”的前提下才能比较两个频率四格表只能对两个率作出比较若要对多个率或多个频率分布做出比较则需要 2RxC列联表χ检验原理与2x2列联表同 2χ= n为第R行合计数 n为第C列合计数 RC 自由度仍为 v=(行数-1)(列数-1) 2对于多个率或多个率分布比较的χ检验结论为拒绝H时仅表示多组中至少有两组有差0 别若要明确哪两组之间不同还需进一步做多组间的两两比较方差分析那会儿不可以但这里是可以的但要调整检验水准 α’=α/两两比较的次数 2RxC列联表χ检验注意事项要求理论频数不宜太小一般不宜有1/5以上格子的理论频数小于5或不宜有一个理论频数小于1 若不满足此要求 1 增加样本含量(最佳办法) 2 改用RxC列联表的Fisher确切概率法 2x2列联表的确切概率法何时应用 1 样本含量n,40 2 理论频数T,1 3 卡方检验后所的概率P接近检验水准α 第十章秩和检验掌握优缺点适用范围即各种编秩方法凡是以特定的总体分布为前提对未知的总体参数做推断的假设检验方法统称参数检验非参数检验不以特定的总体分布为前提也不针对决定总体的几个参数做推断无论总体分布形式如何一端或两端无界甚至分布不清都能适用以等级做记录的资料尤为适宜在非参数检验中一般不直接用样本观察值做分析统计量的计算基于原数据在整个样本中按大小所占位次所以丢弃了观察值的具体数值只保留其大小次序的信息本章介绍在非参数检验中占重要地位的秩和检验单样本资料的秩和检验应用条件常用于不满足t检验条件的单样本定量变量资料的比较目的推断样本中位数与已知总体中位数是否相等步骤 1 建立检验假设确定检验水准 2 计算检验统计量T值 (1)求差值 d=x-总体中位数 ii (2)编秩依差值的绝对值由小到大编秩遇差值为0 舍去不计 n随之减少当差值绝对值相等时若符号不同求平均秩次若符号相同可顺序编秩也可求平均秩次并将各秩次冠以原差值的正负号 (3)分别求正负秩和正秩和为T 负秩和为T 注意负秩和最后的结果要转化为正数 +- (4)确定检验统计量 T可任取正负秩和之一通常以绝对值小的秩和去查表 3 确定P值做出推断 (1)查表法条件为当n?50时根据n和T查界值表 (2)正态近似法查表时若T值在上下界值范围内其P值大于上方相应的概率若P值恰好等于界值其P值小于或等于上方相应概率若不在则P值小于相应概率右移一栏再作比较 - - 两组独立样本比较的秩和检验 1 定量变量两组独立样本的秩和检验编秩将两组数据由小到大同一编秩遇相同数值在同一组内可顺序编秩若在不同组内则必须求平均秩次求个组秩和以样本例数小这为n 其秩和为T 11 确定检验统计量T值若n?n 则T=T 若相等则都可取 121 2 有序分类变量两组独立样本的秩和检验编秩将两组数据按等级顺序由小到大编秩先计算各等级合计数并确定各等级秩次范围求出各等级平均秩次求各组秩和各等级的平均秩次分别乘以各组各等级的例数再求和即可得到各组秩和确定统计量T值取T(即样本含量小的那个) 1 非参数检验优缺点有广泛的适应性和良好的稳定性但若资料符合参数检验条件用非参数检验会损失部分信息降低检验功效非参数检验适用于 1 有序变量资料 2 总体分布类型不明的资料 3 分布不对称且无法转化为正态分布的资料 4对比组间方差不齐又无适当变化方法达到方差齐性的资料 5 一端或两端观察值不确切的资料排序时出现相同秩次的现象称为相持有序分类变量资料选用非参数检验可推断个等级强度的差别而用RxC列联表卡方检验只能比较频数分部之间的差别故前者优第十一章两变量关联性分析(连续定量变量的关联性为本章重点) 在大量的医学研究中需要研究两个随机变量X和Y之间相互关联的情况散点图可直观的说明两变量之间是否有线性相关两个随机变量X、Y之间呈线性趋势的关系称为线性相关线性相关系数是定量描述两变量间线性关系密切程度和相关方向的统计指标相关系数(pearson相关系数)= 若右端为总体协方差和总体方差时左端便是总体相关系数记为ρ 实际中往往未知若右端为样本协方差和样本方差时左端为样本相关系数记为r 相关系数无单位取值范围为-1到1 它的正负值表示两变量之间线性相关的方向大于0为正相关小于0为负相关等于0则不相关它的绝对值大小表示两变量之间线性关系的强度 ,r,越接近1 说明密切程度越高 ,r,越接近0 说明密切程度越低为1时即函数关系注意样本相关系不为0 并不表示总体相关系数不为0 故要做假设检验相关分析步骤 Lxx,Lyy1 绘制散点图 2 计算相关系数 r=Lxy/ 3 假设检验常用的对相关系数进行检验的方法有两种 (1)直接查相关系数临界值表根据自由度v=n-2 比较,r,与临界值统计量绝对值越大 P值越小 (2)采用t检验公式: S为样本相关系数的标准误当H成立时 t服从自由度为v=n-2的t分布 r0r 相关分析应用中的注意问题 1 做相关分析前先绘散点图当散点有线性趋势时才进行相关分析 2 线性相关分析要求两个变量都是随机变量且仅适于二元正态分布资料 3 出现离群值时慎用相关 4相关关系不一定是因果关系(生儿种树) - - 5 分层资料盲目合并易出假象第十二章简单回归分析上一章我们研究了线性相关但在实际中我们常需要通过可测或易测的变量对未知或难测的变量进行估计以达到预测目的如用身高和体重这些易测的指标来估计体表面积等难测的指标回归分析就是研究一个变量如何随着另一些变量变化的方法被估计的变量用Y表示 Y所依存的变量用X(自变量)表示两个连续型变量之间线性依存关系的统计方法就是线性回归在通常情况下研究者只能获得一定数量的样本数据用样本数据建立的有关Y依X变化的线性表达式称为回归方程记为 b即为回归系数线性回归模型的使用条件 LINE 线性独立正态等方差 1 因变量Y与自变量X呈线性关系(linear) 2 每个个体观察值之间相互独立(independent) 3 在一定范围内任意给定X值对应的随机变量Y都服从正态分布(Normal) 4 在一定范围内不同的X值对应的随机变量Y的方差相等(equal variance) 回归参数如何估计(a b) 最小二乘原则能保证样本数据的各实测点至回归直线的纵向距离(Y-Y)的平方和最小 ii 在最小二乘法则的指导下数学上可得a和b的计算公式 b= a= 回归方程一定经过一点( ) 如何画出回归直线呢在X的实测全距范围内任取相距较远且易读数的两个X值代入方程得到两个Y^值以直线连接两点即得回归直线注意回归直线的适用范围一般以自变量的取值范围为限还需注意我们得到的只是样本回归方程但我们关注的是就总体而言这种回归关系是否存在因此我们需要做总体回归系数β是否为0的假设检验可用方差分析或t检验方差分析三段长度要弄清楚 SS=SS+SSSS为Y的离均差平方和 SS反映在Y的总变异中由于X和Y的直线关系总回残总回而使Y的总变异减少的部分即在Y的总变异中可以用X解释的部分SS越大说明回归效果回越好 V=n-1 V回= V=n-2 总1 残所以F=MS/MS MS回=SS/V MS残=SS/V 回残回回残残 t检验检验假设同上者方差分析统计量记为t b 可以发现上一章对总体相关系数ρ的假设检验计算出的t值等于这里的t值这并不是巧rb合当Y与X两者都是随机变量时我们既可以计算Y与X的相关系数又可以做Y与X的回归对同一资料做总体相关系数ρ的假设检验和做总体回归系数β的假设检验分别得到t和rt 可以证明两者相等鉴于相关系数的假设检验的简便性我们可以用相关系数的假设检b 验来回答回归系数假设检验的问题 2决定系数即回归平方和与总离均差平方和之比 R=SS/SS 回总2R取值在0到1之间无单位反映了回归贡献的相对程度即在因变量Y的总变异中回归关系所能解释的比例实际中我们通过用决定系数来反映回归的实际效果 -

本文档为【广州中医药大学统计学复习】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

广州中医药大学统计学复习

热门搜索

历史搜索

广州中医药大学 统计学复习

热门搜索

历史搜索

广州中医药大学统计学复习