为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

广州中医药大学 统计学复习

2017-09-05 22页 doc 45KB 75阅读

用户头像

is_738794

暂无简介

举报
广州中医药大学 统计学复习- 第一章 绪论 统计学 是一门处理数据中变异性的科学和艺术 内容包括收集 分析 解释和表达数据 目的是求的可靠的结果 Laplace 认为医疗是概率论应用的一个重要领域 Louis 评价了当时流行的放血疗法 Carl Pearson 是现代统计学之父 他将这门学科从描述性统计学改变为推断性统计学 Major Greenwood 最早的医学统计学家(既懂医学又懂统计) 减弱误差的三项原则 重复 随机化 对照 实验设计三要素 受试对象 处理因素 实验效应 实验设计三原则 对照原则 重复原则 随机化原则 Hill...
广州中医药大学 统计学复习
- 第一章 绪论 统计学 是一门处理数据中变异性的科学和艺术 内容包括收集 分析 解释和表达数据 目的是求的可靠的结果 Laplace 认为医疗是概率论应用的一个重要领域 Louis 评价了当时流行的放血疗法 Carl Pearson 是现代统计学之父 他将这门学科从描述性统计学改变为推断性统计学 Major Greenwood 最早的医学统计学家(既懂医学又懂统计) 减弱误差的三项原则 重复 随机化 对照 实验设计三要素 受试对象 处理因素 实验效应 实验设计三原则 对照原则 重复原则 随机化原则 Hill爵士 现代临床试验的主要推动者 第一项具有适当随机化对照组的临床试验 利用链霉素治疗肺结核 医学统计学基本步骤 1研究设计(实验性研究或描述性研究) 2收集资料 3整理资料 4分析资料(统计描述:统计表/图 统计推断:参数估计 假设检验) 总体 是根据研究目的确定的同质观察单位的全体 抽样 从研究总体中抽取少量有代表性的个体 统计学的任务就是在变异的背景上描述同一总体的同质性 揭示不同总体的异质性 变量的类型 定量变量(离散型变量 连续型变量) 定性变量(分类变量 有序变量) 变量可以转换 但只能由高级向低级转换:定量?有序?分类?二值 参数 是总体的统计指标 往往是未知的 统计量 是样本的统计指标 由样本统计量估算总体参数 称为参数估计 第二章 定量资料的统计描述 离散型定量变量的频率分布 组距=极差/组段数(一般取整) N<100时 8-10组 N>100时 10-15组 如6- 8- 10- 12- 14- 16- 18-20 频率分布表(图)的用途 1 揭示资料的分布类型 2 描述分布的集中趋势和离散趋势 3 便于发现某些特大或特小的可疑值 4 便于进一步计算指标和统计分析 描述集中趋势的统计指标 平均数 用于描述一组同质观察值的集中趋势 反映一组观察值的平均水平 有三种 1 算数均数 适用于对称分布资料(特别是正态分布或近似正态分布) 总体均数μ 样本均数X拔 2 几何均数G 适用于原始观察资料不对称 但经对数转换后呈对称分布的资料 3 中位数M 指将原始观察值从小到大或从大到小排序后 位次居中的那个数(排除前两种才能用 特别适合偏锋分布资料 对分布末端无确定值的资料 亦可使用) 描述离散趋势的统计指标 1 极差(Range)R 2 四分位数间距(Quartile range)Q=P-P即上四分位数—下四分位数 7525 可用于各种分布的资料 特别对偏锋分布资料 常把中位数与四分位数间距结合起来描述 3 方差 考虑到了每个观察值的离散程度 离均差平方和/N - - 22总体方差用Var(X)或σ表示 样本方差用S表示 自由度是统计学中的常用术语 v=n-1 意义是当X拔给定时 随机变量X能自由取值的个数 推而广之 任何统计量的自由度v=n-限制条件的个数 4 标准差 单位与原变量单位一致 方差和标准差都适用于对称分布资料 常把均数和标准差结合起来 5 变异系数 主要用于量纲不同的变量间或均数差别较大的变量间变异程度的比较(是对标准差的补充) CV=S/X拔*100% 变异系数无单位 消除了量纲的影响 第三章 定性资料的统计描述 定性资料的基础数据是绝对数 描述一组定性资料的数据特征 常要计算相对数 其性质由分子和分母决定 三类相对数 1 频率分两种 一:多分类变量频率—百分比 二:二分类变量频率—频率 2 强度型指标是指单位时间内某现象发生的频率(本质为频率强度) 3 相对比型指标是指两个有关联的指标A与B之比 应用相对数时注意事项 1 理解相对数的含义不可望文生义 2 频率型指标的解释要紧扣总体和属性 3 计算相对数时分母应有足够数量 如果样本例数较少会使相对数波动较大 4 正确计算合计率 5 注意资料的可比性 6 样本相对数的统计推断 粗率的标准化法 考概念 如果两组个体的年龄 性别 工龄 病情等因素在构成上存在差异 则粗死亡率 粗发病率等不能直接进行比较 为消除两组个体其他因素构成不同的影响 需要首先对两组数据进行标准化处理 标准化的关键 是选择一个“标准” 在这个共同平台上比较两组资料 如何选择标准 1 选定两组之一 将其作为标准 2 两组合并 作为标准 3 在两组之外再选一个群体 应用标准化法的注意事项 1 标准化法的应用范围很广 2 标准化后的标准化率 已不能反映当时当地的实际水平 它只是表示相互比较的资料间的相对水平 3 标准化法的实质是找一个“标准” 使两组得以在一个共同的平台上进行比较 4 两样本标准化率是样本值 存在抽样误差 第四章 统计表与统计图 统计表的结构 标题 标目(横标目 纵标目)线条 数字 备注(必要时才有) 5部分组成 1 标题 位于统计表上方中央 表达主要内容 2 标目 用以说明内的项目 注意 标目有单位要注明 纵标目(谓语) 说明各纵栏数字的含义 横标目 位于表的左侧 用来说明右边各横行数字的主语 总标目 必要时 可在横标目和纵标目上冠以纵标目 3 线条 不宜过多 常常仅包括三条基本线 顶线 底线 纵标目分隔线 故统计表又称三线表 表格中若有合计常用横线隔开 统计表的左右两侧不应有边线 左上角不宜有斜线 表内不应有竖线 4 数字 阿拉伯数字表示 表内不留空格 数字暂缺或未用„„表示 无数字用—表示 5 备注 不属于统计表固有部分 若需对某个数字或指标加以说明 在右上角用*标注 并在统- - 计表下方用文字加以说明 统计图 常用的有条图 百分条图 圆图 线图 散点图 直方图等 绘制统计图基本要求 1 各根据资料的性质和分析目的选择最适合的图形 2 要有标题 位于图下方中央 3 条图和直方图纵坐标从0开始 要标明0点位置 纵横坐标长度比例一般为5:7 条图 条图用等宽直条的长短表示相互独立的各项指标数量的大小 适用于按性质分组的不连续性资料 构成图 有百分条图和圆图两种 适用于定性资料 以面积大小表示各部分构成比大小 线图 是用线段的升降表示统计指标的变化趋势 适用于连续型变量 半对数线图 用于表示事物的发展速度(相对比) 横轴为算数尺度 竖轴为对数尺度 在比较几组数据的变化速度时 特别是两组数据相差悬殊时 选此 直方图 用于表示连续型变量的频数或频率分布 常用横轴表示被观察对象 纵轴表示频数或频率 有时为了考察变量的频率分布特征 横轴表示被观察变量的分组 纵轴为频率密度 即频率/组距 于是每个直条的面积就是相应组段的频率 此类型直方图又称为频率密度直方图 第五章 常用概率分布 离散型变量 二项分布(率的分布呈二项分布) 连续型变量 正态分布 医学研究中很多现象观察结果是以两分类变量来表示的 如阳性 阴性 治愈 未愈 如果每个观察对象阳性结果的发生概率均为π 阴性结果发生概率均为(1—π)而且每个观察对象的结果是相互独立的 那么 重复观察N个人 发生阳性结果的人数X的概率分布为二项分布 记作B(n,π) P(X)= 二项分布的特征由π和观察次数n决定 二项分布的高峰在μ=nπ处或附近 π=0.5时 图形对称 π离0.5越远 对称性愈差 对同一π 随着n增大 分布趋于对称 当n?? 只要π不太靠近0或1(特别是当nπ和n(1—π)均大于5时)二项分布趋于对称 近似于正态分布 事实上对于任何二项分布问题 如果每一次实验出现阳性结果的概率均为π 进行n次独立 2重复试验 出现X次阳性结果 那么可以证明 X的总体均数为μ=nπ 方差σ=nπ(1-π) 正态分布 一般来说 若影响某一数量指标的随机因素很多 而每个因素所起的作用均不太大 那么这个指标服从正态分布 如实验中的随机误差 正态曲线是一条高峰位于中央 两侧逐渐下降并完全对称 曲线两端永远不与横轴相交的钟形曲线 其函数表达式f(x)= 其中μ为总体均数(位置参数) σ为总体标准差(形状参数) 正态概率密度曲线的位置和形状具以下特点 1 关于x=μ对称 2 在x=μ处取得该概率密度函数的最大值 在μ+-σ处有拐点 3 曲线下面积为1 4 μ决定曲线在横轴上的位置 μ增大 往右移 5 σ决定曲线的形状σ越大 数据越分散(矮胖) 越小 越瘦高 22习惯上用N(μ,σ)表示均数为μ 标准差为σ的正态分布 服从于N(μ,σ)的x即为正态变量 正态概率密度曲线下的面积 (μ- σ,μ+σ)区间内 面积为总面积的68.27% (μ-2σ,μ+2σ)区间内 面积为总面积的95.44% - - (μ-3σ,μ+3σ)区间内 面积为总面积的99.74% 2对任意一个服从正态分布N(μ,σ)的随机变量 可作如下标准化变换 即Z变换 Z=(x-μ)/σ 变换后Z值仍服从正态分布 且其总体均数为0 总体标准差为1 我们称此正态分布为标准正态分布 N(0,1) 注意 x取值在区间(μ- 1.96σ,μ+1.96σ)内的概率为0.95 x取值在区间(μ- 2.58σ,μ+2.58σ)上的概率为0.99 这两个数要记住 正态分布的应用 确定医学参考值范围 人们习惯用该人群95%的个体某项医学指标的取值范围作为该指标的医学参考值范围 确定医学参考值范围的两种方法 1 百分位数法 双侧95%医学参考值范围是(P,P)单侧范围是P以下(人体有害物2.597.595质如血铅 发汞)或P以上(肺活量) 此方法适合于任何分布类型资料 5 2 正态分布法 因为正态分布变量x在区间(μ- 1.96σ,μ+1.96σ)内的概率为0.95 所以正态分布资料双侧医学参考值范围一般近似估计为 X拔-+1.96S 第六章 参数估计基础 统计学中通过抽样来估计总体参数 称为参数估计 抽样误差 由于生物固有的个体变异的存在 从某一总体中随机抽取一个样本 所得的样本统计量与相应的总体参数往往是不同的 这种差异称为抽样误差 样本均数的抽样分布和抽样误差 样本均数的抽样分布具有以下特点 1样本均数恰好等于总体均数是极其罕见的 2 样本均数之间存在差异 3 样本均数围绕总体均数 中间多 两边少 左右基本对称 呈正态分布 4 样本均数之间的变异(标准误)明显小于原始变量值之间的变异 样本均数的标准差 通常称为均数的标准误(SE或SEM)可反映均数抽样误差的大小 2若随机变量的均数为μ 方差为σ 则样本均数的均数仍为μ 均数的标准误 实际应用中 总体标准差常位置 需要用样本标准差来估计 此时 均属标准误估计值为 数理统计理论表明 对任意分布 在样本含量足够大时 其样本均属的分布近似于正态分布 且样本均数的均数等于原分布的均数 均数的标准误由上三行的计算 样本频率的抽样分布与抽样误差 样本频率的抽样分布与样本均数的抽样分布类似 频率的标准误越小 则用样本频率估计总体概率的可靠性越好 在实际中 总体概率π往往未知 常用样本频率p来近似的代替得到的标准误的估计值为 S= p t分布 又称为student分布 记作t~t(v) t分布是总体均数的区间估计和假设检验的理论基础 t值得分布与自由度v有关 t分布只有一个参数 即v t分布有如下特征 1 单峰分布 以0为中心 左右对称 2 v越小 t值越分散 曲线的峰部越矮 尾部越高 3 随着v值得增大 t分布逐渐接近标准正态分布 当v值趋向于?时 t分布趋向于标准正态分布 故标准正态分布是t分布的特例 用t表示对应于单侧概率的t临界值 t表示对应于双侧概率的t的临界值 α,αv/2,v 总体均数与总体概率的估计 参数估计分为点估计与区间估计 点估计是直接利用样本统计量的一个数值来估计总体参数 如用X拔估计μ p估计π s估计σ 区间估计 是将样本统计量与标准误结合起来 确定一个具有较大置信度的包含总体参数的范围 该范围称为总体参数的置信区间(CI) 置信度一般为1-α α一般取0.1 0.05或 0.01 常取0.05 较小的数值称为置信下限 较大的为置信上限 置信区间是一个开区间 不包括两- - 个置信限的数值 在参数估计的结果时 应同时给出点估计和置信区间 总体均数及总体概率的区间估计 一般的 总体均数μ的95%置信区间的含义可以理解为 如果重复100次抽样 每次样本含量均为n 每个样本均按 构建置信区间 则在此100个置信区间中 平均有95个包括总体均数 5个不包括总体均数 根据总体标准差σ是否已知和样本含量n的不同 总体均数的置信区间有两种估计方法 1 t分布法 条件 当σ未知且n较小(n<或=50) 公式如下 2 正态分布法 (1)当σ已知时 公式为 (2)当σ未知 但n足够大(n>50)时 t分布近似服从标准正态分布 公式为 总体概率的置信区间 对于服从二项分布的样本资料 可根据样本含量n和样本频率p的大小 选用查表法或正态近似法估计其总体概率π的(1-α)置信区间 1 查表法 对于小样本资料 如n<50 特别当p非常接近0或100%时 可用查表法 2 正态近似法 当n足够大 且np及n(1-p)均大于5时 p的抽样分布近似正态分布 总体概率π的双侧(1-α)置信区间近似等于 第七章 假设检验基础 若对所估计的总体首先提出一个假设 然后通过样本数据去推断是否接受这一假设 称为假设检验 用假设检验来处理的问题一般具有两个特点 1 需要从全局范围 即从总体上对问题作出判断 2 不可能或不允许对研究对象的每一个个体均作观察 假设检验的步骤 1 建立假设检验 确定检验水准 根据研究目的 研究设计的类型和资料特点等因素选择合适的检验方法 并且将需要推断的问题表述为关于总体特征的一对假设 两个检验假设应包括所有可能的判断 H0(原假设) H1(对立假设) 注意 为稳妥起见 一般情况下均采用双侧检验 怎样才算P值较小 还是P值较大 通常我们规定一个小的概率α 若P值小于α 就认为P值较小 反之 较大 通常α取0.05或0.01以保证犯假阳性错误的概率不超过0.05或0.01 2 计算统计量 3 确定p值 作出判断 P值的定义:在零假设成立的条件下 出现统计量目前值及更不利于零假设数值的概率 统计推断的两类错误及其概率 实际情况 统计推断 H成立,无差异 拒绝H有差异(假阳性) 不拒绝H 无差异 00 0 第一类错误 概率=α 正确 概率=1-α H成立,有差异 拒绝H有差异 不拒绝H无差异 10 0 正确 概率=1-β 第二类错误 假阴性 概率=β 当做双侧t检验时 P值的大小等于t分布曲线下对应统计量的双侧尾部面积之和 切记啊 t检验 以t分布为基础的检验 应用条件 - - 1 随机样本 2来自正态分布总体 3均数比较时 要求两总体方差相等(方差齐性) 有三种t检验 1 单样本资料的t检验 实际上是推断该样本来自的总体均数μ与已知的某一总体均数μ有0无差别 零假设为H:μ=μ单样本资料t检验的统计量为 00 2 配对设计资料的t检验 配对设计 能很好的控制非实验因素对结果的影响 分异体配对和自身配对 配对设计资料的分析着眼于每一对中两个观察值之差 这些差值构成一组资料 用t检验推断差值的总体均数是否为“0” 检验假设为H:μ=0 即差数的总体均数为“0” 0d 检验统计量为t= P值只能得到一个范围 通过它与α的大小比较 来推断是否拒绝H0 3 两独立样本资料的t检验 将受试对象随机分配成两个处理组 每一组接受一种处理 一般把这样获得的两种资料视为代表两个不同总体的两个独立样本 据以推断他们的总体均数是否相等 分两种情况 1 两样本所属总体方差相等 即具有方差齐性 检验统计量t= 自由度v=n+n-2 122 两样本所属总体方差不等 用近似t检验 即t’检验 思路与t检验同 那么现在有个问题 如何判断两独立样本是否具有方差齐性呢 两独立样本资料的方差齐性检验(F检验) 22 H:σ=σ 即两独立样本资料的总体方差相等 H0121 统计量为 F= v=n-1 v=n-1 1122 不难看出 F统计量是方差之比 反映的是较大方差是较小方差的多少倍 F分布有两个自由度 分子的自由度v和分母的自由度v 根据附表可查到相应的双侧检验12 的P值 F值越大 对应的P值越小 如何检验呢 关键是找到F,( v v) 即P=0.05的F值 再将所求的F值与之相比较 若F0.05/21,2 值大于它 说明P<0.05 若F值小于它 说明P>0.05 同理 对检验水准为0.01的亦可推 大样本资料的Z检验 相应的统计量为Z 其他原理同 假设检验与区间估计的关系 1 置信区间具有假设检验的主要功能 2 置信区间可提供假设检验没有提供的信息(置信区间在回答差别有无统计学意义的同时 还可以提示差别是否具有实际意义) 3 假设检验比置信区间多提供的信息(有确切的P值) 假设检验的功效 第一类错误(假阳性) α 第二类错误(假阴性) β 对于某一具体的检验来说 当n一定时 α越小β越大 α越大β越小 在实际应用中 往往通过α去控制β 在样本量确定时 如果要减小β 就把α取大一点 要同时减小α和β 就增加样本数量 假设检验的功效 即1-β 其意义是 当所研究的总体与H确实有差别时 按检验水平α能够0 发现它(拒绝H)的概率 0 当样本所属总体方差不等时 有三种方法 1 近似t检验 即t’检验 2 经过数据变换使方差齐 然后进行t检验 3 非参数检验 即秩和检验 应用假设检验需要注意的问题 1 应用检验方法必须符合其使用条件 2权衡两类错误的危害以确定α的大小 - - 3 正确理解P值得意义 不要把很小的P值误解为总体参数间差异很大 P值小只是说明犯1类错误的机会远小于α 第八章 方差分析(ANOVA)又称F检验 是通过对数据变异的分解来判断不同样本所代表的总体均值是否相同 用于比较三个或三个以上均数的差别(两样本均数的比较有t检验和Z检验 当然此方法2均数也可用) 总变异 36只大白鼠喂养九周后体重差值x大小各异 由图可得它围绕总均数X拔的变异 ij 此种变异称为总变异 改变异既包括了处理的效应 又包括了随机误差 2SS=(观察数据-总均数)之和 公式: 总均方MS=SS/v 总总总总V=N-1 总 组间变异 三组含钙不同的饲料喂养大白鼠 其体重差值的样本均数x拔各不相同 它与总i 均数x拔的差别 即为组间变异 它反映了三组含钙不同饲料的影响 同时也包括了随机误差 2SS=(组均数-总均数)之和 公式: 组间均方MS=SS/v 组间组间组间组间v=v=k-1 (k为组数) 组间1 组内变异 各组内大白鼠体重差值大小不同 这种变异称为组内变异 组内变异反映了随机变异即随机误差 2SS=(观察数据-组均数)之和 公式: 组内均方MS= SS/v组内组内组内组内 V=v=N-k 组内2 总变异=组间变异+组内变异 总自由度=组间自由度(分子的V)+组内自由度 1 零假设Ho=μ=μ=μ=„=μ 对立假设 至少有两个总体均数不相等 123k 比值MS/MS服从自由度为v和v的F分布 可查表求的F值 注意首先看检验水准α 组间组内12 然后去找出对应的F(v,v) 若所求的F值大于F(v,v) 说明P<α 那就该干嘛αα1212 干嘛了 资料的方差分析表 变异来源 SS df MS F 总变异 组间变异 组内变异 (误差) N为观察总例数 k为观察的组数 i代表列 j代表行 完全随机设计资料的方差分析(以之前的大白鼠为例) 是将同质的受试对象随机的分配到各处理组 再观察其实验效应 步骤 1 建立假设检验 确定检验水准 2 计算检验统计量 即求的F值 3 确定P值并作出推断结论 若拒绝原假设 即多个总体均数中至少有两个总体均数不相等时 如要知道哪些均数不同 则需要多样本均数的两两比较 我们很容易联想到 可否用前面所学的t检验来两两比较呢 答案是不能的 而应采用专用的两两比较的方法 即多重比较 有两种情形 1 在研究设计阶段未预先考虑或预料到 经假设检验得出多个总体均数不全等的提示后 才决定进行多个均数的两两事后比较 此类情况常用于探索性研究 往往涉及每两个均数的比较 可采用SNK法 2 在设计阶段就根据研究目的或专业知识而好的某些均数间的两两比较 它常用于事先- - 有明确假设的证实性研究 可采用 Dunnett-t检验 和Bonferroni法 SNK法 属多重极差检验 每两个组都要比 其检验统计量为q 故又称q检验 Dunnett-t法 其检验统计量为t 它适用于k-1个实验组与对照组均数的比较(试验组与对照组比) D Bonferroni法 Bonferroni不等式 若每次检验水准为α’ 共进行m次比较 当H为真时 犯第一类错误的累0 计概率不会超过mα’ 故要使多次比较后犯第一类错误的累计概率不超过规定的α 可利用Bonferroni不等式令α=mα’ 确定每次比较的检验水准α’=α/m 本质上讲Bonferroni法是对检验水准进行调整 该法适用于所有的两两比较 多个均数与多个频数均适用 方差分析的前提条件 1 各样本是相互独立的随机样本 均服从正态分布 2 各样本的总体方差相等 即方差齐性 实际上只要各组样本含量相近或相当 即使方差不齐 方差分析仍然稳健且检验效能较高 若较大方差组有较大的样本含量 则方差分析的结果容易拒绝H 0 若较大方差组有较小样本含量 则不容易拒绝H故有一部分统计学家不赞成进行方差0 齐性检验 方差齐性检验 2Bartlett X检验 资料服从正态分布的多个总体方差齐性检验法 Levene检验 资料是任意分布时的方差齐性检验法 数据变换 对于明显偏离正态性和方差齐性条件的资料 通常有三种处理方法 1 通过某种形式的数据变换以改善其假定条件 2 采用非参数统计分析方法 如秩和检验 3 采用近似检验 如t’检验 数据变换虽然改变了资料分布形式 但未改变各族资料间的关系 常用数据变换方法 1 对数变换 适用于对数正态分布资料 如抗体滴度资料 2 平方根变换 3 平方根反正弦变换 2 第九章 χ检验 对于假设检验 我们都是先假定总体的分布类型是已知的 比如都认为总体服从正态分布或近似正态分布 然在实际中 事先并不知道总体的分布类型 此时首先需要根据样本对总体分 2布的种种假设进行检验 χ检验就是其中一种检验方法 2χ检验不仅可以推断单个样本的频率分布是否等于某种给定的理论分布 还可以检验两个样本的总体分布是否相同 四格表卡方检验 独立样本资料的四格表 组别 属性 合计 Y Y 12 甲 a(T) b(T) n=a+b 11121乙 c(T) d(T) n=c+d 21222合计 m=a+c m=b+d n=a+b+c+d 12 (a b c d)为观察频数 (T TTT)为理论频数 1112 21 222 =2χΣ(A-T)/T 自由度v=(行数-1)(列数-1) - - 求出卡方值之后 确定P值与F检验类似 是一个范围 卡方值越大 P值越小 2注意 以上2X2列联表χ检验要求:n不小于40 T不小于5 当n满足 但某一个格子出现 225,T?1 需要做如下矫正χ=Σ(,A-T,-0.5)/T 如果样本例数不是很大 计算时首先应估计表中最小的T值 以确定是否需采用校正公式 22x2列联表χ检验注意事项 21 χ校正公式只适合v=1的四格表资料 对v?2的多组样本分布 一般不做矫正 2 当n<40或T<1时 校正卡方值也不恰当 这时可用Fisher确切检验 3 注意 在两例中均强调了两组患者病情相似 这点很重要 只有在两组资料其他方面“同质”的前提下才能比较两个频率 四格表只能对两个率作出比较 若要对多个率或多个频率分布做出比较 则需要 2RxC列联表χ检验 原理与2x2列联表同 2χ= n为第R行合计数 n为第C列合计数 RC 自由度仍为 v=(行数-1)(列数-1) 2对于多个率或多个率分布比较的χ检验 结论为拒绝H时 仅表示多组中至少有两组有差0 别 若要明确哪两组之间不同 还需进一步做多组间的两两比较 方差分析那会儿不可以 但这里是可以的 但要调整检验水准 α’=α/两两比较的次数 2RxC列联表χ检验注意事项 要求理论频数不宜太小 一般不宜有1/5以上格子的理论频数小于5或不宜有一个理论频数小于1 若不满足此要求 1 增加样本含量(最佳办法) 2 改用RxC列联表的Fisher确切概率法 2x2列联表的确切概率法何时应用 1 样本含量n,40 2 理论频数T,1 3 卡方检验后所的概率P接近检验水准α 第十章 秩和检验 掌握优缺点 适用范围 即各种编秩方法 凡是以特定的总体分布为前提 对未知的总体参数做推断的假设检验方法统称参数检验 非参数检验不以特定的总体分布为前提 也不针对决定总体的几个参数做推断 无论总体分布形式如何 一端或两端无界 甚至分布不清 都能适用 以等级做记录的资料 尤为适宜 在非参数检验中 一般不直接用样本观察值做分析 统计量的计算基于原数据在整个样本中按大小所占位次 所以丢弃了观察值的具体数值 只保留其大小次序的信息 本章介绍在非参数检验中占重要地位的秩和检验 单样本资料的秩和检验 应用条件 常用于不满足t检验条件的单样本定量变量资料的比较 目的 推断样本中位数与已知总体中位数是否相等 步骤 1 建立检验假设 确定检验水准 2 计算检验统计量T值 (1)求差值 d=x-总体中位数 ii (2)编秩 依差值的绝对值由小到大编秩 遇差值为0 舍去不计 n随之减少 当差值绝对值相等时 若符号不同 求平均秩次 若符号相同 可顺序编秩 也可求平均秩次 并将各秩次冠以原差值的正负号 (3)分别求正负秩和 正秩和为T 负秩和为T 注意 负秩和最后的结果要转化为正数 +- (4)确定检验统计量 T可任取正负秩和之一 通常以绝对值小的秩和去查表 3 确定P值 做出推断 (1)查表法 条件为当n?50时 根据n和T查界值表 (2)正态近似法 查表时 若T值在上下界值范围内 其P值大于上方相应的概率 若P值恰好等于界值 其P值小于或等于上方相应概率 若不在 则P值小于相应概率 右移一栏 再作比较 - - 两组独立样本比较的秩和检验 1 定量变量两组独立样本的秩和检验 编秩 将两组数据由小到大同一编秩 遇相同数值在同一组内 可顺序编秩 若在不同组内 则必须求平均秩次 求个组秩和 以样本例数小这为n 其秩和为T 11 确定检验统计量T值 若n?n 则T=T 若相等 则都可取 121 2 有序分类变量两组独立样本的秩和检验 编秩 将两组数据按等级顺序由小到大编秩 先计算各等级合计数 并确定各等级秩次范围 求出各等级平均秩次 求各组秩和 各等级的平均秩次分别乘以各组各等级的例数 再求和即可得到各组秩和 确定统计量T值 取T(即样本含量小的那个) 1 非参数检验优缺点 有广泛的适应性和良好的稳定性 但若资料符合参数检验条件 用非参数检验会损失部分信息 降低检验功效 非参数检验适用于 1 有序变量资料 2 总体分布类型不明的资料 3 分布不对称且无法转化为正态分布的资料 4对比组间方差不齐 又无适当变化方法达到方差齐性的资料 5 一端或两端观察值不确切的资料 排序时 出现相同秩次的现象称为相持 有序分类变量资料选用非参数检验 可推断个等级强度的差别 而用RxC列联表卡方检验 只能比较频数分部之间的差别 故前者优 第十一章 两变量关联性分析(连续定量变量的关联性为本章重点) 在大量的医学研究中需要研究两个随机变量X和Y之间相互关联的情况 散点图可直观的说明两变量之间是否有线性相关 两个随机变量X、Y之间呈线性趋势的关系称为线性相关 线性相关系数是定量描述两变量间线性关系密切程度和相关方向的统计指标 相关系数(pearson相关系数)= 若右端为总体协方差和总体方差时 左端便是总体相关系数 记为ρ 实际中往往未知 若右端为样本协方差和样本方差时 左端为样本相关系数 记为r 相关系数无单位 取值范围为-1到1 它的正负值表示两变量之间线性相关的方向 大于0为正相关 小于0为负相关 等于0则不相关 它的绝对值大小表示两变量之间线性关系的强度 ,r,越接近1 说明密切程度越高 ,r,越接近0 说明密切程度越低 为1时即函数关系 注意 样本相关系不为0 并不表示总体相关系数不为0 故要做假设检验 相关分析步骤 Lxx,Lyy1 绘制散点图 2 计算相关系数 r=Lxy/ 3 假设检验 常用的对相关系数进行检验的方法有两种 (1)直接查相关系数临界值表 根据自由度v=n-2 比较,r,与临界值 统计量绝对值越大 P值越小 (2)采用t检验 公式: S为样本相关系数的标准误 当H成立时 t服从自由度为v=n-2的t分布 r0r 相关分析应用中的注意问题 1 做相关分析前先绘散点图 当散点有线性趋势时才进行相关分析 2 线性相关分析要求两个变量都是随机变量 且仅适于二元正态分布资料 3 出现离群值时慎用相关 4相关关系不一定是因果关系(生儿种树) - - 5 分层资料盲目合并易出假象 第十二章 简单回归分析 上一章我们研究了线性相关 但在实际中 我们常需要通过可测或易测的变量对未知或难测的变量进行估计 以达到预测目的 如用身高和体重这些易测的指标来估计体表面积等难测的指标 回归分析就是研究一个变量如何随着另一些变量变化的方法 被估计的变量用Y表示 Y所依存的变量用X(自变量)表示 两个连续型变量之间线性依存关系的统计方法 就是线性回归 在通常情况下 研究者只能获得一定数量的样本数据 用样本数据建立的有关Y依X变化的线性表达式称为回归方程 记为 b即为回归系数 线性回归模型的使用条件 LINE 线性 独立 正态 等方差 1 因变量Y与自变量X呈线性关系(linear) 2 每个个体观察值之间相互独立(independent) 3 在一定范围内 任意给定X值 对应的随机变量Y都服从正态分布(Normal) 4 在一定范围内 不同的X值对应的随机变量Y的方差相等(equal variance) 回归参数如何估计(a b) 最小二乘原则能保证样本数据的各实测点至回归直线的纵向距离(Y-Y)的平方和最小 ii 在最小二乘法则的指导下 数学上可得a和b的计算公式 b= a= 回归方程一定经过一点( ) 如何画出回归直线呢 在X的实测全距范围内 任取相距较远且易读数的两个X值 代入方程得到两个Y^值 以直线连接两点即得回归直线 注意 回归直线的适用范围一般以自变量的取值范围为限 还需注意 我们得到的只是样本回归方程 但我们关注的是就总体而言 这种回归关系是否存在 因此我们需要做总体回归系数β是否为0的假设检验 可用方差分析或t检验 方差分析 三段长度要弄清楚 SS=SS+SSSS为Y的离均差平方和 SS反映在Y的总变异中由于X和Y的直线关系总回残 总回 而使Y的总变异减少的部分 即在Y的总变异中可以用X解释的部分SS越大 说明回归效果回 越好 V=n-1 V回= V=n-2 总1 残 所以F=MS/MS MS回=SS/V MS残=SS/V 回残回回残残 t检验 检验假设同上者方差分析 统计量记为t b 可以发现 上一章对总体相关系数ρ的假设检验计算出的t值等于这里的t值 这并不是巧rb合 当Y与X两者都是随机变量时 我们既可以计算Y与X的相关系数 又可以做Y与X的回归 对同一资料做总体相关系数ρ的假设检验和做总体回归系数β的假设检验分别得到t和rt 可以证明两者相等 鉴于相关系数的假设检验的简便性 我们可以用相关系数的假设检b 验来回答回归系数假设检验的问题 2决定系数 即回归平方和与总离均差平方和之比 R=SS/SS 回总2R取值在0到1之间 无单位 反映了回归贡献的相对程度 即在因变量Y的总变异中回归关系所能解释的比例 实际中 我们通过用决定系数来反映回归的实际效果 -
/
本文档为【广州中医药大学 统计学复习】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索