为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 2010第1-2章(公卫)

2010第1-2章(公卫)

2012-12-17 48页 ppt 382KB 17阅读

用户头像

is_494517

暂无简介

举报
2010第1-2章(公卫)null卫生统计学卫生统计学方积乾 中山大学公共卫生学院 医学统计与流行病学系卫生统计学卫生统计学第一章 绪论什么是统计学(statistics)?什么是统计学(statistics)? “A science dealing with the collection, analysis, interpretation, and presentation of masses of numerical data” (Webster's International Dictionary)。 “The science and art...
2010第1-2章(公卫)
null卫生统计学卫生统计学方积乾 中山大学公共卫生学院 医学统计与流行病学系卫生统计学卫生统计学第一章 绪论什么是统计学(statistics)?什么是统计学(statistics)? “A science dealing with the collection, analysis, interpretation, and presentation of masses of numerical data” (Webster's International Dictionary)。 “The science and art of dealing with variation in data through collection, classification, and analysis in such a way as to obtain reliable results” (John M. Last, A Dictionary of Epidemiology)什么是统计学(statistics)?什么是统计学(statistics)?:收集、、解释和表达数据 统计学:处理数据中变异性的科学与艺术 目的:求得可靠的结果 统计学的现实地位:合作、审稿、基金申请(NIH)、药物开发与申报(FDA)、卫生决策    统计学的若干概念    统计学的若干概念1. 总体与样本 总体(population): 大同小异的对象全体。 目标总体(target population): 试图下结论的某个总体. 例如,英国成年男子为目标总体 研究总体(study population) : 资料来源的较小的总体. 例如,1951年英国全部注册医生 需要谨慎: 就研究总体所下的结论未必适用于目标总体。null抽样(sampling):从研究总体抽取部分个体 样本(sample):抽取的部分个体 数据(data):观察所得资料 推断(inference) :分析样本数据,获得关于总体的知识 数据信息 信息知识 统计推断的工具:有关概率的理论。 推断的结论从来不是完全肯定或完全否定的。 关键与核心:抽样方法、样本的代表性和推断的方法 null2.同质与变异 同质性(homogeneity)  共性,大同小异 变异(variation) 个体间差异,多样性 没有同质性就构不成一个总体; 总体内没有变异性就无需统计学。 统计学的任务: 在变异的背景上 描述同一总体的同质性, 揭示不同总体的异质性 (heterogeneity)。 null3. 变量的类型 变量(variable):个体特性的数量描述 (1) 定性变量 (i) 分类变量(categorical variable) 或 名义变量(nominative variable)。 分类变量的水平(level) 代码(code) 用1、2、3、4、5等来表示各个水平。 二分类变量(binary variable), 也称0-1变量或假变量(dummy variable) (ii) 有序变量(ordinal variable) 种种可能的“取值”中自然地存在着次序。 null(2)定量变量 (i) 离散型变量 只能取整数值。 例如,手术病人数; 新生儿数 (ii) 连续型变量 可以取实数轴上的任何数值。 由测量而得到的大多属于连续型变量 例如,血压、身高、体重等 “连续”: 指该变量可以在实数轴上连续变动。 变通:红细胞记数也视为连续型变量。 (一个、两个、三个之间的差别并不重要)变量类型的转化:变量类型的转化:只能由高级向低级转化, 不能作相反方向的转化 连续型→有序→分类→二值 离散型变量常常通过适当的变换或连续性校正 后借用连续型变量或有序变量的方法来分析。 null4. 因果与联系 公共卫生领域常常要探究危险因素与疾病 之间的因果关系(causation)。 首先应当问存在不存在联系 (association) 然而,存在联系未必有因果关系 在解释统计分析的结果以及下结论时, 务必对“因果”二字慎之又慎。 学习目的与方法学习目的与方法(1)统计思维享用一生 事件的不确定性 ---- 概率 由样本推断总体,结论的不确定性 ---- 有 可能犯错误 统计学任务 ---- 限定犯错误概率的大小, 在此前提下,作决策null(2)理解概念是首位 研究的原则 确定样本量的依据 参数估计的精度 决策的两类错误 辨析:在辨析中提高,从反面吸取教训 ---- 平时争论、课堂讨论null(3)重在理解和解释结果 通过计算,体验统计概念和思想 正确理解、解释和表达计算结果 中英文结果报告:内容齐全,表达规范 ---- 作业要按照规格撰写null(4)电脑实验 用电脑模拟现实世界,从实验中看随机现象 统计软件:反复实践,灵活运用 ----机房开放, 勤动手!null(5)考试 * 笔试:理论、方法 不记公式,无数学推导,无复杂计算 * 上机考试:已做过的电脑实验; 不编程序null 第二章 定量资料的统计描述 null 把握资料的基本特征 为统计分析打下基础 统计表 描述性统计量 统计图 统计描述 ----从资料中获取信息最基本的方法第一节 频数与频数分布 第一节 频数与频数分布 频数分布表(frequency distribution table),又称频数表   一、   离散型定量变量的频数分布 例2-1 1998年某山区96名孕妇产前检查次数资 料如下: 0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…,4,7 nullnull直条图(bar chart) 横坐标:产前检查次数; 纵坐标:频率, 检查k次的妇女所占的比例(%) 等宽矩形长条:高度相当于检查次数的频率二、连续型定量变量的频数分布 二、连续型定量变量的频数分布 例2-2 抽样调查某地120名18岁~35岁健康男性居民血清铁含量(μmol/L),数据如下:null直方图(频率直方图)直方图(频率直方图) 横轴:血清铁含量 纵轴:频率密度 = 频率/组距 面积 = 频率 注:组距相等时,矩形直条的高度与相应组段的频率成正比。 null图2-2 120例健康成年男子血清铁含量分布   单峰、对称 ----- 对称分布 null 正偏峰分布(positively skewed distribution) 图2-3 某地居民238人发汞含量(μmol/kg)分布 负偏峰分布(negatively skewed distribution) 负偏峰分布(negatively skewed distribution) 第二节 定量变量的特征数 第二节 定量变量的特征数 定量地描述集中趋势与离中趋势是统计描述的重要内容 一、   描述集中趋势的统计指标   对于连续型定量变量,描述集中趋势常用的统计量为算术均数、几何均数和中位数。 null1. 算术均数 简称均数(mean,),适合描述对称分布资料的集中位置(也称为平均水平)。其计算公式为 n:样本含量 X1,X2,…,Xn:观察值 或 :观察值之和 例2-3 测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。 按式(2-1),算术均数为 对于偏峰分布资料算术均数不能较好地反映分布的集中趋势。 对于偏峰分布资料算术均数不能较好地反映分布的集中趋势。 2. 几何均数(geometric mean,G) 2. 几何均数(geometric mean,G) 适用于观察值变化范围跨越多个数量级的资料 频数图一般呈正偏峰分布 例2-5 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64, 1:64,1:128,1:512。试计算其几何均数。3. 中位数(median,M)3. 中位数(median,M) 可用于各种分布的定量资料 总体中有一半个体的数值低于这个数,一半个体的数 值高于这个数。 基于样本资料 将n例数据按升序排列,第i个数据记为 n为奇数时 n为偶数时 例2-7 某药厂观察9只小鼠口服高山红景天醇提取物 (RSAE)后在乏氧条件下的生存时间(分钟)如下:49.1,60.8,63.3,63.6,63.6,65.6,65.8,68.6,69.0。试求其中位数。 百分位数(percentile)百分位数(percentile) 总体中, 数值小于它的个体恰有X%,大于它的个 体恰有1-X% 样本估计:按照升序排列的数列里, 其左侧(即 小于它)的个体数在整个样本中所占百分比为 X%。 4. 众数(mode)4. 众数(mode)总体中出现机会最高的数值。 样本估计:在样本中出现次数最多的数值。 例2-1 1998年某山区96名孕妇产前检查次数资料: 0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…,4,7 众数为4(次)二、描述离散趋势的特征数二、描述离散趋势的特征数同一总体中不同个体之间的离散趋势又称为变异(variation)。   例2-11 试观察三组数据的离散状况。(均数都是30) A组:26,28,30,32,34 B组:24,27,30,33,36 C组:26,29,30,31,34 1. 极差(range,R)1. 极差(range,R)R = 最大值-最小值 计算简便,但仅利用了两个数据的信息 一般,样本量n越大R也往往会越大, 不够稳定 例2-12 计算上述三组数据的极差 A组 R=34-26=8 B组 R=36-24=12 C组 R=34-26=8 2. 四分位数间距(quartile range,Q)2. 四分位数间距(quartile range,Q) Q= P75-P25 P25与P75之间恰好包含50%的个体 四分位数间距Q是总体中数值居中的50%个体散布的范围 Q越大意味着数据间变异越大 null 3. 方差(variance) 与差(standard deviation) 用于反映一组对称分布的观察值在数量上的变异程度。 总体中:null样本中: null例2-14 分别计算例2-11中三组数据的标准差。 按照公式(2-11)与标准差的定义 C组数据的离散趋势最小,B组的最大5. 变异系数(coefficient of variation ,CV) 5. 变异系数(coefficient of variation ,CV) 例2-15 1985年通过十省调查得知,农村刚满周岁的女 童体重均数为8.42kg,标准差为0.98kg;身高均数为 72.4cm,标准差为3.0cm。体重的变异大还是身高的变 异大? 体重的变异系数 身高的变异系数 用于 量纲不同的变量间变异程度的比较 或 均数差别较大的变量间变异程度的比较null四、 描述分布形态的统计指标四、 描述分布形态的统计指标1. 偏度系数 (coefficient of skewness,SKEW) 总体偏度系数为0时,分布是对称的; 取正值时,分布为正偏峰; 取负值时,分布为负偏峰。 例2-2中血清铁含量(μmol/L)数据 偏度系数 SKEW=-0.19389null2. 峰度系数(coefficient of kurtosis,KURT) 正态分布的总体峰度系数为0; 取负值时,其分布较正态分布的峰平阔; 取正值时,其分布较正态分布的峰尖峭。例2-2中血清铁含量(μmol/L)数据的峰度系数 KURT=-0.01824第六节 案例讨论第六节 案例讨论案例2-1 某市1974年留驻该市一年以上,无明显 肝、肾疾病,无汞作业接触史的居民238人的发 汞值(μmol/kg)检测结果如表2-6的第1和3列所 示。试对该市居民发汞水平进行统计描述。null该市居民发汞的均数=7.14 (μmol/kg) 标准差=3.32(μmol/kg) 这样统计描述合理吗?为什么?小结小结1. 频数表、频率分布图: 描述资料的分布特征(集中趋势与离散趋势) 分布类型(对称或偏峰) 2. 描述性统计量:定量地刻画统计分布的特征。 (1)集中趋势:算术均数、几何均数、中位数; (2)离散趋势:极差、四分位数间距、方差(标准差)和变异系数; (3)分布形态:偏度、峰度 3. 百分位数是一种位置参数 描述集中趋势:P50; 描述离散趋势P75-P25 null谢谢
/
本文档为【2010第1-2章(公卫)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索