为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

数据处理

2010-11-25 50页 ppt 524KB 26阅读

用户头像

is_705160

暂无简介

举报
数据处理null第二章 统计数据的收集与整理第二章 统计数据的收集与整理抽 样抽 样偏性抽样 随机抽样null放回式抽样 非放回式抽样试验资料的数据类型试验资料的数据类型定性变量定性变量也称为:计数数据 (1)名义变量二项分类 性别分类,如男性为1,女性为0。 多项无序分类 血型的A、B、AB、O型多项无序分类 (2)有序(等级)变量 多项有序分类 疗效观测分为显效、有效、好转及无效4个 类别。 null1.定性变量通常属于离散型数据(disc...
数据处理
null第二章 统计数据的收集与整理第二章 统计数据的收集与整理抽 样抽 样偏性抽样 随机抽样null放回式抽样 非放回式抽样试验资料的数据类型试验资料的数据类型定性变量定性变量也称为:计数数据 (1)名义变量二项分类 性别分类,如男性为1,女性为0。 多项无序分类 血型的A、B、AB、O型多项无序分类 (2)有序(等级)变量 多项有序分类 疗效观测分为显效、有效、好转及无效4个 类别。 null1.定性变量通常属于离散型数据(discrete data) 2.这些数据全都是整数,而且不能再细分,也不能进一步提高他们的精度定量变量(Quantitative Variable)定量变量(Quantitative Variable)也称为:度量数据(measurement data) 例如:长度、时间、数量和血压值null1.定量数据通常属于连续型数据(continuous data)。 2.这类数据通常是非整数,虽然有时记载的是整数,提高精度后,会出现小数。null变量variablesQuantitative data 定量数据Qualitative data 定性数据Units;elements观察单位observations 个体individuals定量变量的离散化 与有序分类变量的数量化定量变量的离散化 与有序分类变量的数量化1、实际年龄---------少年、青年、中年、老年 2、有序疗效等级:显效、有效、好转、无效 4 3 2 1 丢失信息赋值的合理性?定量变量--定性变量定量变量--定性变量 例:一组2040岁成年人的血压以12kPa为界分为正常与异常两组,统计每组例数定量变量有序分类定性变量 <8 低血压 8 正常血压 12 轻度高血压 15 中度高血压 17 重度高血压丢失信息数据的整理数据的整理null频数分布频数(frequency)——将定量数据分类成若干个组段,或将定性数据分类成若干个类别,所清点得到的每一组段或类别的数据出现个数。定量数据的频数分布定量数据的频数分布 当观测值不多(n≤30)时,不必分组,直接进行统计分析。 当观测值较多(n>30)时,宜将观测值分成若干组,以便统计分析。将观测值分组后,制成频数分布表,即可看到资料的集中和变异情况。 频数表的编制步骤频数表的编制步骤(1)求极差(range): 即最大值与最小值之差,又称为全距。 (2) 决定分组组数、组距 根据研究目的和样本含量n确定分组组数,通常分为10~15个 组。组距=极差/组数。 (3) 列出组段 第一组段的下限略小于最小值,最后一个组段上限必须包含最大值。 (4)在频数表中列出全部组限、组界及中值。 (5) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。 (6) 计算频率:Pi=fi /n, (7) 计算累计频数(fc) (8) 计算累计频率: Pc=fc /n null定性数据的频数分布定性数据的频数分布一维频数表 二维频数表 二维频数表 高维频数表 高维频数表 原始数据整理成一维频数表原始数据整理成一维频数表状况14名成人的婚姻14名成人的原始数据原始数据整理成二维频数表原始数据整理成二维频数表不同性别的婚姻状况14名成人的原始数据研究频数分布的意义研究频数分布的意义1 可以看出数据的集中情况 2 可以直观的看出数据的变异情况 3 可以看出图形的形状常用的统计图常用的统计图直方图(Histogram): 用于描述定量变量的数据分布特征。直方图(Histogram): 用于描述定量变量的数据分布特征。折线图折线图直条图(Bar chart):用直条反映定性变量不同类别下的某指标大小直条图(Bar chart):用直条反映定性变量不同类别下的某指标大小饼图(pie Chart):反映定性变量各个 分类的构成情况饼图(pie Chart):反映定性变量各个 分类的构成情况样本特征值样本特征值1.平均数 2.标准差 3.变异系数null平 均 数null 平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。平均数主要包括有: 算术平均数(arithmetic mean) 中位数(median) 众数(mode) 加权平均数(weighted mean) null 一、算术平均数 算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数,记为。 (一)直接法 主要用于样本含量n≤30以下、未经分组资料平均数的计算。null 设某一资料包含n个观测值: x1、x2、…、xn, 则样本平均数可通过下式计算: 其中,Σ为总和符号; 表示从第一个观测值x1累加到第n个观测值xn。可简写为Σx 可改写为: null (二)加权法 对于样本含量 n≥30 以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为: null100头小猪一月窝重次数分布表null 即这100头小猪一月龄平均窝重为45.2kg。 null计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算。 例如: 一群奶牛 1500头,其平均体重为750 kg ,而另一群奶牛1200头,平均体重为725 kg,如果将这两个牛群混合在一起,其混合后平均体重为多少? null(三)平均数的基本性质 1、样本各观测值与平均数之差的和为零,即离均差之和等于零。 或简写成 null 2、样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小。 (xi- )2 < (xi- a)2 (常数a≠ ) 或简写为: < null二、中位数 将资料内所有观测值从小到大依次排列,位于中间的那个观测值,称为中位数,记为Md。 null 1、当观测值个数n为奇数时,(n+1)/2位置的观测值,即x(n+1)/2为中位数: Md= 2、当观测值个数为 偶 数 时 , n/2和(n/2+1)位置的两个观测值之和的1/2为中位数,即: null144 、 145、 147、 149、150、151、153、156、157,求其中位数。 此例 n=9,为奇数,则: Md= =150(天) null分别为7、8、8、9、11、12、12、13、14、14天,求其中位数。 此例n=10,为偶数,则: null四、众 数 资料 中出现次数最多的那个观测值或次数最多一组的组中值,称为众数,记为M0。 nullnull标准差的意义 用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。仅用平均数对一个资料的特征作统计描述是不全面的,还需引入一个表示资料中观测值变异程度大小的统计量。null 全距(极差)是表示资料中各观测值变异程度大小最简便的统计量。 但是全距只利用了资料中的最大值和最小值,并不能准确表达资料中各观测值的变异程度,比较粗略。 当资料很多而又要迅速对资料的变异程度作出判断时,可以利用全距这个统计量。 标准差的演算过程标准差的演算过程null (1)为 了 准 确 地 表示样本内各个观测值的变异程度 ,人们 首 先会考虑到以平均数为标准,求出各个观测值与平均数的离差,( ) ,称为离均差。 (2)虽然离均差能表示一个观测值偏离平均数的性质和程度,但因为离均差有正、有负 ,离均差之和 为零,即( ) = 0 ,因 而 不 能 用离均差之和Σ( )来 表 示 资料中所有观测值的总偏离程度。 null (3)为了解决离均差有正 、有负,离均差之和为零的问 题 , 可先求 离 均 差的绝 对 值 并 将 各 离 均 差 绝对 值 之 和 除以 观 测 值 个 数 n 求 得 平 均 绝 对 离差,即Σ| |/n。虽然平均绝对离差可以表示资料中各观测值的变异程度,但由于平均绝对离差包含绝对值符号,使用很不方便,在统计学中未被采用。 null (4)我们还可以采用将离均差平方的办法来解决离均差有正、有负,离均差之和为零的问题。 先将各 个离 均差平方,即 ( )2 ,再求 离均差平方和 , 即 ,简称平方和,记为SS; 由 于 离差平方和 常 随 样 本 大 小 而 改 变 ,为 了 消 除 样 本大小 的 影 响 , 用平方和 除 以 样 本 大 小, 求出离均差平方和的平均数 ;null 为了使所得的统计量是相应总体参数的无 偏估计量,统计学证明,在求离均差平方和的平均数时,分母不用样本含量n,而用自由度 n-1, 于是,我们 采 用统计量 表示资料的变异程度。 统计量 称 为 均 方 ( mean square缩写为MS),又称样本方差,记为S2,即 S2=null (5)由于 样本方差 带有原观测单位的 平方单位,在仅表示一个资料中各观测值的变异程度,而作其它分析时, 常需要与平均数配合使用 ,这 时应 将平方单位还原,即应求出样本方差的平方根。统计学上把样本方差 S2 的平方根叫做样本标准 差,记为S,即: null 由于 所以式可改写为: null450, 450, 500, 500,550, 550, 550, 600, 600,650的标准差。 此例n=10,经计算得:Σx=5400,Σx2=2955000, null加权法 对于已制成频数分布表的大样本资料,可利用次数分布表,采用加权法计算标准差。计算公式为: 式中,f为各组次数;x为各组的组中值;Σf = n为总次数。 null标准差计算表null 将Σf、Σfx、 代入式得: null 三、标准差的特性 (一)标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。 (二)在计算标准差时,在各观测值加上或减去一个常数,其数值不变。 (三)当每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a倍。 变异系数 变异系数 变异系数是衡量资料中各观测值变异 程度的另一个统计量 。 标准差与平均数的比值称为 变异系数,记为C·V。 变异系数可以消除单位 和 (或)平 均数不同对两个或多个资料变异程度比较的影响。 null 变异系数的计算公式为: 已知某良种猪场长白成年母猪平均体重为 210kg, 标准差为10.5kg,而大约克成年母猪平均体重为196kg,标准差为8.5kg,试问两个品种的成年母猪,那一个体重变异程度大。 null 由于,长白成年母猪体重的变异系数: 大约克成年母猪体重的变异系数: 所以,长白成年母猪体重的变异程度大于大约克成年母猪。 原始资料的检查与核对原始资料的检查与核对1 数据本身是否有错误 2 原始资料有无遗失 3 异常值 4 缺失数据自己在做实验时需要注意的问题自己在做实验时需要注意的问题1 要养成每天实验后检查数据的习惯 2 对重复出现的异常值要引起重视 3 如果从事野外调查实验的,一定要事先准备好调查用表习题习题1 某班学生的统计学平均成绩是70分,最高分是96分,最低分是62分,根据这些信息,可以计算的离散程度的侧度指标是() A 方差 B 极差 C 标准差 D 变异系数 null2 根据下列样本数据 3,5,12,10,8,22计算的中位数为() A 9 B 10 C 12 D 11null3 用极差度量离散程度的缺陷是() A 基于均值计算离散程度 B 基于绝对值计算,不易使用 C 易于计算 D 没有使用所有数据的信息null4 计算方差所依据的中心数据是() A 众数 B 中位数 C 均值 D 几何平均数null5 某生产小组由9 名工人,日产零件数分别为10,11,14,12,13,12,9,15,12。据此数据计算的结果是() A 均值=中位数=众数 B 众数>中位数>均值 C 中位数>均值>众数 D 均值>中位数>众数
/
本文档为【数据处理】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索