为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

多元线性回归分析

2017-09-05 47页 doc 139KB 127阅读

用户头像

is_005190

暂无简介

举报
多元线性回归分析多元线性回归分析 直线回归概念复习 例:为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,…,8岁,每个层抽10个男孩,共抽60个男孩。资料如下: 60个男孩的身高资料如下 年龄 3岁 4岁 5岁 6岁 7岁 8岁 92.5 96.5 106.0 115.5 125.5 121.5 97.0 101.0 104.0 115.5 117.5 128.5 96.0 105.5 107.0 111.5 118.0 124.0 96.5 102.0 109.5 ...
多元线性回归分析
多元线性回归分析 直线回归概念复习 例:为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,…,8岁,每个层抽10个男孩,共抽60个男孩。资料如下: 60个男孩的身高资料如下 年龄 3岁 4岁 5岁 6岁 7岁 8岁 92.5 96.5 106.0 115.5 125.5 121.5 97.0 101.0 104.0 115.5 117.5 128.5 96.0 105.5 107.0 111.5 118.0 124.0 96.5 102.0 109.5 110.0 117.0 125.5 97.0 105.0 111.0 114.5 122.0 122.5 身 高 92.0 99.5 107.5 112.5 119.0 123.5 96.5 102.0 107.0 116.5 119.0 120.5 91.0 100.0 111.5 110.0 125.5 123.0 96.0 106.5 103.0 114.5 120.5 124.0 99.0 100.0 109.0 110.0 122.0 126.5 平均身高 95.4 101.8 107.6 113.1 120.6 124.0 图1 某地男童身高与年龄的散点图 从散点图上,我们可以发现样本点(X,Y)随机地出现在一条直线附 近,并且从资料背景上考察,同一年龄的儿童身高应近似服从一个正 态分布,而儿童身高的总体均数应随着年龄增长而增大,并由每个年 龄的身高样本均数与儿童年龄的散点图可以发现:这些点非常接近一 条直线以及样本均数存在抽样误差,因此推测儿童身高的总体均数与 年龄可能呈直线关系。故假定身高Y在年龄X点上的总体均数,与Y|X X呈直线关系。 ,,,,,x y 其中y表示身高,x表示年龄。由于身高的总体均数与年龄有关, 所以更准确地标记应为 ,,,,,x y|x 表示在固定年龄情况下的身高总体均数。 平均身高 直线 130 120 110 100 90 2468年龄 故有理由认为身高的总体均数与年龄的关系可能是一条直线关系 上述公式称为直线回归方程。其中,为回归系数(regression coefficient),或称为斜率(slope);,称为常数项(constant),或称为 截距(intercept)。回归系数,表示x变化一个单位y平均变化,个单位。 当x和y都是随机的,x、y间呈正相关时,>0,x、y间呈负相关时,<0, x、y间独立时,=0。 一般情况而言,,和,是未知的。对于本例而言,不同民族和不 同地区,,和,往往是不同的,因此需要进行估计的。由于不同年龄 的身高实际观察值应在对应的身高总体均数附近(即:实际观察值与总体均数之间仅存在个体变异的差异),故可以用年龄和实际身高观察值的资料对未知参数,和,进行估计,一般采用最小二乘法进行参 数估计。我们将借助Stata软件对本例资料进行直线回归。 数据格式 x y 3 92.5 3 97.0 3 96.0 3 96.5 3 97.0 3 92.0 3 96.5 3 91.0 3 96.0 3 99.0 4 96.5 4 101.0 4 105.5 4 102.0 4 105.0 4 99.5 4 102.0 4 100.0 4 106.5 4 100.0 5 106.0 5 104.0 5 107.0 5 109.5 5 111.0 5 107.5 5 107.0 5 111.5 5 103.0 5 109.0 6 115.5 6 115.5 6 111.5 6 110.0 6 114.5 6 112.5 6 116.5 6 110.0 6 114.5 6 110.0 7 125.5 7 117.5 7 118.0 7 117.0 7 122.0 7 119.0 7 119.0 7 125.5 7 120.5 7 122.0 8 121.5 8 128.5 8 124.0 8 125.5 8 122.5 8 123.5 8 120.5 8 123.0 8 124.0 8 126.5 回归命令 regress y x Source | SS df MS Number of obs = 60 -------------+------------------------------ F( 1, 58) = 777.41 Model | 5997.71571 1 5997.71571 Prob > F = 0.0000 Residual | 447.467619 58 7.71495895 R-squared = 0.9306 -------------+------------------------------ Adj R-squared = 0.9294 Total | 6445.18333 59 109.240395 Root MSE = 2.7776 ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- x | 5.854286 .2099654 27.88 0.000 5.433994 6.274577 _cons | 78.18476 1.209202 64.66 0.000 75.76428 80.60524 ------------------------------------------------------------------------------ yabxx,,,,78.184765.854286 0.2099654 .2099654=27.88 5.433994,6.274577 1)简述单因素线性回归方程y=,+,x在实际分析中要注意的问题 (a) 残差,=y-a-bx,引入回归模型y=,+,x+, iiiiii (b) ,~N(0,,)且{,}相互独立:有三个条件: ii i),服从正态分布 i2ii){,}相同的方差,。 i iii){,}相互独立。 i (c) 不满足上述3个条件时,反映在实际回归分析时,有如下情况: i)散点在直线一侧较多而且靠直线很近,当在直线的另一侧, 散点较少,而且离直线较远,反映在误差项,偏态分布。 ii)散点随着自变量x增大而离散程度增大或减小(喇叭口状), 反映了误差项,方差随着x变而变,即不满足相同方差(方差齐 性)。 iii)随着x变化而,呈某种规律性的变化。反映,还含有x的信ii 息未利用到,还可以继续改进回归模型。 12 xyyx 2 1) 不同,它们之间存在抽样误差 ,得到i2) 回归分析统计背景:对于固定自变量x,对y所在的总体进行抽对应的抽样值y。即:资料为:(x,y),(x,y),…,(x,y)。 i1122nn样,得到在固定x情况下,y的样本值,因此对于每个x因此对于同一个x值,y所对应的总体均数,相同,不同的x值,YX| y所对应的总体均数,可能不同。 YX| 如果y的总体均数值,,,,,,x与x的关系呈直线关系,则样YX|YX|本资料(x,y),(x,y),…,(x,y)呈带状直线散点图。 1122nn y=,, YX| y,,x,,,,xYX|YX| yx,,,,,,,,,, YX| 22,,~(0,)Nx(xyN~(,),,1|YX y)(xy)(xy)yabx,,122nn ,,,,,xxyx YX| bβ()aα( ),yabx,, YX| ()(a+bx) , x 2)引入多元线性回归模型定义 (a) 例3-1,研究女中学生的肺活量与体重和胸围的关系,随机抽 样了10名女中学生的体重x(kg),胸围x(cm)和肺活量y(ml),12 资料如表3-1,试建立一个因变量为y对自变量x,x的线性回12 归方程。 (b) 对于相同的体重x和胸围x,考查女中学生的肺活量y总是12 有一定的变异的,但总对应有一个总体均数,,而且总体均数y|X ,可能与体重x和胸围x有关。x和x与总体均数,最简单y|X1212y|X 的关系为线性关系: 和x,观察值y与总体均数,总有一定的随机误12y 差,,即y-,yxx,,,,,,,,,,,,=,,因此 y|XyX|01122 2ii)若,~N(0,,y,,,,x,,x,,)分布且独立,而观察值,01122i)同样的x 则称肺活量y、体重x和胸围x符合线性回归模型 12 y,,,,x,,x,, 01122 (c) 对于一般的线性回归模型定义为: i)设有p个观察自变量x,x,…,x,并用向量 12p ’X=( x,x,…,x),因变量为y,且记y的总体均数为12p 2,,,,,x,,x,?,,x,随机误差,~N(0,,)且独立,y01122pp 则线性回归模型可以表示为y,,,,x,,x,?,,x,, 01122pp 对于观察值(y,X),(y,X),…,(y,X),其中X=(x,x,…,1122nnii1i2 x),i=1,2,…,n。对应的线性回归模型为 ip y,,,,x,,x,?,,x,, i01i12i2pipi 2,~N(0,,)且独立。 i 在本例中,作线性回归如下:(介绍一下数据结构) . regress y x1 x2 Source SS df MS Number of obs = 10 F( 2, 7) = 6.75 回归平方和 回归均方和 Model 1895106.55 2 947553.275 Prob > F = 0.0232 残差平方和 残差均方和 决定系数 Residual 982143.45 7 140306.207 R-squared = 0.6587 校正和决定系数 Adj R-squared = 0.5611 Total 2877250.00 9 319694.444 Root MSE = 374.57 总平方和SS描述样本量为n=10的因变量y总的变异。回归平方和SS描述了样本量为n总R 时,由自变量x,x变化而引起的因变量y的这部分变异,SS描述了样本量为n时,由随机12e 误差项,所引起的因变量y的一部分变异,因此: 总变异=自变量引起y的变异+随机误差,引起变异 对应:SS=SS+SS 总回归误差 由于SS,SS和SS均与样本量n有关,样本量n越大,对应变异就越大。所以取平总回归误差 均变异指标:均方差MS SSSS回归误差, MS=MS=回归误差dfdf回归误差 回归系数 回归系数标准误 t值 P值 95%可信区间 y Coef. Std.Err. t P>|t| [95% Conf. Interval] x1 113.9987 38.31109 2.976 0.021 23.40741 204.5901 x2 45.48368 28.18428 1.614 0.151 -21.16155 112.1289 _cons -5545.806 2293.933 -2.418 0.046 -10970.1 -121.5156 : 回归方程y,-5545.806,113.9987x,45.48368x12解释回归系数的意义 简述SST=SSR+SSE, 总回归残差 自由度df=模型中的回归系数个数(不含常数项),df=n-df-1 回归残差回归 SSESSE回归残差, MSR=MSE=dfdf回归残差 模型的假设检验H:,=,=0 vs ,,,不全为0 01212 MSR当H成立时,~F(df,df) F,回归残差0MSE 单个回归系数检验:H:,=0 vs H:,,0 01:,当H:,=0成立时, t,~t(df):0残差se(,) 简述回归系数,的95%CI 意义与t检验的对应关系。 (d) 假设检验一般情况叙述 SSRSSE2(e) 决定系数 R==1-SSTSST (f) 复相关系数R (g) H:,=,=…=,=0 vs ,,,,…,,不全为0。当H成立时 012r12r0 ,,SSR(x,x,,x),SSR(x,x,,x)/r??,,12pr1r2p F,~F(s,n,p,1)MSE(x,x,,x)?12p ,(x,x,…,x)的估计及其误差 12p ::::(STATA命令:predict y1) ,(x,?,x),,,,x,?,,x1p011pp ::::s(,(X)) (STATA命令:predict meansd,stdp)(因为有抽样误差) ,,,,?,,001p ::95%CI ,,ts(,(X)),自由度v=n-1-p 0.025v,0 个体预测值和标准误 ::::(STATA命令:predict y1) y,,,,x,?,,x011pp 线性回归模型应用的条件 理论上 y,,,,x,,x,?,,x,, i01i12i2pipi 2,~N(0,,)且独立。 i 具体检查是否复合线性回归模型步骤 i 3. 检查残差,是否服从正态分布(引起正态分布) i1. 先做线性回归 4. 检查残差,的离散程度是否与其它自变量呈某种趋势关系。(要i2. 计算残差, 求无任何趋势关系) 5. 检查残差,变化是否与其它自变量呈某种对应趋势关系。(要求i 无任何趋势关系) 多元线性回归常见的应用以及应用中的问题 , 全回归模型(析因分析) , 多重共线对分析的影响VIFs (variance inflation factors) , 对于自变量p个自变量x,x,…,x中,以其中一个x作为12pi 因变量作回归以及其它p-1个变量为自变量,得到相应的决定 1系数R。定义x的膨胀因子 VIF,iii21,Ri 2, VIFR,0=1对应说明x与其它p-1个自变量无共线。 iii 2, 当对应VIF>1 1,R,0ii 2, 当,说明x与其它p-1个自变量完全共线,对应VIF成R,1iii 为无穷大。 , 通常认为在p个自变量x,x,…,x中,最大的VIF>10,则认12p 为严重共线,最小二乘估计受到较严重的影响。 p VIF,ii1,, 平均VIF=>>1,则认为 P-1 , 寻找影响因变量的主要因素。 , 用回归进行两组或多组的均数比较并校正混杂因素的影响。 全回归分析举例 例:据儿童保健部门的考察,4至7岁儿童的身高与年龄近似呈线性 关系,且男女身高也有差异。下列收集了50名男孩和50名女孩的身高,年龄均在4岁至7岁之间。请试建立回归方程描述年龄与身高的 关系(其中sex=1表示男,sex=0表示女) sex age y 1 4.5 90 1 6.5 111 1 6.2 107 1 6.4 107 1 6.7 114 1 4.4 88 1 6.4 109 1 4.2 86 1 6.2 107 1 7.4 122 1 5 95 1 4.1 85 1 5.6 100 1 7.5 121 1 6 106 1 7.3 120 1 4.8 93 1 6.2 105 1 5 94 1 7.7 125 1 5.1 96 1 4.4 88 1 5.6 101 1 6.8 113 1 7.4 121 1 5.8 105 1 5.6 102 1 7.5 122 1 4.2 84 1 6.7 113 1 6.8 115 1 6.7 114 1 4.9 93 1 4.3 86 1 6.3 108 1 5.4 99 1 7.2 116 1 4.4 87 1 6.3 109 1 4.4 89 1 7.8 125 1 4.8 92 1 5 95 1 4.6 90 1 7 117 1 5.4 99 1 5.5 102 1 7.8 127 1 6.3 110 1 7.1 119 0 4.3 87 0 7.2 114 0 5 95 0 5.8 100 0 4.5 90 0 4.9 91 0 4.1 86 0 4.6 90 0 5.1 94 0 6.5 109 0 7.5 116 0 5.9 104 0 4.9 94 0 7.7 118 0 7.5 116 0 7.4 117 0 4.7 91 0 6.5 107 0 6.9 112 0 6.1 105 0 4.3 89 0 5.5 99 0 4.1 85 0 7.2 113 0 5.6 101 0 6 104 0 5.4 98 0 5.1 95 0 5.6 101 0 4.7 90 0 7.9 120 0 4.7 90 0 5.1 95 0 4.9 94 0 6.4 108 0 4.3 88 0 6.2 107 0 6.8 110 0 5 94 0 4.8 94 0 5.9 104 0 6.4 107 0 4.7 93 0 7.4 116 0 6.8 110 0 5.4 99 0 5.4 99 0 5.1 96 0 7.3 115 0 7.8 121 ,,,,,,,,,,sexagesexage考虑身高总体均数为 y0123 模型为:ysexagesexage,,,,,,,,,,, 0123 用拟合上述模型 gen sexage=sex*age regress y age sex sexage ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- sex | -9.513794 1.119899 -8.50 0.000 -11.73678 -7.290813 age | 9.075835 .1337354 67.86 0.000 8.810372 9.341298 sexage | 1.929241 .1883106 10.24 0.000 1.555447 2.303035 _cons | 48.97983 .7869668 62.24 0.000 47.41771 50.54194 ysexagesexage,,,,,48.979839.5137949.0758351.929241回归方程为 则女孩为身高与年龄的回归方程为(sex=0) yage,,48.979839.075835 age的回归系数的意义为每年身高增长的速度 则男孩为身高与年龄的回归方程为(sex=1) yage,,,,(48.979839.513794)(9.0758351.929241) = 39.46603 11.005076,age age的回归系数的意义为每年身高增长的速度 因此女孩身高的增长速度为,,样本估计值为9.075835 2 男孩身高的增长数为,+,,样本估计值为11.005076 23 男孩与女孩身高的增长速度差异为,,,>0说明男孩身高增长速度快,,<0说明333女孩身高增长速度快,,说明女孩与男孩的身高增长速度是一样的。样本估计值3 为1.929241>0,P值<0.001。因此男孩身高速度高于女孩,并且差别有统计学意 义。 例:治疗缺铁性贫血100人,随机分为2组,给予不同疗法治疗:经 过一个月治疗后,治疗前后的红细胞数(万/,l)如下: A组 B组 治疗前 治疗后 组别 治疗后 组别 治疗前 y1y2groupy2groupy1 0 325 337 1 327 348 0 312 325 1 334 354 0 331 343 1 347 368 0 328 341 1 317 337 0 316 330 1 351 371 0 367 380 1 299 319 0 354 367 1 336 357 311 325 1 317 338 0 364 378 1 305 326 0 345 360 1 362 382 0 335 348 1 315 333 0 0 329 344 1 370 394 0 336 349 1 346 368 0 293 306 1 324 345 0 345 358 1 324 346 0 364 378 1 362 383 0 311 325 1 318 338 0 347 360 1 329 350 0 350 364 1 356 378 295 308 1 356 376 0 369 383 1 356 378 0 323 336 1 340 362 0 385 399 1 322 342 0 0 324 338 1 310 330 0 312 325 1 357 378 0 322 336 1 345 365 0 340 353 1 340 361 0 330 344 1 330 351 347 361 1 358 380 0 361 374 1 306 329 0 374 389 1 322 342 0 327 340 1 304 325 0 0 335 349 1 327 348 0 363 377 1 353 374 0 338 350 1 355 376 0 328 344 1 346 369 0 303 316 1 369 390 0 329 342 1 326 348 0 317 331 1 333 355 0 334 346 1 367 389 334 348 1 363 384 0 335 348 1 337 360 0 330 343 1 368 389 0 338 353 1 339 361 0 0 353 366 1 337 358 0 332 345 1 369 390 0 303 317 1 358 380 0 369 384 1 357 378 0 328 343 1 345 368 治疗前 治疗后 X,SX,S 第一组 335.28,20.840541 348.82,21.04678 第二组 339.98,19.875623 361.14,20.188914 考虑以治疗前后的改变量为评价的效应指标 先不考虑校正基线 则可以用成组t检验进行统计分析 gen y=y2-y1 ttest y,by(group) 结果如下: Two-sample t test with equal variances ------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 0 | 49 21.16327 .1524933 1.067453 20.85666 21.46987 1 | 49 13.57143 .1271081 .8897565 13.31586 13.827 ---------+-------------------------------------------------------------------- combined | 98 17.36735 .3978661 3.938674 16.57769 18.157 ---------+-------------------------------------------------------------------- diff | 7.591837 .1985212 7.197775 7.985898 ------------------------------------------------------------------------------ Degrees of freedom: 96 Ho: mean(0) - mean(1) = diff = 0 Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0 t = 38.2419 t = 38.2419 t = 38.2419 现用线性回归完成上述分析 P < t = 1.0000 P > |t| = 0.0000 P > t = 0.0000设B组(group=0)受试者的红细胞数改变量的总体均数为,=,, d 设A组(group=1)受试者的红细胞数改变量的总体均数为,=,+, d 因此两组的总体均数可以表示为,=,+,group d 用线性回归 . regress y group Source | SS df MS Number of obs = 98 -------------+------------------------------ F( 1, 96) = 1462.45 Model | 1412.08163 1 1412.08163 Prob > F = 0.0000 Residual | 92.6938776 96 .965561224 R-squared = 0.9384 -------------+------------------------------ Adj R-squared = 0.9378 Total | 1504.77551 97 15.5131496 Root MSE = .98263 ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- group | -7.591837 .1985212 -38.24 0.000 -7.985898 -7.197775 _cons | 21.16327 .1403757 150.76 0.000 20.88462 21.44191 ------------------------------------------------------------------------------ , ,的估计值为21.16327,正是B组的样本均数 , ,的估计值为-7.591837,,+,=21.16327-7.591837=13.571433, 正是A组的样本均数 , ,的估计值为两组样本均数的差值,,的检验统计量t=-38.24,与t 检验结果对应,P值也对应。 , 可以证明:成组t检验也可以用线性回归分析进行。 , 从本例中可以发现回归系数,的意义就是两组总体均数的差值,其 估计值同样为两组样本均数的差值。 gen y=y2-y1 regress y group y1 Source | SS df MS Number of obs = 98 -------------+------------------------------ F( 2, 95) = 769.69 Model | 1417.30895 2 708.654475 Prob > F = 0.0000 Residual | 87.4665611 95 .920700644 R-squared = 0.9419 -------------+------------------------------ Adj R-squared = 0.9407 Total | 1504.77551 97 15.5131496 Root MSE = .95953 ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- group | -7.546723 .194777 -38.75 0.000 -7.933405 -7.160042 y1 | .0114537 .0048069 2.38 0.019 .0019108 .0209966 _cons | 17.27509 1.637541 10.55 0.000 14.02416 20.52602 predict e,residual 计算残差值, ------------------------------------------------------------------------------ isktest e 残差正态性检验 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- e | 0.233 0.221 3.00 0.2230 gen ee=abs(e) eee (Leven’s) anova ee group Number of obs = 98 R-squared = 0.0042 Root MSE = .589872 Adj R-squared = -0.0061 Source | Partial SS df MS F Prob > F -----------+---------------------------------------------------- Model | .141918237 1 .141918237 0.41 0.5246 group | .141918237 1 .141918237 0.41 0.5246 Residual | 33.4030971 96 .347948928 -----------+---------------------------------------------------- Total | 33.5450153 97 .3458249 0.1,P>> AB (RCT) () A B AB 25 IgA(mg/dl )y a=1Aa=0A y a b b=1Ab=0B 44.53015 0 0 51.8354 0 0 50.72699 0 0 51.32889 0 0 52.39704 0 0 43.83178 0 0 51.50717 0 0 42.27048 0 0 50.69454 0 0 55.66634 0 0 46.70815 0 0 41.49752 0 0 49.04363 0 0 56.36092 0 0 50.27493 0 0 55.00134 0 0 45.98535 0 0 50.81079 0 0 46.85695 0 0 58.11675 0 0 47.03985 0 0 44.07518 0 0 48.83615 0 0 52.94321 0 0 55.67211 0 0 59.51223 1 0 59.01192 1 0 66.2534 1 0 52.14392 1 0 62.282 1 0 62.84439 1 0 62.60862 1 0 56.34302 1 0 53.54026 1 0 61.20007 1 0 58.11905 1 0 64.33759 1 0 53.66106 1 0 60.97609 1 0 53.84545 1 0 69.76657 1 0 56.07521 1 0 56.79982 1 0 55.12985 1 0 63.54123 1 0 58.359 1 0 58.46656 1 0 69.2521 1 0 61.03927 1 0 64.12475 1 0 48.32073 0 1 59.51184 0 1 51.86812 0 1 54.40755 0 1 49.39411 0 1 51.23224 0 1 46.06244 0 1 50.26468 0 1 52.23868 0 1 56.63779 0 1 61.27808 0 1 54.81761 0 1 51.26158 0 1 62.67386 0 1 61.26489 0 1 60.40732 0 1 50.62864 0 1 56.61593 0 1 58.20361 0 1 55.52191 0 1 48.20736 0 1 53.52513 0 1 46.57814 0 1 59.37329 0 1 53.89015 0 1 70.06242 1 1 68.33412 1 1 67.24548 1 1 68.92453 1 1 65.732 1 1 79.91953 1 1 65.73748 1 1 67.13339 1 1 66.22453 1 1 71.42136 1 1 62.8155 1 1 70.7141 1 1 72.84426 1 1 66.69666 1 1 66.02016 1 1 69.71373 1 1 71.57328 1 1 65.56564 1 1 75.72329 1 1 72.74133 1 1 68.24663 1 1 68.3869 1 1 67.07391 1 1 74.80067 1 1 79.48926 1 1 A B AB (a=b=0) (a=1,b=0) (a=0,b=1) (a=b=1) X,SX,SX,S X,S 49.764.568 59.974.770 54.174.868 69.724.309 gen ab=a*b . regress y a b ab Source | SS df MS Number of obs = 100 -------------+------------------------------ F( 3, 96) = 86.66 Model | 5582.20784 3 1860.73595 Prob > F = 0.0000 Residual | 2061.17815 96 21.4706057 R-squared = 0.7303 -------------+------------------------------ Adj R-squared = 0.7219 Total | 7643.38599 99 77.2059191 Root MSE = 4.6336 ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- a | 10.20887 1.310591 7.79 0.000 7.607371 12.81038 b | 4.406964 1.310591 3.36 0.001 1.805461 7.008466 ab | 5.349306 1.853455 2.89 0.005 1.670226 9.028386 _cons | 49.76046 .9267277 53.69 0.000 47.92092 51.6 ------------------------------------------------------------------------------ 三组均数的比较,资料正态分布且方差齐性(reg3.dta) 分组变量g1和g2定义 方差分析中的分组变回归模型中的分组变量表示 对应总体均数 量表示 g1=0 g2=0 A组group=0 μA g1=1 g2=0 B组group=1 μ B g1=0 g2=1 C组group=2 μC 数据结构 观察数据回归分析的方差分析的 变量 分组变量 分组变量 y g1 g2 group 38 0 0 0 g1=0,g2=0 A组观67 0 0 0 (或group=0) ????察数据 表示A组 46 0 0 0 87 1 0 1 g1=1,g2=0 B组观察73 1 0 1 (或group=1) ????数据 表示B组 115 1 0 1 124 0 1 2 g1=0,g2=1 C组观察155 0 1 2 (或group=2) ? ? ? ? 数据 表示C组 132 0 1 2 2回归模型:y,,,,g1,,g2,, 且独立。 ,~N(0,,)012 即:总体均数,,,,,g1,,g2 y012 ,,,,,,0,,,0,,A组:g1=0,g2=0,对应的总体均数 A0120 ,,,,,,1,,,0,,,, B01201B组:g1=1,g2=0,对应的总体均数 C组:g1=0,g2=1,对应的总体均数,,,,,,0,,,1,,,, C01202 因此,,,,,,,,,,0,所以检验的问题就是检验的问BA11AB 题。 因此,,,,,,,,,,0,所以检验的问题就是检验的问CA2AC2 题。 因为,,,,(,,,),(,,,),,,,, BC1A2A12 ,,,,,,所以检验就是检验 BC12 数据格式 y g1 g2 38.1206 0 0 67.34162 0 0 62.90796 0 0 65.31556 0 0 69.58817 0 0 35.32714 0 0 66.02868 0 0 29.0819 0 0 62.77817 0 0 82.66535 0 0 46.83258 0 0 25.99007 0 0 56.17453 0 0 85.44369 0 0 61.0997 0 0 80.00535 0 0 43.9414 0 0 63.24315 0 0 47.42779 0 0 92.46699 0 0 48.15941 0 0 36.30072 0 0 55.34461 0 0 71.77283 0 0 82.68842 0 0 58.0489 0 0 56.04767 0 0 85.01362 0 0 28.57566 0 0 69.128 0 0 71.37756 0 0 70.43449 0 0 45.37209 0 0 34.16106 0 0 64.80029 0 0 52.47618 0 0 77.35036 0 0 34.64425 0 0 63.90434 0 0 35.38181 0 0 99.06628 0 0 44.30083 0 0 47.19928 0 0 40.51939 0 0 74.16494 0 0 53.43601 0 0 53.86626 0 0 97.00839 0 0 64.15707 0 0 76.49899 0 0 84.5477 1 0 91.23988 1 0 104.8202 1 0 74.45151 1 0 108.0161 1 0 56.5021 1 0 93.86721 1 0 74.38637 1 0 62.59698 1 0 119.0835 1 0 72.28974 1 0 127.2765 1 0 103.4422 1 0 81.04057 1 0 81.69185 1 0 119.4486 1 0 75.34035 1 0 86.02144 1 0 113.6014 1 0 113.0365 1 0 113.1696 1 0 97.55296 1 0 79.58298 1 0 67.82103 1 0 114.8356 1 0 102.2754 1 0 97.39229 1 0 87.3518 1 0 115.5197 1 0 63.32135 1 0 79.149 1 0 61.65344 1 0 84.6485 1 0 110.9125 1 0 112.1211 1 0 103.7256 1 0 126.054 1 0 83.21771 1 0 90.76663 1 0 124.1369 1 0 120.5148 1 0 94.88055 1 0 125.5382 1 0 96.21667 1 0 94.16242 1 0 126.0081 1 0 115.0638 1 0 114.6435 1 0 102.1354 1 0 122.7107 1 0 131.1421 0 1 113.887 0 1 132.688 0 1 156.6752 0 1 118.1638 0 1 124.4931 0 1 94.90628 0 1 126.1432 0 1 135.7218 0 1 130.0799 0 1 128.5986 0 1 148.2903 0 1 103.9155 0 1 165.8997 0 1 153.2499 0 1 161.03 0 1 125.686 0 1 111.0262 0 1 143.2489 0 1 129.2844 0 1 148.2694 0 1 148.5397 0 1 139.504 0 1 146.5549 0 1 117.8908 0 1 107.7085 0 1 147.92 0 1 122.929 0 1 125.9652 0 1 111.2631 0 1 136.6548 0 1 144.5779 0 1 148.6958 0 1 142.7774 0 1 154.355 0 1 104.3635 0 1 154.4462 0 1 134.9218 0 1 143.6892 0 1 93.53427 0 1 158.2044 0 1 103.7953 0 1 120.9746 0 1 125.5946 0 1 134.1759 0 1 120.3256 0 1 134.8724 0 1 103.4812 0 1 151.5524 0 1 121.8205 0 1 组别 均数 标准差 18.49 = 59.46 X A组 XX,,37.94 ABA XX,,62.21 19.83 = 97.40 X B组 CAB XX,,34.27 CB18.18 =131.67 X C组 C regress y g1 g2 Source | SS df MS Number of obs = 150 -------------+------------------------------ F( 2, 147) = 183.67 Model | 130469.346 2 65234.673 Prob > F = 0.0000 Residual | 52211.739 147 355.181898 R-squared = 0.7142 -------------+------------------------------ Adj R-squared = 0.7103 Total | 182681.085 149 1226.04755 Root MSE = 18.846 ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- g1 | 37.93605 3.769254 10.06 0.000 30.48713 45.38498 g2 | 72.21014 3.769254 19.16 0.000 64.76121 79.65906 _cons | 59.4596 2.665265 22.31 0.000 54.19242 64.72679 ------------------------------------------------------------------------------ 得到回归方程 ygg,,,59.4637.94172.212 A组:g1=g2=0, y,,,,,,59.4637.94072.21059.46 X,59.46正好等于 AB组:g1=1,g2=0,y,,,,,,,,59.4637.94172.21059.4637.9497.40 X,97.40正好等于 BC组:g1=0,g2=1,y,,,,,,,59.4637.94072.21159.4672.21131.67+ X,131.67正好等于 C g1的总体回归系数β=μ-μ,对应样本估计值1BA,,,,37.94XX 1BA g2的总体回归系数β=μ-μ,对应样本估计值2CA ,,,,72.21XX2CA H:μ=μ对应H:β=0,相应的检验值t=10.06,P<0.001 0AB01 可以认为μ,μ,μ-μ=β的95%CI为[30.48713, 45.38498] ABBA1因此至少有95%可能性可以肯定μ-μ>0,即:μ>μ。 BABA H:μ=μ对应H:β=0,相应的检验值t=19.16,P<0.001 0AC02 可以认为μ,μ,μ-μ=β的95%CI为[64.76121,79.65906] ACCA2 -μ>0,即:μ>μ。 CACA因此至少有95%可能性可以肯定μ 为了检验H:μ=μ vs μ,μ, 0BCBC 对应检验H:β=β vs H: β,β, 012112 因此在STATA软件中输入命令: test g1=g2 ( 1) g1 - g2 = 0.0 F( 1, 147) = 82.68 Prob > F = 0.0000 P<0.001,因此可以认为μ,μ。可以证明相应的μ-μBCBC的95%CI不包含0,若,则相应的95%CI的下限大于X,XBC XX,0;若,则相应的95%CI的上限小于0。 BC 为了考察某指标y对冠心病患病是否有关。通过病例对照研 究,比较病例组(用group=1表示)和对照组(用group=0表示)的总体均数比较,并考虑该因素y可能受年龄age的影响: 数据结构 g age y 0 41 24.94407 0 45 24.64047 0 33 19.20827 0 44 25.05363 0 41 25.0708 0 44 24.10382 0 31 21.59892 0 39 23.85115 0 34 22.46088 0 32 21.87037 0 38 22.64923 0 38 22.49829 0 44 26.38823 0 37 21.68497 0 45 26.31705 0 32 19.92455 0 36 21.61224 0 39 23.03382 0 34 23.43288 0 34 21.25991 0 46 27.31522 0 31 20.43799 0 45 25.13584 0 31 20.65471 0 40 26.05978 0 38 22.14487 0 41 25.42599 0 46 26.50913 0 43 24.05161 0 42 23.46782 0 40 24.19807 0 32 20.45943 0 40 23.48565 0 41 23.58829 0 39 22.34054 0 39 23.75778 0 43 27.43651 0 43 25.7033 0 33 20.08526 0 41 23.03668 0 34 22.47298 0 37 22.12897 0 44 25.20341 0 39 23.87881 0 32 19.23366 0 45 26.12749 0 43 23.29624 0 33 22.08334 0 35 21.89737 0 38 23.51324 1 53 23.39897 1 54 24.3774 1 54 23.86706 1 47 21.93024 1 48 23.37609 1 46 21.09182 1 54 24.69827 1 52 23.92228 1 51 21.95323 1 52 24.34829 1 47 21.82058 1 53 24.62826 1 46 21.65068 1 49 22.34383 1 55 23.69631 1 49 24.66773 1 45 20.8268 1 46 22.34239 1 51 23.00325 1 56 24.22594 1 56 26.01834 1 47 20.25248 1 55 23.31365 1 45 19.4241 1 47 20.5601 1 52 22.79094 1 54 22.94952 1 51 22.56448 1 50 23.38203 1 58 26.48532 1 44 20.19375 1 51 23.59503 1 56 25.71875 1 51 23.40669 1 58 26.60265 1 58 23.97177 1 58 24.52535 1 53 23.83046 1 49 21.10761 1 47 21.71655 1 56 25.57454 1 45 22.27683 1 53 25.53465 1 54 26.51828 1 47 22.40336 1 49 22.44885 1 50 22.85915 1 51 25.34406 1 44 21.09632 先进行两组均数的比较 1 50 23.95883 . sktest y if g==0 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- y | 0.973 0.306 1.09 0.5785 . sktest y if g==1 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- y | 0.973 0.457 0.57 0.7520 ,=0.1,可以认为资料近似服从正态分布。 sdtest y,by(g) Variance ratio test ------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 0 | 50 23.33467 .2936639 2.076517 22.74453 23.92481 1 | 50 23.25188 .2475036 1.750115 22.7545 23.74925 ---------+-------------------------------------------------------------------- combined | 100 23.29327 .1910994 1.910994 22.91409 23.67246 ------------------------------------------------------------------------------ Ho: sd(0) = sd(1) F(49,49) observed = F_obs = 1.408 F(49,49) lower tail = F_L = 1/F_obs = 0.710 F(49,49) upper tail = F_U = F_obs = 1.408 Ha: sd(0) < sd(1) Ha: sd(0) ~= sd(1) Ha: sd(0) > sd(1) P < F_obs = 0.8826 P < F_L + P > F_U = 0.2348 P > F_obs = 0.1174 ,=0.1,可以认为两组方差齐性 . ttest y,by(g) Two-sample t test with equal variances ------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 0 | 50 23.33467 .2936639 2.076517 22.74453 23.92481 1 | 50 23.25188 .2475036 1.750115 22.7545 23.74925 ---------+-------------------------------------------------------------------- combined | 100 23.29327 .1910994 1.910994 22.91409 23.67246 ---------+-------------------------------------------------------------------- diff | .0827939 .3840527 -.6793463 .844934 ------------------------------------------------------------------------------ Degrees of freedom: 98 Ho: mean(0) - mean(1) = diff = 0 Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0 t = 0.2156 t = 0.2156 t = 0.2156 P < t = 0.5851 P > |t| = 0.8298 P > t = 0.4149 ,=0.05,两组均数的差异无统计学意义。 考虑下列线性回归模型 y,,(group,age),, ,(group,age),,,,group,,age012因此病例组group=1的总体均数为 ,(1,age),,,,,1,,age,,,,,,age 012012 对照组group=0的总体均数为 ,(0,age),,,,,0,,age,,,,age 01202因此对于相同的年龄,两组总体均数的差值为 ,(1,age),,(0,age),, 1 用上述模型进行回归分析,结果如下: reg y g age Source | SS df MS Number of obs = 100 -------------+------------------------------ F( 2, 97) = 127.99 Model | 262.185738 2 131.092869 Prob > F = 0.0000 Residual | 99.3520757 97 1.0242482 R-squared = 0.7252 -------------+------------------------------ Adj R-squared = 0.7195 Total | 361.537813 99 3.65189711 Root MSE = 1.0121 ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- g | -4.672662 .351174 -13.31 0.000 -5.369646 -3.975679 age | .3749893 .0234455 15.99 0.000 .3284565 .421522 _cons | 8.822586 .9185587 9.60 0.000 6.999501 10.64567 ------------------------------------------------------------------------------ 得到回归方程 ygroupage,,,8.8234.6730.375 病例组group=1代入上述回归方程,得到病例组的回归方程 yage,,,,,8.8234.6730.3754.1500.375age 对照组group=0代入上述回归方程,得到对照组的回归方程 yage,,,,8.8230.3758.8230.375age 两组方程的斜率相同,两组的截距差为group的回归系数,,1对应检验表明差别有统计意义,由于,为在相同的年龄下,1 两组均数的差值,因此可以认为病例组患者的y指标比对照组平均低(,背景意义)4.673个单位。 1 y Fitted values Fitted values 30 25 20 30405060age 考虑另一种典型情况: 研究背景同上例类似,考查另一指标y在病例对照研究中两 组均数的比较。 数据结构与上例相同 g age y 0 41 24.21337 0 45 24.88294 0 33 19.36679 0 44 23.46762 0 41 25.73558 0 44 25.24361 0 31 21.39481 0 39 23.18912 0 34 21.20419 0 32 21.43232 0 38 24.23981 0 38 22.31686 0 44 26.31606 0 37 23.28342 0 45 23.94337 0 32 19.86609 0 36 21.70771 0 39 22.38951 0 34 21.42768 0 34 21.90865 0 46 26.45627 0 31 18.58 0 45 25.14674 0 31 20.6971 0 40 22.5633 0 38 23.29622 0 41 24.06831 0 46 27.79794 0 43 26.54116 0 42 24.79964 0 40 23.60192 0 32 20.14838 0 40 24.29846 0 41 24.29752 0 39 22.99795 0 39 23.86215 0 43 25.92762 0 43 25.79781 0 33 19.637 0 41 23.96939 0 34 21.07463 0 37 21.078 0 44 25.23777 0 39 24.21729 0 32 20.80099 0 45 28.13935 0 43 26.77838 0 33 21.47319 0 35 22.42599 0 38 23.5753 1 53 26.88459 1 54 28.96615 1 54 29.52883 1 47 27.55424 1 48 28.05626 1 46 27.32139 1 54 29.30366 1 52 28.50096 1 51 27.76499 1 52 30.01915 1 47 26.69682 1 53 28.35326 1 46 26.21111 1 49 27.08439 1 55 30.15783 1 49 28.82116 1 45 26.10023 1 46 25.67737 1 51 28.71856 1 56 30.24984 1 56 30.39481 1 47 27.03056 1 55 29.88958 1 45 26.30326 1 47 26.63717 1 52 29.92446 1 54 30.39066 1 51 28.91824 1 50 27.90691 1 58 31.36464 1 44 25.13896 1 51 28.07631 1 56 32.56833 1 51 26.32878 1 58 30.60498 1 58 30.66919 1 58 33.20078 1 53 27.77008 1 49 27.20773 1 47 28.76362 1 56 32.02333 1 45 26.45706 1 53 30.24512 1 54 28.15062 1 47 28.44679 1 49 29.32327 1 50 26.84916 1 51 26.76248 1 44 25.16171 1 50 28.9908 同样先用t检验比较两组均数,再用上述模型进行回归分析 并考虑年龄对这两组均数的影响: . sktest y if g==0 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- y | 0.966 0.364 0.86 0.6513 . sktest y if g==1 Skewness/Kurtosis tests for Normality ------- joint ------ Variable | Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 -------------+------------------------------------------------------- y | 0.232 0.807 1.56 0.4589 . sdtest y,by(g) Variance ratio test ------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 0 | 50 23.33631 .3183926 2.251376 22.69647 23.97614 1 | 50 28.4694 .2666049 1.885181 27.93364 29.00517 ---------+-------------------------------------------------------------------- combined | 100 25.90285 .3304763 3.304763 25.24712 26.55859 ------------------------------------------------------------------------------ Ho: sd(0) = sd(1) F(49,49) observed = F_obs = 1.426 F(49,49) lower tail = F_L = 1/F_obs = 0.701 F(49,49) upper tail = F_U = F_obs = 1.426 Ha: sd(0) < sd(1) Ha: sd(0) ~= sd(1) Ha: sd(0) > sd(1) P < F_obs = 0.8912 P < F_L + P > F_U = 0.2175 P > F_obs = 0.1088 ,=0.1,可以认为资料近似服从正态分布,方差齐性。 . ttest y,by(g) Two-sample t test with equal variances ------------------------------------------------------------------------------ Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] ---------+-------------------------------------------------------------------- 0 | 50 23.33631 .3183926 2.251376 22.69647 23.97614 1 | 50 28.4694 .2666049 1.885181 27.93364 29.00517 ---------+-------------------------------------------------------------------- combined | 100 25.90285 .3304763 3.304763 25.24712 26.55859 ---------+-------------------------------------------------------------------- diff | -5.133097 .4152734 -5.957194 -4.309001 ------------------------------------------------------------------------------ Degrees of freedom: 98 Ho: mean(0) - mean(1) = diff = 0 Ha: diff < 0 Ha: diff ~= 0 Ha: diff > 0 t = -12.3608 t = -12.3608 t = -12.3608 P < t = 0.0000 P > |t| = 0.0000 P > t = 1.0000 ,=0.05,t检验结果为两组差别有统计学意义。 . reg y g age Source | SS df MS Number of obs = 100 -------------+------------------------------ F( 2, 97) = 481.25 Model | 982.235203 2 491.117601 Prob > F = 0.0000 Residual | 98.989421 97 1.0205095 R-squared = 0.9084 -------------+------------------------------ Adj R-squared = 0.9066 Total | 1081.22462 99 10.9214608 Root MSE = 1.0102 ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- g | .0329006 .3505324 0.09 0.925 -.6628092 .7286105 age | .4166827 .0234026 17.80 0.000 .370235 .4631305 _cons | 7.210684 .9168807 7.86 0.000 5.390929 9.030438 ------------------------------------------------------------------------------ 得到回归方程ygroupage,,,7.2110.0330.417 对照组group=0代入上式:得到对照组的回归方程 yageyage,,,,,,7.2110.0330.4177.2110.417 病例组group=1代入上式:得到病例组的回归方程 yageage,,,,,7.2110.0330.4177.2440.417 两组方程的斜率相同,两组的截距差为group的回归系数,,1 对应检验差别无统计意义,所以对于相同的年龄,两组y的 平均数无统计意义。说明作t检验得到差别有统计意义的结果受到年龄的混杂作用。 y Fitted values Fitted values 35 30 25 20 15 30405060age (.dta) AB (RCT) () A B AB 25 IgA(mg/dl )y a=1Aa=0A b=1Ab=0B gen ab=a*b 2,~N(0,,) y,,(a,b),, ,(a,b),,,,a,,b,,ab 0123 y a b 40 0 0 41 0 0 42 0 0 44 0 0 45 0 0 46 0 0 47 0 0 47 0 0 48 0 0 49 0 0 50 0 0 50 0 0 51 0 0 51 0 0 51 0 0 51 0 0 51 0 0 52 0 0 53 0 0 53 0 0 53 0 0 54 0 0 55 0 0 57 0 0 59 0 0 47 1 0 50 1 0 50 1 0 53 1 0 57 1 0 57 1 0 58 1 0 58 1 0 59 1 0 59 1 0 59 1 0 59 1 0 61 1 0 61 1 0 61 1 0 61 1 0 61 1 0 61 1 0 62 1 0 62 1 0 62 1 0 64 1 0 64 1 0 65 1 0 70 1 0 42 0 1 46 0 1 47 0 1 48 0 1 50 0 1 51 0 1 51 0 1 52 0 1 55 0 1 55 0 1 55 0 1 55 0 1 56 0 1 56 0 1 57 0 1 58 0 1 58 0 1 58 0 1 59 0 1 59 0 1 59 0 1 60 0 1 60 0 1 61 0 1 63 0 1 56 1 1 57 1 1 60 1 1 64 1 1 65 1 1 65 1 1 66 1 1 66 1 1 66 1 1 68 1 1 68 1 1 68 1 1 68 1 1 70 1 1 70 1 1 71 1 1 71 1 1 71 1 1 72 1 1 73 1 1 73 1 1 74 1 1 77 1 1 78 1 1 81 1 1 A B AB (a=b=0) (a=1,b=0) (a=0,b=1) (a=b=1) X,SX,SX,SX,S 49.64.77842 59.245.03554 54.845.24150 68.725.94783 = =+ =+=+++00102 0123 . regress y a b ab Source SS df MS Number of obs = 100 F( 3, 96) = 59.13 Model 4924.04 3 1641.34667 Prob > F = 0.0000 Residual 2664.96 96 27.76 R-squared = 0.6488 Adj R-squared = 0.6379 y Coef. Std.Err. t P>|t| [95%Conf .Interval] Total 7589.00 99 76.6565657 Root MSE = 5.2688 a 9.64 1.490235 6.469 0.000 6.681907 12.59809 b 5.24 1.490235 3.516 0.001 2.281907 8.198093 ab 4.24 2.10751 2.012 0.047 .0566251 8.423375 _cons 49.6 1.053755 47.070 0.000 47.50831 51.69169 得到回归方程: : y,49.6,9.64a,5.24b,4.24a,b :对照组a=b=0, y,49.6,X对照组 :A药组:a=1,b=0,y,49.6,9.64,59.24,X A药组 :B药组:a=0,b=1, y,49.6,5.24,54.84,X B药组A药+B药组,a=b=1, :y,49.6,9.64,5.24,4.24,68.72,X A药+B药组研究问题1:单独用A药,效应如何? 单独用B药,效应如何? 同时用A同时用B药的效应是否大于或小于单独用A药的效应+单独用B药效应? A药的样本效应值为9.64 B药的样本效应值为5.24 A药+B药的样本效应值为9.64+5.24+4.24=19.12>A药和B药单独使用的效应值的和9.64+5.24=14.88,两者相差: ,,4.24,且有统计意义。即有协同作用。 3 研究问题2:单独用A药和单独用B药,哪个药效果好? H:,=, vs H:,,, 012a12 STATA命令:test a=b test a=b ( 1) a - b = 0.0 F( 1, 96) = 8.72 Prob > F = 0.0040,说明差别有统计意义且A药优于B要。 多个回归系数检验问题 例3-2 健康女性身体各部位脂肪分布情况 用x1表示三头肌皮褶厚度,x2表示大腿围,x3表示中臂围, 用y表示身体脂肪。试用线性回归分析的方法分析身体脂肪 与三头肌皮褶厚度,大腿围和中臂围之间的关系。 no no x1 x2 x3 y x1 x2 x3 y 1 19.5 43.1 29.1 11.9 11 31.1 56.6 30 25.4 2 24.7 49.8 28.2 22.8 12 30.4 56.7 28.3 27.2 3 30.7 51.9 37 18.7 13 18.7 46.5 23 11.7 4 29.8 54.3 31.1 20.1 14 19.7 44.2 28.6 17.8 5 19.1 42.2 30.9 12.9 15 14.6 42.7 21.3 12.8 6 25.6 53.9 23.7 21.7 16 29.5 54.4 30.1 23.9 7 31.4 58.5 27.6 27.1 17 27.7 55.3 25.7 22.6 8 27.9 52.1 30.6 25.4 18 30.2 56.6 24.6 25.4 9 22.1 49.9 23.2 21.3 19 22.7 48.2 27.1 14.8 10 25.5 53.5 24.8 19.3 20 25.2 51 27.5 21.1 STATA命令 regress y x1 x2 x3 Source SS df MS Number of obs=20 F(3, 16)=19.63 Model 389.544775 3 129.848258 Prob>F=0.0000 Residual 105.844739 16 6.61529616 R-squared=0.7863 AdjR-squared=0.7463 Total 495.389513 19 26.0731323 Root MSE=2.572 H:,=,=,=0 vs H:,,,,,不全为0 01231123 P<0.0001,因此拒绝H,并认为至少有一个回归系数不为0。 0 y Coef. Std.Err. t P>|t| [95%Conf. Interval] x1 1.157647 1.357375 0.853 0.406 -1.719859 4.035153 x2 -.1388739 1.194493 -0.116 0.909 -2.671085 2.393337 x3 -.5102747 .7020557 -0.727 0.478 -1.998566 .978017 _cons 12.08683 45.77971 0.264 0.795 -84.96181 109.1355 虽然所有单个回归系数的检验P>0.05,但是单个回归系数的 检验是指其它回归系数均在模型中的条件下,而该因素的回 归系数,=0的检验。事实上,出现这种情况,很可能是自变 量之间高度相关且某一个自变量可以被其它自变量线性表 示。称为多重共线问题。 , 多重共线对分析的影响VIFs (variance inflation factors) , 对于自变量p个自变量x,x,…,x中,以其中一个x作12pi 为因变量作回归以及其它p-1个变量为自变量,得到相应的 1决定系数R。定义x的膨胀因子 VIF,iii21,Ri 2, VIFR,0=1对应说明x与其它p-1个自变量无共线。 iii 2, 当对应VIF>1 1,R,0ii 2, 当,说明x与其它p-1个自变量完全共线,对应R,1ii VIF成为无穷大。 i , 通常认为在p个自变量x,x,…,x中,最大的VIF>10,12p 则认为严重共线,最小二乘估计受到较严重的影响。 p VIF,ii1,, 平均VIF=>>1,则认为多重共线。 P-1 在本例中,自变量x1,x2,x3可能多重共线。因此在运行regress命令后,再输入计算膨胀因子的计算vif Variable | VIF 1/VIF x1 | 133.53 0.007489 x2 | 106.70 0.009372 x3 | 18.83 0.053106 Mean VIF | 86.35 因此可以认为严重的多重共线。 . sw regress y x1 x2 x3,pe(0.05) pr(0.051) begin with full model p = 0.9089 >= 0.0510 removing x2 Source | SS df MS Number of obs = 20 -------------+------------------------------ F( 2, 17) = 31.25 Model | 389.455357 2 194.727678 Prob > F = 0.0000 Residual | 105.934156 17 6.23142096 R-squared = 0.7862 -------------+------------------------------ Adj R-squared = 0.7610 Total | 495.389513 19 26.0731323 Root MSE = 2.4963 ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- x1 | 1.000585 .1282321 7.80 0.000 .7300389 1.271131 x3 | -.431442 .1766156 -2.44 0.026 -.8040683 -.0588157 _cons | 6.791625 4.488287 1.51 0.149 -2.677833 16.26108 ------------------------------------------------------------------------------ 当x2剔除模型后,x1和x3的回归系数均有统计意义。 所以模型中,出现多个回归系数的P值>0.05,不能立刻断定这些P 值大于0.05的回归系数所对应的变量均无统计意义而剔除模型。 逐步回归也分为二种方式:前进法和后推法筛选变量。 以例3-3(pp46)为例分别说明逐步回归的前进法和逐步回归 的后退法过程。 为了使资料较好地正态分布,对y取对数 gen yy=ln(y)/ln(10) 第一步: 寻找最佳的单变量线性回归模型 模型1 得到相应的F=7.09 P值=0.01 y,,,,x,,1011 模型2 得到相应的F=28.19 P值<0.001 y,,,,x,,2022 模型3 y,,,,x,, 得到相应的F=41.25 P值<0.001 3033 模型4 得到相应的F=50.05 P值<0.001 y,,,,x,,4044 因此就单变量的线性回归模型而言,模型4是相对最好的。 第二步 考虑回归模型中引进第2个变量: 模型 5 y,,,,x,,x,, 得到相应的F=0.003 P值>0.05 101144 模型 6 y,,,,x,,x,, 得到相应的F=19.46 P值<0.001 202244 模型 7 得到相应的F=26.93 P值<0.001 y,,,,x,,x,,303344 因此选用模型7(既引进变量x) 3第三步 考虑回归模型中引进第3个变量: 模型 8 y,,,,x,,x,,x,, 0112244 得到相应的F=6.891 P值<0.02 1 模型 9 y,,,,x,,x,,x,, 0223344 得到相应的F=88.83 P值<0.001 2 因此选用模型9(既引进变量x) 2考虑回归模型中引进第4个变量: y,,,,x,,x,,x,,x,,模型 10 011223344 得到相应的F=163.84 P值<0.001,但是x的P值=0.805,14 相应F=0.0615,因此x应从模型10中剔除。因此得到模型44 11 y,,,,x,,x,,x,,模型 11 0112233 最后得到模型为的变量已经不能在引进模型并且模型中的变量 也不能被剔除出模型。该模型具体结果为 MS Source SS df Number of obs=54 F(3, 50)=585.89 Model 3.86284309 3 1.28761436 Prob>F=0.0000 Residual .109885494 50 .00219771 R-squared=0.9723 Adj R-squared=0.9707 RootMSE=.04688 Total 3.97272859 53 .074957143 yy Coef. Std.Err. t P>|t| [95%Conf. Interval] x1 .0692287 .0040784 16.974 0.000 .0610369 .0774205 x2 .0092946 .0003826 24.296 0.000 .0085262 .010063 x3 .0095233 .0003064 31.077 0.000 .0089078 .0101388 _cons .4836226 .0426339 11.344 0.000 .3979898 .5692553 应用回归结果前,应检查 1) 残差是否近似正态分布(要求基本对称就可以了,大样本时要求可 以更低一些)。 2) 残差的离散程度是否各个自变量变化无关?若残差的离散程度与 某个自变量的变化有关,则应采用某种变换或用关于方差稳健的回 归分析(robust regression):在STATA软件中:如本例 regress yy x1 x2 x3,robust 若满足上述二条,回归系数的检验结果是可靠的。 3) 若要应用回归模型进行预测,则还应满足各个自变量与残差无任何 明显趋势变化。 4) 在引入模型的自变量中,若有亚元变量,则亚元变量是一组变量(认为向量变量),所以对于某一组的亚元变量,则要么该组亚元变量 全引进模型,要么该组亚元变量全剔除出模型。不能亚元变量的某 几个成分的变量进入模型,另外几个成分的亚元变量未进入模型。
/
本文档为【多元线性回归分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索