为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

第十一章 多元回归与复相关分析

2011-10-12 9页 doc 182KB 63阅读

用户头像

is_059051

暂无简介

举报
第十一章 多元回归与复相关分析§11.3 多元线性回归 前几节介绍了只有一个自变量时回归分析的方法。但实际中,因变量常受不只一个自变量的影响。如植物生长速度受温度,光照,水分,营养等影响。在这种情况下抛开其他因素不管只考虑一个因素是不适当的。因此有必要研究多个自变量的回归分析。 1、​ 多元线性回归方程 k个自变量的情况下,线性回归模型变为: (11.21) 其中 ,即它们为独立同分布的正态随机变量。 为求出各回归系数 和 , j=1, 2,……k的值,同样采用最小二乘法,即用使残差平方和 达到最小的 和 ,j=1, 2, ……k作为 和 的估计值。其中 ...
第十一章  多元回归与复相关分析
§11.3 多元线性回归 前几节介绍了只有一个自变量时回归分析的方法。但实际中,因变量常受不只一个自变量的影响。如植物生长速度受温度,光照,水分,营养等影响。在这种情况下抛开其他因素不管只考虑一个因素是不适当的。因此有必要研究多个自变量的回归分析。 1、​ 多元线性回归方程 k个自变量的情况下,线性回归模型变为: (11.21) 其中 ,即它们为独立同分布的正态随机变量。 为求出各回归系数 和 , j=1, 2,……k的值,同样采用最小二乘法,即用使残差平方和 达到最小的 和 ,j=1, 2, ……k作为 和 的估计值。其中 p = 1,2,……n。 令关于a和bj各的偏导数为0,可得: 整理,得正规方程如下: 由上述方程组中第一个方程解得: (11.22) 代入其余方程,得: (11.23) 其中 1≤i≤k, 1≤j≤k 从上述方程组中可解得b1,b2,……bk,从而求得a。可证明它们分别为β1,β2……βk和α的无偏估计量。bj称为Y对Xj的偏回归系数,它表示其他自变量固定时,Xj改变一单位所引起的Y的平均改变量。 从上述公式可见,多元回归的计算是相当麻烦的,现在通常用计算机完成。在确有多个因素影响因变量的情况下,应使用多元回归,否则会造成回归分析的失败。 2、​ 矩阵解法 由于上述公式繁杂,为简化,可引入矩阵表示法。矩阵就是矩形的数表,一般用黑体字母表示。它定义了一些特殊的运算规则,如加法、乘法、转置、求逆、微分等。涉及多元问题时都要使用它。 多元回归可用矩阵表示如下:令 其中β0 =α,b0 = a。 使用以上矩阵符号,线性回归模型可表示为: Y = Xβ+ε (11.24) 估计值为: (11.25) 残差为: (11.26) 残差平方和为: SSe = ee = (Y - XB)(Y - XB) = (Y - BX)(Y - XB) = YY - BXY - YXB + BXXB = YY - 2YXB + BXXB (11.27) (注意上式中每一项均为一个数字,而不是一个矩阵。) 对B求偏导,得: (5.28) (根据矩阵微分法则, ) 令(5.28)式等于0,得正规方程为: XXB = XY (11.29) B = (XX)-1XY (11.30) B的期望和方差为: E(B) = E[(XX)-1 XY] = (XX)-1 X E(Y) = (XX)-1 X E(X + ) = (XX)-1 X(X + E()) = (XX)-1 XXβ = 即:B为的无偏估计。 D(B) = D[(XX)-1 XY] = (XX)-1X D(Y) X(XX)-1 = (XX)-1 X I 2 X(XX)-1 = 2 (XX)-1 (∵ Y的各分量独立,且方差均为2) 上述矩阵主对角线上的元素是b0, b1, ……bk的方差,其他元素是各回归系数bj两两之间的协方差,因此可写为: (11.31) 从上述推导过程可见,采用矩阵表示法后,多元回归的过程确实显得简单了不少。 3、​ 多元回归的统计检验 1.​ 回归方程的显著性检验 回归方程的显著性检验实际是检验所有的xj, j=1, 2, ……k作为一个整体与Y的线性关系是否显著。其假设为: H0: 1 = 2 = ……k = 0, HA: 至少一个j≠0 1≤j≤k 检验方法仍为方差分析。可以证明,在多元回归的情况下y的校正平方和仍可分解为回归平方和与残差平方和两部分: 它们的自由度分别为n-1, n-k-1, 和k。采用(5.23)式中的记号,可得: 其中 因此,我们可用统计量 (11.32) 作检验。当H0成立时,F~F(k,n-k-1); H0不成立时SSR有增大的趋势,所以应使用上单尾检验。 若上述检验拒绝H0:β1 =β2 = …… =βk = 0,则应进一步对各βj,j=1,2,……k作t检验,以剔除不重要的因素。由于这里只需对各βj = 0作检验,因此可分别作t检验。 前已证明,2(XX)-1主对角线上的元素是各bj的方差。记C =(XX)-1,则有: 用MSe代替总体参数2, 得 , 在H0:βj = 0下,统计量 (11.33) 也可采用对偏回归平方和作检验来代替上述t检验。偏回归平方和即取消一个自变量后所引起的回归平方和的减少量。即: (11.34) 其中 为去掉自变量xi后,用剩下的k-1个自变量作回归所得到的计算结果。SSPi称为Y对Xi的偏回归平方和。可以证明,SSPi = ,自由度为1。因此,可用统计量 F = SSPi / MSe (11.35) 作上单尾检验。当H0成立时,F~F(1, n-k-1)。由于 因此这一F检验与前述t检验等价。 若对某一j的检验不显著,则接受H0: j = 0,即说明相应的自变量xj对因变量Y没有明显影响,可将它从变量组中剔除。每剔除一个自变量后,都应对方程重新进行回归。 在剔除不重要的自变量时,应注意: 1 每次只能剔除一个自变量。这是因为剔除掉一个自变量后,它对Y的影响很可能会转加到别的与它相关的自变量上,这样那些原先不重要的自变量也许会变得重要。 2 由于前述原因,在一次检验中,偏回归平方和大到显著的一定应该保留;偏回归平方和最小的若不显著则可剔除,其他的不管显著与否都应待重作回归后再作检验。 4、​ 复相关系数和偏相关系数 复相关系数定义为: (11.36) 它实际上是y与 的相关系数,或y与所有xj构成的整体的相关系数。对它的检验相当于对整个回归方程作方差分析。检验可通过查表进行。复相关系数与普通相关系数的不同点是它不取负值。 偏相关系数是保持其他变量不变的条件下计算的两个变量间的相关系数。它的计算公式为: (11.37) 其中C =(XX)-1, Cij为矩阵C的元素。对偏相关系数的检验也可通过查表进行。 偏相关系数和复相关系数查表时均使用MSe的自由度:n-k-1。对它们的检验与对回归平方和及偏回归平方和的检验是等价的。 5、​ 逐步回归介绍 最优的回归方程应该是既没有包含多余的(即不显著的)自变量,也没有遗漏任何必要的(即显著的)自变量。要做到这一点可使用许多方法,而逐步回归是其中较好的一种。它的基本思想是采用偏回归平方和为检验标准,每次从未进入方程的自变量中选取偏回归平方和最大的一个进行检验。若显著,则引入回归方程,重作回归;再选已进入方程的自变量中偏回归平方和最小的一个进行检验,若不显著则剔除,并重作回归;……反复重复这一步骤,直到不能引入也不能剔除为止,这样就得到了最优的回归方程。 逐步回归的主要步骤为: 1°首先建立数据的样本相关矩阵R(0) 2°利用第n-1步的相关矩阵R(n-1),求出未引入方程的各自变量的偏回归平方和。取其最大的作F检验,与给定的Fα作比较。若大于Fα则把对应的自变量引入回归方程,即对R(n-1)作变换,得R(n),并建立Y与所有已引入的自变量的回归方程。 3°利用R(n),计算所有已引入的自变量的偏回归平方和(刚引入的不必算)。选最小的作F检验。若小于给定的Fα,则把它剔除。方法仍是对R(n)作变换,得到R(n+1),它给出了新的回归方程及其他一些信息。 4°重复步骤3°,直到没有自变量可以剔除为止。 5°重复步骤2°,直到没有自变量可以引入为止。 6°计算出最优回归方程,给出复相关系数。 关于逐步回归有几点说明如下: (1)从介绍中可看出,它的计算工作量是相当大的,不用计算机很难完成。但比起其它方法,逐步回归的计算量还是比较小的。 (2)Fα的值不象以前的检验是查表得到的,而是由使用者指定的。这是因为一方面运算过程中自由度一直在变化,因此得反复查表,会增加计算量;另一方面显著性水平α本来就是人为指定的,取值非常准确并无统计学上的意义,因此也是不必要的。一般来说可以试几个不同的Fα值,Fα越大,回归方程中包含的自变量个数越少。应以自变量个数多少为标准选一个你满意的。即在能包括主要有影响的自变量,不明显降低复相关系数的情况下,尽量选取少一些的自变量个数,一般不超过3~5个。当然自变量个数主要依赖于你的问题的复杂程度。有时也可对引入和剔除设置不同的Fα,但这样有时会形成一种循环:几个自变量走马灯一样引入又剔除,总也停不下来。此时应重新设置Fα。 (3)逐步回归是一种很有用的方法,它允许我们尽量多地收集数据,然后由计算机来选择。在问题的机理不十分清楚,无法确定哪些是真正有影响的因素时,这种方法的优越性是十分明显的。 (4)哪个自变量会进入方程与所选择的自变量变化范围有关。本来不能进入的,扩大一下范围,或换一个范围,就可能进入了。 (5)一般来说,逐步回归方法所允许考虑的自变量数应小于n-1,其中n为总的数据组数。否则正规方程系数矩阵的逆不存在,计算无法进行。 (6)由于在通常情况下我们都是利用现成的程序进行逐步回归,在本书中略去了具体的计算公式。如有需要的同学可参考其他有关多元回归的教科书。 §5.4 非线性回归 线性回归虽然比较简单,但应用非常广泛。这主要是因为如果我们缩小研究范围,则任意非线性关系最后都可以用线性关系来近似。但是范围缩得太小了使用上会很不方便,一来不能对变量间的关系有一个整体上的把握,二来在不同取值范围内还要换用不同的方程,因此在许多情况下考虑两变量间的非线性关系还是很有用的。 非线性回归可分为两种情况,即已知曲线(公式)类型和未知曲线(公式)类型。这两种情况需要用不同的方法来解决。一般来说,如果已知曲线类型,回归效果会比较有保证;同时在多数情况下我们对所研究的对象都有一定了解,可以根据理论或经验给出可能的曲线类型,因此常用的还是已知曲线类型的回归。 1、​ 已知曲线类型的回归。 确定曲线类型的方法主要有: a)从专业知识判断。例如单细胞生物生长初期数量常按指数函数增长,但若考虑的生长时间相当长,后期其生长受到抑制,则会变为“S”形曲线。生态学上种群增长的情况也类似。此时常用逻辑斯蒂(Logistic)曲线进行拟合;反映药物剂量与死亡率之间关系的曲线也呈“S”形,但常用概率对数曲线描述;酶促反应动力学中的米氏方程是一种双曲线;植物叶层中的光强度分布常用指数函数描述;等等。这些公式或者来源于某种理论推导,或者是一种经验公式。 b) 如果没有足够的专业知识可判断变量间的关系是哪种类型,则可用直观的方法,即散点图的方法来判断。方法是把(x,y)数据对标在座标纸上,然后根据经验判断它们之间是什么类型。如果看来有几种类型可用,但不知哪种较好,也可多做几次回归,然后用后边介绍的方法对结果进行比较,选一种最好的。 确定曲线类型之后,回归的任务就变成确定曲线公式中的参数,因此也可称为曲线拟合。常用的回归或拟合方法有: 1. 线性化的方法。即先对数据进行适当变换,使其关系变为线性之后再按线性回归做。这种线性化的方法虽然常用,但它的缺点也是十分明显的。例如它只能保证使变换后数据的线性方程残差最小,而得到的非线性方程对原始数据没有任何最优性可谈。有时甚至会出现变换后的数据与线性回归方程吻合很好,而原始数据与非线性回归方程的差别大得不可接受的情况。因此采用线性化的方法进行曲线回归后必须用相关指数进行直观检验(见后边曲线回归的检验)。另外,也不是所有的非线性方程都能用数据变换的方法线性化。实际上,只有少数几种简单的非线性方程可用这种方法线性化,对绝大多数非线性方程来说都不行。 下面我们介绍几种生物统计中常用的变换方法。 (1)采用指数,对数,倒数等函数对自变量和因变量进行适当变换,使它们的关系变为线性。如: 指数函数: 令y = lny, a = lna, 可得:y = a + bx 幂函数:y = axb 令y = lny, a = lna, x = lnx, 可得:y = a + bx 对数函数:y = a + blnx 令x = lnx, 可得:y = a + bx 米氏方程: 令 可得: 但逻辑斯蒂方程: 是无法用变量代换的方法线性化的. (2)概率对数变换。主要用于毒理学研究中求半致死剂量。剂量与死亡率之间的关系一般呈如下曲线: 图5.3 剂量与死亡率关系 该曲线呈“S”形,但两端不对称。对于这种曲线可先把剂量取对数,使曲线对称化;然后对死亡率按标准正态分布作变换,即把死亡率作为累积概率值P,查正态分布表求出对应的单侧分位数up。它们的数学关系为 P(X
/
本文档为【第十一章 多元回归与复相关分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索