回归分析中异常值的诊断与处理回归分析中异常值的诊断与处理
1 引言
对调查得到的大量原始数据进行加工处理,提取其中有用的信息,即统计整理,是进一步进行统计分析的前提.但是通常的统计整理方法往往都对样本数据有一个前提假设,即样本数据是来自同一个总体,而这个假设有时却不能成立.原因一是由客观因素造成的,如总体条件的突然变化或人们未知的某个因素的突然出现等等;二是由主观方面的因素造成的,即人为的差错如调查人员读错或抄错数据,不小心把另一些不同条件下的样本数据混杂进来.当样本中的个别数据明显的偏离样本中其余数据时,这些数据可能是来自不同的总体,我们称这样的数据...
回归分析中异常值的诊断与处理
1 引言
对调查得到的大量原始数据进行加工处理,提取其中有用的信息,即统计整理,是进一步进行统计分析的前提.但是通常的统计整理方法往往都对样本数据有一个前提假设,即样本数据是来自同一个总体,而这个假设有时却不能成立.原因一是由客观因素造成的,如总体条件的突然变化或人们未知的某个因素的突然出现等等;二是由主观方面的因素造成的,即人为的差错如调查人员读错或抄错数据,不小心把另一些不同条件下的样本数据混杂进来.当样本中的个别数据明显的偏离样本中其余数据时,这些数据可能是来自不同的总体,我们称这样的数据为异常数据.若对混有异常数据的样本按常规进行统计整理、分析、推断,往往会得出不符合实际的结论.本文就样本中的异常数据提出了诊断方法和处理方法,并结合实例说明了简单回归中上述方法的具体应用.
2 异常值的概念
所谓异常值就是在所获统计数据中相对误差较大的观察数据,也称奇异值(Outliers).狭义地定义异常值就是一批数据中有部分数据与其余数据相比明显不一致的数据,也称离群值.
社会经济统计中一切失实数据统称为异常值.由于人为或随机因素的影响,失实的数据随时都有可能出现,因而统计数据中的任何一个都有可能成为异常值,而狭义界定的异常值是指离群值,如果把统计数据按由小到大排列,若有异常值,它必位于其数据的两端,左端称为异常小值,右端的称为异常大值.
残差:考虑线性回归模型
,
,
.
其中
,
,
,
.
分量形式为
,
.
定义
为残差向量,其中
称为拟合值向量,
为
在模型
下的最小二乘估计.如果用
表示
的
个行向量,则称
,
,
为第
次试验或观测的残差.对简单回归,
,
,
.
则
,
,其中
.
于是,异常值就是在回归分析中,一组数据
如果它的残差
较其它组数据的残差大的多,则称此数据为异常值.
异常值的出现有主客观的原因.主观上抽样调查技术有问
,疏忽大意记错,或人为的虚报,谎报数据等都可能导致异常数据,这直接影响了统计数据的质量;客观上某些样品由于特定原因在某些变量上的确表现突出,明显超出平均水平,这也可能产生异常值.
异常值的存在必将导致相应统计分析误差增大,会对分析结果(平均值与
差)产生重要影响,会降低测量的精度.如果不预先处理它们,用通常的统计整理方法所得出的结论可靠性差.而异常值的诊断与处理是保证原始数据可靠性,平均值与标准差计算准确性的前提.
3 异常值的诊断方法
在讨论异常值诊断问题时,通常要假设所得样本观测值在某中意义下遵从一定的分布规律.拿到一批数据,若能从其实际背景中明确看出它服从某中分布形式时,一般的做法是在这种分布假设下,导出能较好反映异常值与正常值差异的统计量,在没有异常值的原假设下作假设检验.
以下给出两种检验方法.
3.1 F分布检验法
学生化残差:考虑线性回归模型
,记
,称
为拟合值向量,称其第
个分量
为第
个拟合值,则
,
这里
.文献中通常称
为帽子矩阵.前面已经定义了
,
,
为第
次试验或观测的残差.将其标准化为
,再用
代替
,得到所谓学生化残差
,
,
这里
为
的第
个对角元,
.
把正态线性回归模型
改写成分量形式
,
,
,
这里
,
相互独立.如果第
组数据
是一个异常点,那么它的残差就很大.它的残差之所以很大是因为它的均值
发生了非随机性漂移
.从而
.这产生了一个新的模型
记
.将模型
改写成矩阵的形式
,
,
模型
和
称为均值漂移线性回归模型.要判定
不是异常点,等价于检验假设
.
引理
用
,
和
分别表示从
、
和
剔除第
行所得到的向量或矩.从线性回归模型
剔除第
组数据后,剩余的
组数据的线性回归模型为
,
,
.
将从这个模型求到的
的最小二乘估计记为
,则
.
证明:因为
.
设
为
可逆阵,
均为
向量.用恒等式
有
,
这里
为
的第
行.将上式两边右乘
,并利用
以及
式,有
.
将
式右乘
,可以得到如下关系式
.
将其代入
式,得到
.
引理
对均值漂移线性回归模型
,
和
的最小二乘估计分别为
和
,
其中
为从非均值漂移线性回归模型
剔除第
组数据后得到的
的最小二乘估计.
,
为
的第
个对角元.
为从模型
导出的第
个残差.
证明:显然,
,
.记
.则
.
于是,根据定义
.
根据分块矩阵的逆矩阵公式(见附录
),以及
.
再由引理
知命题得证.
现在应用引理来求检验
的检验统计量.注意到,对现在的情形,在约束条件
下,模型
就化为模型
,于是
模型
无约束情形下的残差平方和
.
而模型
的无约束残差平方和
.
利用引理
得
这里
为第
组数据的残差.
利用
和
的具体表达式将
式作进一步化简:
=
,
其中
.根据引理
,所求的检验统计量为
.
于是,我们证明了如下事实:
定理
对于均值漂移线性回归模型
,如果假设
成立,则
.
据此,我们得到如下检验:对给定的
,若
,
则判定第
组数据
为异常点.当然,这种检验会犯“判无为有”的错误,也就是
可能不是异常点,而被误判为异常点.但我们犯这种错误的概率只有
,事先我们可以把它控制的很小.
显然,根据
分布与
分布的关系,我们也可以用
检验法完成上面的检验.若定义
.
对给定的
,当
时,我们拒绝假设
.即判定第
组数据
为异常点.
3.2 残差及残差图检验异常值
前面定义了
,称为残差向量,其分量形式
,
,称为第
次试验或观测的残差.特别地,对简单回归,
,
.
.所以,
,
.
残差是最重要的一种回归诊断量,它蕴涵了有关模型基本假设的许多重要信息.残差分析就是对残差进行统计处理,从中提炼出这些信息的方法.而残差图就是残差分析中使用的基本工具.所谓残差图就是残差
对因变量
或自变量
,或其它导出统计量(如拟合值
)的点子图,有时候也用残差对时间或对数据序数的点子图.最简单的图,尤其在简单回归中,为残差
对拟合值
的图.
所谓异常数据就是相对于其它观测值来说,具有大的残差的数据点.利用残差及残差图检验异常值的方法是用所给数据计算出残差
,与其余观测值的残差进行比较,具有大的残差的数据点被怀疑为异常值.然后作出自变量与因变量的散点图,残差
对拟合值
的残差图以及残差
对自变量
的残差图,从图中观察,那些远离大多数观测点的孤立的点有理由被认为是异常点.然后从数据中删除这些点,再次估计回归方程,作出
与
的散点图以及
对
的残差图,计算标准差,与删除前进行比较.
4 提出两种处理方法
4.1 采用虚拟变量消除异常值的影响
(1) 虚拟变量
某类变量(如性别、种族、颜色、宗教、国家、战争、地震等)常常表示某属性是否存在,如男或女,黑种人或白种人,教徒或非教徒,对于这类变量可用“数量化”方法设计人为变量来表示,如用 “
”或“
”,“
”表示不存在某种属性,“
”表示存在该属性.例如:用“
”表示男性,“
”表示女性,或用“
”表示大学毕业,“
”表示没有大学毕业,等等.这样假设的变量,如“
”或“
”称为虚拟变量,也称为类型变量或属性变量,它的主要特点就是将一些可以划分为不同类型或属性的变量用“
”和“
”分别表示,即属于某一类型的变量用“
”表示,不属于这一类型的变量用“
”表示.这里用
表示虚拟变量.
(2) 处理异常值的方法
在这里,我们用虚拟变量(
或
)把试验数据划分为两类,属于异常值一类用“
”表示,属于正常值一类用“
”表示.引入虚拟变量
,建立回归方程:
,
其中
,
,
,
.特别地,对简单回归,建立回归方程:
,
其中,
,
,
.
利用所给数据,作出回归估计.这样,异常值的影响被虚拟变量
的系数吸收,从而估计更接近于现实.
4.2 剔除异常值的方法
对于测定中的异常值的剔除,我们必须持慎重态度,不能贸然从事.否则会出现误删有效数据或保留异常数据的错误.通常处理步骤大致如下:
(1)初分析:首先利用所给数据作出回归估计:
.
其中
,
.特别地,对简单回归,
,其中
,
,并计算标准差:
,以及拟合值
、残差
,并列入表.然后作出
与
的散点图,拟合值
与残差
的残差图,分析判别出异常值.
(2)判别出异常值后,从测量数据中删除异常值,然后利用余下的观测值再次作回归估计,同第一步,计算标准差、拟合值以及残差,作出删除异常数据后的散点图与残差图.
(3)对比删除异常值前后的标准差以及残差图.
对于单一可疑异常数据,直接按上述步骤进行剔除异常值.对于多个可疑异常值的情况,上述剔除步骤反复逐次进行至无可剔除为止.通常可采用两种方法:向前逐一剔除法(从极大值依次向次大值逐一剔除)和向后逐一剔除法(从可疑的
个最大值依次从小到大逐一剔除).
5 实例分析
5.1 实例一
假定某调查数据
和
由表
中给出.
表
数据
和
序号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1.10
2.00
2.30
3.10
3.00
2.80
3.20
3.80
4.00
4.20
4.80
5.00
5.10
6.00
5.50
0.90
1.80
2.00
2.70
2.50
7.50
3.00
3.50
3.50
4.00
4.50
4.80
5.00
5.50
5.50
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
根据表中数据作回归估计,得回归方程:
.并算得
.
图1 散点图
表
各组数据的诊断统计量
序号
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1.10
2.00
2.30
3.10
3.00
2.80
3.20
3.80
4.00
4.20
4.80
5.00
5.10
6.00
5.50
0.90
1.80
2.00
2.70
2.50
7.50
3.00
3.50
3.50
4.00
4.50
4.80
5.00
5.50
5.50
1.5815
2.3348
2.5859
3.2555
3.1718
3.0044
3.3392
3.8414
4.0088
4.1762
4.6784
4.8458
4.9295
5.6828
5.2643
-0.6815
-0.5348
-0.5859
-0.5555
-0.6718
4.4956
-0.3392
-0.3414
-0.5088
-0.1762
-0.1784
-0.0458
0.0705
-0.1828
0.2357
-0.516
-0.405
-0.443
-0.420
-0.508
3.401
-0.257
-0.258
-0.385
-0.133
-0.135
-0.035
0.053
-0.138
0.178
-0.501
-0.392
-0.429
-0.406
-0.493
9.841
-0.248
-0.249
-0.372
-0.128
-0.130
-0.033
0.051
-0.133
0.117
.
本文档为【回归分析中异常值的诊断与处理】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。