应用回归分析讲义---十三
岭回归
一、岭回归的引入
二、岭回归的SPSS程序
三、岭回归参数K的选取,参数粗估计,参数精估计,确定参数模型
四、岭回归模型的应用
1962年由A.E.Feorl提出,R.W.Kennard在1970年发展的岭回归(Ridge regression),
回归系数的有偏估计—岭回归
K称为岭参数
K=0时为最小二乘估计,K>0,小于1。K从0到1逐渐增大,选择一个最合适的K值。
岭回归用于解决模型的自变量共线性问题。
P92
YEAR
Y
X1
X2
X3
X4
X5
1987
231.00
3010.00
1888.00
81491.00
14.89
180.92
1979
298.00
3350.00
2195.00
86389.00
16.00
420.39
1980
343.00
3688.00
2531.00
92204.00
19.53
570.25
1981
401.00
3941.00
2799.00
95300.00
21.82
776.71
1982
445.00
4258.00
3054.00
99922.00
23.27
792.43
1983
391.00
4736.00
3358.00
106044.0
22.91
947.70
1984
554.00
5652.00
3905.00
110353.0
26.02
1285.22
1985
744.00
7020.00
4879.00
112110.0
27.72
1783.30
1986
997.00
7859.00
5552.00
108579.0
32.43
2281.49
1987
1310.00
9313.00
6386.00
112429.0
38.91
2690.23
1988
1442.00
11738.00
8038.00
122645.0
37.38
3169.48
1989
1283.00
13176.00
9005.00
113807.0
47.19
2450.14
1990
1660.00
14384.00
9663.00
95712.00
50.68
2746.20
1991
2178.00
16557.00
10969.00
95081.00
55.91
3335.65
1992
2886.00
20223.00
12985.00
99693.00
83.66
3311.50
1993
3383.00
24882.00
15949.00
105458.0
96.08
4152.70
建立回归模型,共线性诊断
1、VIF,容忍度,条件指数,
2、变量X2的系数为负值,经济理论认为应为正相关。说明共线性造成后果。
进行岭回归分析
一、 岭迹
模型系数随参数K变化的曲线
岭迹图
根据岭迹确定K。
K=0时表示古典回归
二、 岭回归根据岭迹图确定 参数K
P193
图A,系数趋于0,变量不重要
图B.系数由正变负,变化大,对Y有显著影响
图C. 古典模型时系数为正,岭回归时系数为负.
图D. 两个系数不稳定,一个增大时另一个减少, 但其和稳定,可以考虑保留一个变量.
图E. 变量对Y不显著
图F. 变量对Y的影响趋于稳定
选择标准:
1、 各回归系数基本稳定
2、 用最小二乘法时不合理的系数用岭回归变得合理
3、残差平方和增长不大
例
岭回归SPSS程序和岭回归模型应用
P199
变量标准化
1、参数K粗估计
INCLUDE 'c:/program files/SPSS/Ridge regression.sps'.
RIDGEREG DEP=zy /ENTER = zx1,zx2,zx3,zx4,zx5.
默认参数K从0 开始,到1,步长为0.05
2、参数K精估计
INCLUDE 'c:/program files/SPSS/Ridge regression.sps'.
RIDGEREG DEP=zy /ENTER = zx1,zx2,zx3,zx4,zx5
/START=0.0 /STOP=0.5/INC=0.01.
3、确定参数K=0.08时,建立模型
INCLUDE 'c:/program files/SPSS/Ridge regression.sps'.
RIDGEREG DEP=zy /ENTER = zx1,zx2,zx3,zx4,zx5
/k=0.08 .
岭回归选择变量
1. 删除系数趋于0的变量
2. 删除不稳定的变量
例
省市区
地方财政
支 出
(亿元)
城镇居民年
人均可支
配收入(元)
城镇居民年人均消费性支出(元)
农民人均
现金收入
(元)
农民人均
生活消费
支出(元)
社会消费品
零售总额
(亿元)
x1
x2
x3
x4
x5
y
北 京
1058.3
17653
13244
8724
5316
2902.8
天 津
442.1
12639
9653
7032
3036
1190.1
河 北
979.2
9107
6700
4318
2166
2952.9
山 西
668.8
8914
6343
3053
1878
1401.2
内蒙古
681.9
9137
6929
4235
2446
1344.1
辽 宁
1204.4
9108
7369
5491
2806
2999
吉 林
631.1
8691
6795
4451
2306
1460.8
黑龙江
787.8
8273
6178
5321
2545
1760.1
上 海
1646.3
18645
13773
8724
7278
2973
江 苏
1673.4
12319
8622
6035
3567
5699.9
浙 江
1265.5
16294
12254
8445
5433
4631.7
安 徽
713.1
8471
6368
3043
2196
1765
福 建
593.4
12321
8794
4963
3293
2345.8
江 西
564
8620
6109
3460
2484
1236.2
山 东
1466.2
10745
7457
5114
2736
6126.4
河 南
1116
8668
6038
3016
1892
3358.4
湖 北
778.7
8786
6737
3454
2430
2964.6
湖 南
873.4
9524
7505
3693
2756
2459.1
广 东
2289.1
14770
11810
5382
3708
7882.6
广 西
611.5
9287
7033
2994
2350
1397
海 南
151.2
8124
5929
3604
1969
268.6
重 庆
487.4
10243
8623
2653
2142
1215.8
四 川
1082.2
8386
6891
3087
2274
2981.4
贵 州
520.7
8151
6159
1954
1552
606.9
云 南
766.3
9266
6997
2175
1789
1034.4
西 藏
185.5
9431
8617
1925
1724
73.1
陕 西
639
8272
6656
2576
1896
1322.4
甘 肃
429.3
8087
6529
2217
1820
632.8
青 海
169.8
8058
6245
2288
1976
160.5
宁 夏
160.3
8094
6404
3463
2094
174.3
新 疆
519
7990
6208
3921
1924
637.8
例1
INCLUDE 'c:/program files/SPSS/Ridge regression.sps'.
RIDGEREG DEP=y /ENTER = x1,x2,x3,x4,x5.
默认参数K从0 开始,到1,步长为0.05
例2
INCLUDE 'c:/program files/SPSS/Ridge regression.sps'.
RIDGEREG DEP=y /ENTER = x1,x2,x3,x4,x5
/START=0.01 /STOP=0.8/INC=0.01.
例3
例2
确定系数为0.35时,
INCLUDE 'c:/program files/SPSS/Ridge regression.sps'.
RIDGEREG DEP=y /ENTER = x1,x2,x3,x4,x5
/k=0.35 .
SPSS宏
ridge regression macro,ridge regression macro,ridge regression macro
INCLUDE '[SPSS installdir]\Ridge regression.sps'.
RIDGEREG DEP=varname /ENTER = varlist
[/START={0**}] [/STOP={1**}] [/INC={0.05**}]
{value} {value} {value }
[ /K=value] .
[SPSS installdir] is the directory in which SPSS is installed.