如何使用SPSS对Logistic回归中分类变量进行处理
文章编号!"##$%$&&’()##&*#)%#""#%#& 中图分类号!+&"" 文献标识码!,
如何使用 -.--对 /0123425回归中分类变量进行处理
邹宗峰 林汉生
(暨南大学医学院卫生统计学教研室 广州6"#7&)*
摘 要! 介绍了 /0123425回归分析中常见的分类变量的编码方法和在 -.--统计软件中的实现方法8使分类变量的编码技术在
/0123425回归分析中得到更好的应用9
关键词! 分类变量: /0123425回归: -.--统计软件
医学研究中8我们经常用/0123425回归分析来研...
文章编号!"##$%$&&’()##&*#)%#""#%#& 中图分类号!+&"" 文献标识码!,
如何使用 -.--对 /0123425回归中分类变量进行处理
邹宗峰 林汉生
(暨南大学医学院卫生统计学教研室 广州6"#7&)*
摘 要! 介绍了 /0123425回归分析中常见的分类变量的编码方法和在 -.--统计软件中的实现方法8使分类变量的编码技术在
/0123425回归分析中得到更好的应用9
关键词! 分类变量: /0123425回归: -.--统计软件
医学研究中8我们经常用/0123425回归分析来研究因变量
取值仅有两个或几个的情况8比如是否发病;死亡或者痊愈
等9从 /0123425回归的性质来看8它是在控制其它变量的前提
下8用某一自变量的变化量来说明因变量的变动8它要求其变
量的测量尺度应该是定距层次(2<4=>?@A*上的9然而8在实际研
究中8许多有待分析的数据却往往是分类变量(5@4=10>25@A
?@>2@BA=*8类有序及相邻类之间等间距的假设都没有得到证
实9因而8统计分析中对于分类变量的编码并无实际的数值意
义8而仅有标识作用9例如8研究煤气中毒预后与高压氧治疗
的关系8我们研究的是是否进行过高压氧治疗8不论是进行了
多少次治疗8我们都只记做有治疗8CC次和"次是一样的9但是
如果我们简单的将它的情况编码为(#D没有;"D有*8就是把
他们数值化了8这样CC次和"次的效应就会不同9
E 分类变量的编码
EFE 二分变量的编码
二分变量只是定类变量中最简单的一种8也可说是特殊
的一种9性别为定类变量中最为简单的形式8即二分变量(G2%
5H040I0J3=?@>2@BA=*8对此8只需将性别编码为!"D男8#D
女9我们把定类变量编码为#;"的形式称为虚拟变量(GJIIK
?@>2@BA=*9在实际研究中8被处理的对象很多情况下分为三类;
四类甚至更多8因此8我们在此侧重研究对三分以上的定类变
量的处理9
EFL 多分变量的编码
我们在这里以一个对工作状态的描述的例子来阐述9西
方研究者常把工作状态分为!全职工作(=IMA0K=GNJAA%42I=*;
兼 职工作(=IMA0K=GM@>4%42I=*;失去劳动能力(J<@BA=40
O0>P*及失业(<04=IMA0K=G*9这是一个四分变量8对此作虚拟
编码9
EFLFE 离差编码(2
50G2<1* 我们引入&个虚拟变量
(GJIIK?@>2@BA=*Q";Q);Q&如下!
工作状态 Q" Q) Q&
全职工作 " # #
兼职工作 # " #
失去劳动能力 # # "
失业 # # #
我们只引入&个而不是$个变量的原因是因为当我们引入
$个变量时8该回归方程将没有唯一解9由定类变量分类的R穷
举S与R互斥S原则所决定8知道任意三个变量的值就一定可推
出第四个变量的实际数值9因为回归方程的一个必然条件就
是任一自变量不能由其它自变量线性导出9在多元回归分析
中8这被称为极端的多重共线性问题9在编码时被剔除的变量
虽无法引入回归方程8但它在解释该方程最后结果时却具有
重要意义9它被称为参照变量(>=N=>=<5=?@>2@BA=*8作为其它
变量与之进行比较的基础9可以应用简单编码的例子如评价
治疗措施的疗效!无效;好转;治愈8对此编码我们就可以引入
两个变量进行编码9
EFLFL 指标编码(T=?2@420<50G2<1* 通过对比指出该类别
的成员是否存在8对比的参考类别是用一整列的零来表示9离
差编码是将分类变量中的某一类别作为参照类8用多元回归
分析的结果来说明其它类别与该类别的差异9这样8参照变量
的选择对于研究理论的最后说明就变得极其重要9然而8在许
多研究中8或者难以选出作为对比基础的参照类别8或者类别
间的比较理论价值不大8研究者也许更重视各类别与总体平
均水平之间的比较8这时就适合于指标编码9
依然以对工作状态的编码为例!
工作状态 Q" Q) Q&
全职工作 " # #
兼职工作 # " #
失去劳动能力 # # "
失业 U" U" U"
对于全职工作;兼职工作;失去劳动能力者的编码如同简
单编码8只是对失业者的编码从#变为了U"9指标编码也存在
着缺陷8由于最后进行回归方程的变量只能有 VU"个8这样就
无法直接知道第 V个类别相对于总体平均水平的差异9如上
例中8我们就无法直接获知处于失业状态的研究对象的因变
量效应相对于总体平均水平的差异9但由于各群体相对于总
体水平差异之和为零8则它的数值可以通过运算得出9
EFLFW 对比编码(50<4>@3450G2<1* 在回归分析分类变量的
编码方法中8最为灵活及研究控最高的方法是对比编码9
它能按照研究者需要8将变量中具有同一性质的类别群与另
X#""X
Y0J><@A0NZ@4H=I@425@AZ=G252<= [0A\"7 ]^ \) )##&
万方数据
一性质的类别群进行对比!依旧以工作状态的编码为例"
工作状态 #$ #% #&
全职工作 ’()&&& *()+ ’()%+
兼职工作 ’()&&& ’()+ ’()%+
失去劳动能力 ( ( *(),+
失业 *()--, ( ’()%+
我们假设 ./0.10.20.3分别是这4种层次在因变量上的
效应5
6$78./*.19:%’.3
6%7./’.1
6&7.2’8./*.1*.39:&
全职工作者0兼职工作者0失业者都属于有劳动能力的群
体56&即意味着他们与失去劳动能力者群体在因变量效应上
的差异;在有劳动能力的群体中5全职工作0兼职工作者属于
有工作的群体56%即意味着他们与失业者群体的差异;而 6$又
意味着在有劳动能力且有工作的群体中5全职工作者与兼职
工作者在因变量效应上的差异!只要满足对比编码的条件5研
究者可根据课题研究的需要自行调整系数的取值!
对比编码又可以细分为"
< 差异编码8=>??@A@BC@CDE>BF9"分类变量的所有类别
8除了第一类别以外9都是跟前置类别的平均效应相比较5这
也叫反 G@HI@J对比编码!
K G@HI@J编码8G@HI@JCDE>BF9"分类变量的所有类别
8降最后一个类别以个9都会跟后继类别的平均效应相比较!
L 重复编码8M@N@OJ@ECDE>BF9"分类变量的所有类别8除
了最后一个类别以外9都会跟 它前一个类别相比较!
P 简单编码8Q>INH@CDE>BF9"分类变量的所有类别8除了
参考类别以外9都会跟参考类别比较!
R 指标编码8=@S>OJ>DBCDE>BF9"通过对比指出该类别的
成员是否存在5对比的参考类别是用一整列的零来表示!
TUVUW 多项式编码8XDHYBDI>OHCDE>BF9 正交多项式对比5
它假设类别间距都是相等的5多项式对比只适用于数值变量!
特别是一些研究中的等级变量5当各个等级之间的间距是相
等的时候5应用多项式编码就非常合适!
V 在 ZXZZ统计软件中的实现
ZXZZ是当今权威统计分析软件之一[$\5在我国应用极
广5所以作者就以 ZXZZ软件来实例说明 ]DF>QJ>C中分类变量
的处理!由于离差编码比较常用5我们就以此为例!
VUT 实际操作步骤8乳腺癌生存分析资料’ZXZZ$()(中的数
据库9
定义生存时间分类变量 J>I@$8以生存时间%4个月为界5
^%4个月为(5_%4个月为$95OF@0‘>QJFAOE0@A0NA和 >B’Y@QBD
为协变量5作二项分类 ]DF>QJ>C回归分析!
< 在主菜单中5选择 aBOHYb@cM@FA@QQ>DBcd>BOAY]De
F>QJ>Cf!
K 在 ]DF>QJ>CM@FA@QQ>DB对话框5把 g>I@$放入 hDSOA>e
OJ@栏;在 i@J‘DE下拉菜单5选 jDAkOAE"]M法!
L 点击 hOJ@FDA>COHf5进入分类变量定义栏5将 ‘>QJFAOE
加到hOJ@FDA>COHCDSOA>OJ@Q栏5对比方法8hDBJAQJ9选离差编码
8>BE>COJDA95参照选 j>AQJ!
VUV 结果评述
表$ hOJ@FDA>COHlOA>OmH@QhDE>BFQ
jA@no@BCY
XOAOI@J@ACDE>BF
8$9 8%9
G>QJDHDF>CpAOE@$ +- ()((( ()(((
% &-q $)((( ()(((
& %+- ()((( $)(((
表% lOA>OmH@Q>BJ‘@rnoOJ>DB
d Z)r) sOHE E? Q>F rtN8d9
ZJ@N$ GuZgpMa= v)4-( % ()((v
GuZgpMa=8$9 ()$v, ()&&q ()&&v $ ()+-( $)%$,
GuZgpMa=8%9 ()-q+ ()&4% 4)(%$ $ ()(4+ $)vq+
hDBQJOBJ ’$)$v- ()&$, $4)%+q $ ()((( &)(%
ZJ@N% apr ()($& ()((- 4)&%& $ ()(&q $)($&
GuZgpMa= $()v(v % ()((4
GuZgpMa=8$9 ()$v& ()&&v ()&%- $ ()+-q $)%$&
GuZgpMa=8%9 (),%v ()&44 4)+(% $ ()(&4 %)(,4
hDBQJOBJ ’$)v+q ()4qq $-)(v% $ ()((( ()$4$
在这里重点叙述这两个表5其余表由于篇幅所限5省略!
8$9协变量 ‘>QJFAOE的源编码为$0%和&8组织学分级"w0
x和y级95在第二列给出三个层次的频数!由于我们采用离
差编码5选择第一分类水平8组织学w级9为参照5故协变量的
‘>QJFAOE的源编码为$时5参数编码8$9和8%9为(值;源编码为%
时5参数编码8$9为$值58%9为(值;源编码为&时5参数编码8$9
为 (值58%9为$值!协变量 ‘>QJFAOE经重编码产生新协变量
‘>QJFAOE8$9和 ‘>QJFAOE8%95前者代表组织学x级5后者代表y
级!
8%9第一步引入协变量 ‘>QJFAOE5X‘>QJFAOE7()((v;第二步
引入协变量 apr5X‘>QJFAOE7()((45Xapr7()(&q!其它统计量由
于没有引入5所以没有统计学意义!
z$$$z
数理医药学杂志 %((&年第 $-卷第 %期
万方数据
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
"#$%&’()*+,-."/$0/12/#3%&’()*+,-."2$0214563这可以说明
组织学7级和组织学8级与组织学9级相比较3较少个体生
存时间的危险度更高3而且有随着等级上升危险度亦上升的
趋势:由于 ;’()*+,-."/$041<=>3;’()*+,-."2$0414#63按照 ?041/4水
平3前者接受 @43我们不能认为组织学7级和组织学9级的差
别有统计学意义A后者拒绝 @43接受 @/3我们可以认为组织学
8级比组织学9级减少个体生存时间的危险度更大:
由于各种回归分析之间有相通之处3本文介绍的方法在
其他回归分析中也可以应用:B;BB中 CD+()*(E回归分析和
F%G比例风险模型之间的分类变量处理也很相似3F%G也可
以这样处理:本文只是粗略的谈了分类 的处理问题3希望抛砖
引玉3引起大家对分类变量处理方法的重视:
参 考 文 献
/ 刘润幸3邝建3林汉生3等HB;BB/4H4医学统计方法与应用H广州I广
东人民出版社3244/H
收稿日期I2442J/2J/>
文章编号I/446K6##5"244#$42K4//2K4# 中图分类号I&L5>H5 文献标识码IM
生命泉流浸膏体外抗 @BNK2和 @FON作用的实验研究
刘 军 张蔚英 魏 芸 高 平
"武汉大学医学院病毒学研究所 武汉6#445/$
摘 要I 以无环鸟苷"MFN$和病毒唑"&PN$作阳性对照物3采用 OQQ法和细胞病变"F;R$抑制法3观察了生命泉流浸膏
"SRB%C$抗单纯疱疹病毒7型"@BNK2$和人巨细胞病毒"@FON$的作用效果:
关键词I 生命泉流浸膏A @BNK2A @FONA OQQ法A F;R抑制法
单纯疱疹病毒"@BN$分 @BNK/和 @BNK2两个血清型3无
论是发展中国家还是发达国家3@BN自然感染率都相当高3全
世界总人口中约54T的人血清 @BN抗体阳性3超过三分之一
的人有复发性 @BN感染U/V:@BN感染可引起多种疱疹性疾
病3并与宫颈癌密切相关:人群中巨细胞病毒感染也非常普
遍3@FON是先天性感染的重要病原3可导致早期流产W死胎W
新生儿死亡以及先天性畸形等:机体感染后虽可产生抗体3但
多数人可长期带毒成为潜伏感染:生命泉流浸膏"SRB%C$是
由云南永康药业有限公司出品的一种纯天然中药制剂3体外
研究发现3SRB%C可抑制@XNK/和@XNK2的复制3并已在临床
艾滋病患者治疗中取得显著疗效:由于艾滋病患者常常并发
机会性 @BNK2和 @FON感染3同时其机体免疫功能缺陷3体
内 @FON也易活化3从而引起严重感染3甚至导致患者的死
亡:本研究旨在探讨 SRB%C在细胞水平上抑制 @BNK2和
@FON的作用效果3从而更深入了解 SRB%C对艾滋病患者
治疗的多方面药理作用:
Y 材料与方法
YHY 材料
YHYHY 药物 生命泉流浸膏"SRB%C$由云南永康药业有限
公司提供3每毫升含生药2克3实验时配成/
本文档为【如何使用SPSS对Logistic回归中分类变量进行处理】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。