为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

第十二章事件史分析

2013-05-01 38页 pdf 1MB 205阅读

用户头像

is_084679

暂无简介

举报
第十二章事件史分析 第十二章 事件史分析 本章将对事件史分析的基本概念和模型进行非技术性的介绍。具体地说,首 先我们将讨论什么是事件历史分析。然后介绍几种广泛使用的事件历史分析的模 型,特别要着重介绍的是离散时间的 logit 模型和 Cox 比例风险模型(Cox pro- portional hazards model) 。我们将用 1988 年中国千分之二生育节育抽样调查的数 据来示范如何使用这两种模型,并在本章后面强调一些应该注意的问题。本章的 附录中提供了使用 SPSS 软件数据处理和估计的步骤。 一、什么是事件史分析 近年来...
第十二章事件史分析
第十二章 事件史分析 本章将对事件史分析的基本概念和模型进行非技术性的介绍。具体地说,首 先我们将讨论什么是事件历史分析。然后介绍几种广泛使用的事件历史分析的模 型,特别要着重介绍的是离散时间的 logit 模型和 Cox 比例风险模型(Cox pro- portional hazards model) 。我们将用 1988 年中国千分之二生育节育抽样调查的数 据来示范如何使用这两种模型,并在本章后面强调一些应该注意的问题。本章的 附录中提供了使用 SPSS 软件数据处理和估计的步骤。 一、什么是事件史分析 近年来,事件史分析方法在社会科学研究领域中越来越流行。使用这种方法 的研究发表得越来越多,并且介绍事件史分析技术的社会科学方法的教材也 越来越多,由此大大提高了这种方法的普及程度。首先,事件史分析有很多特点 优于传统的统计分析方法,如 OLS 方法(常规最小二乘法方法,即 ordinary least 叫uare approach) c 其次,社会科学研究人员能够得到越米越多的事件史类型的数 据资料。 385 Raymond 高亮 Raymond 高亮 根据山口( Y amaguc hi )的定义心,事件历史分析是研究"事件发生的方式 和悄关因素"。社会学家和人口学家研究的许多问题都可以被认为是一些事件: 结婚,同居,离婚,出生,死亡,迁移,求职和升迁。事件历史分析的主要目的 是研究某一事件发生的方式和它的决定因素。我们也会经常饶有兴趣地研究不同 事件之间的联系及先后顺序。比如说一些研究者会对同居与离婚之间的关系进 行研究。由于通常在事件史类型数据中包含着相关事件的明确时间顺序,因此事 件的因果关系就能够被确定地揭示出来G 但是,事件历史分析技术绝不仅仅局限于社会科学。事实上,这些技术早已 在生物医学研究和工程研究中(如检测产品)得到发展和运用,只不过叫法有所 不同而己。在生物医学研究领域(例如一位癌症患者能活多久) ,人们把它称为 "生存分析"。类似地,在工程研究领域(例如研究一个灯泡的寿命,或一个弹簧 在不同压力作用下能够经历多长时间不折断),人们通常用"失败的统计分析" (statistical failure analysis) 这一术语。尽管所用术语不同,但从统计分析的角度 看.其实质是相同的。 1.传统 OLS 回归模型的局限性 很大程度上讲,事件历史分析在许多方面都优越于人们所熟悉的回归模型。 让我们首先来看→个例子,研究初婚发生的时间。根据传统的回归方法,研究这 -问题时要估算下列回归模型: 初婚年龄 = f ( 教育程度,性别,经济收入,……) + e 这从本质上讲是把初婚年龄作为某些特征如教育程度、性别、经济收入和其他一 些因素的函数。这里 "r" 代表误差项 (errors) ,通常被假定为正态分布。 其实这种模型有许多问题。第→个问题是,那些尚未结婚的人不能被纳入这 」模型,因此这部分人的信息就被浪费了。而这种情况可以纳入事件史分析模 型.它们被称之为删截 (censoring) ,即指删截了那些尚未发生所研究事件的人。 传统 OLS 回归方法的另外一个更为严重问题是,如果当结过婚的人与未结 婚的人之间存在着系统性差别,那么 OLS 回归的估计就会存在偏差。比如,如 果结婚的人都比未结婚的人有更好的经济状况,那么我们估计的经济状况方面如 工资或收入的影响就是有偏的。 工) 参见 Yamaguchi , Kazuo. 1991 . Event History Analysis.Applied 也cial 汝ience Research Melhcx.ls Series Volume 28. Newbury Park , CA: Sage Publications. Inc: 1. 2革 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 上述模型往往还把当前同居的人当作未婚的人。这是值得推敲的Q 在西方社 会如美国,同居现象极为普遍。比如,美国从 1980 年到 1984 年之间结婚的人中 有 40%有过婚前同居的经历。①并且,同居现象在 90 年代更为流行了。因此, 将同居与未婚(单身)相提并论是不对的。在事件史分析框架中,这一问题可以 归结为竞争风险模型 J 不过由于本章篇幅所限,不讨论竞争风险模型的建立。 OLS回归的另→个问题是,不能很好地处理随着时间变化的解释变量 ( time-varying explanatory variables) 。假定我们根据个人收入来衡量一个人的经济 能力,有人也许在 26 岁时一年挣 l 万美元,而在 30 岁时年薪为 2 万美元,也许 正在这时他才准备结婚(或者有财力去结婚)。在 OLS 框架中,也许解决这个问 题的一个方法是建立许多收入变量,以衡量一个人在不同年龄上的不同收人伫但 是,每个人的初婚时间是不同的,因此婚后的个人收入对于研究结婚年龄没有意 义 ο 正如我们所看到的,即使仅有一个随时间变化的解择变量,事情也会变得非 常复杂。 总而言之,在传统的。LS 回归框架中.对于随时间变化的解释变量并没有 一个很好的解决办法川 因此.事件史分析的一个优点就在于在'可以令人满意地解决这两个问题,即 删截租随时间变化的解释变量的问题ο 2. 事件史分析概述 如果读者对于生命表技术比较熟悉的话,那么从生命表的角度来考虑,会有 助于对事件历史分析的理解。事实 t生命表技术与事件历史分析之间有着内在的 联系 o 而两者之间的联系可以从考克斯 (David Cox) 关于比例风险模型的论文 题目中看出飞其论文题目为"回归模型与生命表"二在生命表中,我们的兴趣 是考察一个在阶段初始活着的人生存到某一年龄的概率。@在一定假设条件 1 q、 参见C'herlin,均ldrew .1991. Marriage , Divorce , Remarriage. Revised and enlarged ed卜 tion.C‘扭曲口dge. Harvard U口iversity Pre咱· C 参见 Nambaxliri , Krishnan and C. M. Suchindran. 1987. Lifc Table Tcchniqucs and Thcir Applica tions. Acadcmic Pre唱- G 参见C'ox , Oavid R.1972. "Regrcssion Mc对巳ls and Liic Tables." Journalof Roval Statis- tical S:xicty 1334: 187 ~ 220 . q 参见\lambα对iri , Krishnan. 1991 . Demographic 岛131ysis: A Stochastic ,气pproach. 只阳 York: Academic Prcss , Inc. 7 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 最后能推导出年龄别生存(或死亡)的概率。如果我们把年龄看成自变量,那忽 生存(或死亡)就是因变量。生命表分析的→个局限在于很难包括许多自变量. 主要是因为计算工作太复杂。例如,如果要研究在控制教育变量的条件下,死亡 慨率如何随职业而变化,那么计算工作将会非常令人厌倦。 生命表方法主要是在事件(如死亡)发生的确切时间不详、只知道在一定闯 隔(如一岁年龄间隔)内事件发生(如死亡)的数量和不发生的数量(如生存) 时才使用的方法。①而通常在事件史分析框架中要解决的却是某一事件的实际发 生时间,比如结婚的时间和开始参加工作的时间等等。 与生命表分析类似,事件史分析也专门研究年龄、性别和其他一些理论推导 的有关变量如何对生存(或经历某一事件)的概率产生影响ο 但是,事件史分析 可以根据需要轻而易举地包含许多自变量。在事件史分析中这些自变量被称之为 协变量( covariates) 。 在详细讨论事件历史分析模型之前,我们先来介绍 a些基本概念c 一个重要 的概念是风险集 (risk !'et) .它表示一批在不同时点上经历某一τ事件风险的人二 例如.在研究初婚年龄时, 1997 年的风险集是指当年年龄在 15 岁及 15 岁以上 未婚的人。通常情况下.我们对年龄组进行二比限制,因为我们认为年龄在 15 岁以 F的少儿不应该包括在结婚的风险集中。 第二个概念是离散时间与连续时间。这、涉2走到时间的单位。如果时间单位恨 大,就可以称为离散时间。如果时间单位小,则称之为连续时间。实际操作中通 常的原则是当时间单位为一年或更长的话,就将其作为离散时间对待。如果单位 是月、星期或甚至更小的单位如日或小时,我们就把它作为连续时间来对待 c 一 旦决定了是离散时间或是连续时间,我们就可以运用相应的离散或连续时间模型 了。 第三个重要的概念是持续期(spell)。持续期指从开始观察的时点到事件发 生的时点之间、或是到尚未经历事件的人被删截的时点之间的间隔C 例如,如果 一位己婚女子婚后经过很长时间才初育,我们可以说这位女子有很长持续期(在 结婚与生育之间的长时间间隔 )0 相反,如果一位女子在婚后头 10 个月就生育, 那么她的持续期就短(或短的生育间隔)。 最后-个重要概念是风险率 (hazard rate) 。对于离散时间模型,风险率可以 解释为在特定时间某一特定的人发生某一事件的概率,当然前提是这个特定的人 ① 参见 Kalbfleisch , John D.and Rωs L. Prentice. 1980. Statistical Analysis of Failure Time Data. New York: John Wiley & &lI1s. 亟显 Raymond 高亮 Raymond 高亮 Raymond 高亮 生命表分析不能轻易包含很多自变量,但事件史分析却可以。 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 在那个时间有可能经历这一事件(属于风险集)。对于连续时间模型,风险率可 以解释为每一件事发生的瞬时概率密度。 3. 删截的类型 如前所述,事件史分析的一个优点是在于它能够处理删截。尽管我们已经介 绍了删截的主要慨念是指那些在观察结束时事件尚未发生的案例,但是实际上删 截的概念十分复杂。删截可以分成两大类:右删截和左删截。如果用 T 代表随 机变量,我们可用下面的方式来定义右删截和左删截。当我们只知道 T 是大于 某一常数C 而不知道大多少时,我们就定义这一关于 T 的观察是右删截。注意, 这就是说我们不知道 T 的实际发生时点。与此相反,当我们只知道 T 小于某→ 常数C 而不知道小多少的时候,我们定义这一关于 T 的观察是左删截。同样, 这意味着我们也不知道 T 的实际发生时点。右删截的典型例子是关于初次性交 发生时间的调查。如果我们在 1997 年举行一次高校学生调查,询问他们第一次 性交的时间时,肯定有很多人还从未有过这种经历。那么,这些案例观察属于右 删截,因为我们知道 T>C(C 即调查时间 , T>C 代表事件发生于观察结束以 后)。 右删截在社会科学研究中极为普遍。实际上,我们还可以进而区分不同类型 的右删截。比如经常提到有第一类和第二类删截。上述例子就属于第一类删截, 即在调查时案例尚未经历所研究的事件。第二类删截的情况是指,在持续观察中 我们已经获得预定数量的案例经历了所研究的事件,观察就结束了。比如,我们 要研究敬老院中人口的死亡,并且研究设计要求观察要进行到全部住院老人的 50%死亡。对于这一特定研究设计(这种情况在社会科学中不太普遍) ,那些在 观察终止时尚且生存的案例就属于第二类删截。考克斯 (Cox) 和奥克斯 (Oakes)①认为第二类删截是"在工业寿命检测中经济实惠的一种有用技术"。 另外一种删截机制(右删截)可能发生于随机删截。当案例的删截时间是个 随机变量时,就会发生随机删截。其实,第→类删截就是随机删截的一种特殊情 况。许多人都知道,在美国著名的几所大学的社会学系中攻读博士学位的学生中 有许多人在中途就退出了。随机删截意味着在某一时间 t 被删截的一个案例并 不提供这一案例取得博士学位时间的任何信息。要是研究生退出博士学位项目, 人们总是认为他们没有能力完成博士学位学习,我们就不能认为这些学生是随机 ① 参见(泣, David R. and David 臼kes.1984. Analysis of Survival Data.New York: Chap- man and Hall , p.5. 389 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 删截。① 关于右删截就介绍这些,下面我们讨论左删截。左删截的一个典型例子是 于艾滋病的研究。我们假设一个研究项目要研究艾滋病人的死亡时间,然而一些 艾滋病人在研究开始以前就死亡了,我们只知道他们已经死亡了,但并不知道他 们什么时候死亡的。这就是左删截的一种情况。又比如在一个关于新婚妇女生育 率的研究中,我们知道某个妇女在研究开始以前就生了孩子,但又不知道具体是 什么时候生的 c 另外,还有可能发生部分左删截观察 (partially left censored ob- servation) 的问题。比方说,在对新婚妇女怀孕情况的研究中,我们得知一个妇 女在研究阶段中怀了孕,但不知道她什么时候结的婚(即风险期开始时点)。这 就是说,我们知道一个案例有事件发生但不知道这个案例从什么时候开始经历此 事件(怀孕)的风险。这种情况也被称为"未知开端的间隔 (uninitialized inter- vai)"CZlν 另一个问题是如何把握各种不同类型的删截情况。读者现在应该了解删截的 复杂性了 O 但是从实际研究的角度来看,我们在社会科学分析中最经常遇到的是 右删截,井且大多数还是第一类右删截,这些情况可以很容易地采用统计估计来 解决。例如,考虑到右删截经常意味着在统计估计(最大似然估计或部分似然估 计)中,我们需要弄清删截的观察案例对于似然函数有什么作用。这通常在右删 截的情况下能做到 3 但是,在左删截发生的情况下,我们通常需要制定某些假设 条件。处理左删截的大多数方法都有一些局限性,并且常常不是理想的解决方 法c 有时,没有一个好软件能完成估计,所以研究人员还得自己编写估计程序。 对于初学者来说,了解右删截就可以解决大多数社会科学的实际问题了。特别是 当读者能够学会像 SPSS 、 SAS 和 STATA 这样的流行于社会科学研究的计算机 软件中的一种时,所要做的就是在模型中定义在哪些变量上用哪些数值表示删截 案例。 4. ~些统计关系 为了对不同风险模型的统计讨论作准备,我们先要以统计形式介绍一些重要 函数,并揭示它们之间的关系。这些函数包括:风险函数 (hazard function) 、生 P 参见Alli!'On , Paul. not dated (n. d) . Lecture 比,tes on Event Hìstory Analysis. [k阳rtment of lS:riolc哥, U l11versity of Pennsylvania. ~ 参见Alli!'On , Paul. not dated (n. d) . Lecture r也随 on Event Hìstory Analysis. [k阳tment of S:riol吨;y哩 University of Pennsylvania 390 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 (survival function) 、概率密度函数 (probability density function) 、分布函 数 (distribution function)。了解并熟悉这些函数可以帮助我们理解本章介绍的事 件史分析,并有利于将来更深入的学习。 具有概率论基础知识的大部分读者熟悉密度函数(用f(t)表示)和分布函数 (用 F(t)表示)。我们将 f( t)解释为在时点 t 上的概率密度,将 F( t)解释为在时 点 t 之前事件发生的概率。我们现在介绍风险函数和生存函数。 T 是用来表示事件发生时间的随机变量。然后我们定义 P( t , S) 二 Pr(t< T公式
十分有用。根据概率论,我们有: F( t) = P们Q)=Lj(y)dy=ifby)dy 注意,在事件史分析模型中,随机变量 T 只能取非负值。此外,如果 F( t)可求导,那么F( t)的-阶导数就等于 f(t)o 而且根据定义我们有: S( t ) = 1 - F( t ) ,h ( t) = 一豆豆-) =血i1 一 F( t) -S( t) 按照概率论,后一个公式就是→个事件在时间 t 之前不发生而在时间 t 发生 的条件概率。其他公式的解释不太明显,但它们都可以进行数学推导: f( t) = h (t )吨 J hMdy] ,F(t)±1exp[-hωdyJ 让我们用一个简单的例子来熟悉→下上面的有关公式。假设随机变量 T 有 指数分布,我们就可以知道 391 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 y(f)=te叫γ) 其中 b 是一常数。那么,累积分布函数 F( t) 为: F (t) 二 jμJ川内f(yυωy川y 由此,我们还能推导 S( t): S( t) = 1 一 F( t)::::叫γ) 最后,我们还可以推导出风险函数 h (t): U八丁eXPIτ一 h (t)二止丛L 工 v \f 工土 S(t)( -t\ b exp\ b } 通过推导我们得以知道,指数分布的风险函数在所有时间 t 上是一个常数。 后面,我们还会涉及这种分布。 5. 估计生存函数的 Kaplan-Meyer 方法 在操作分析时,最好先检查一下根据实际数据计算的分布形态,然后再决定 拟合哪种理论分布类型。要是我们的目的是为数据寻找一种模型,事先检查生存 分布及其图形可以给我们一些选择分布模型的根据。 Kaplan-Meyer 方法经常被用来估计并画出估计的生存函数。这是一种非参 数方法,就是说它用不着对理论分布作出任何假设。用 t1 < t2 < … < tn 代表 n 个案例的生存时间,然后用 Kaplan-meyer 法对其生存函数创刊的估计如下: 主 (t) = 门 n二三丁 t 乓 , n-r -r! 其中 r 从所有正整数中取那些 tr~t 的且 tr 为元删截的。当所有观察都无删 截 . r 的值就是连续的整数列,否则 r 的取值就不是连续的。 用-个简单例子①来说明如何应用这一方法。我们有 10 名肿瘤患者的康复 情况的资料。有 6 名患者在不同时间上(分别为 3 , 6.5 、 6.5 、 10 、 12 、 15 个 月)旧病复发 1 名患者在 8.4个月以后失去了联系;还有 3 名患者在研究结束 时仍处于康复之中(其康复期已经分别为 4 、 5.7 和 10 个月)。用 Kaplan-Meyer 方法估计生存函数的方法如下面计算表(表 12-1)所示。 ① 参见 Miller. R.G.1981. Survival Analysis.New York. Wiley. 392 Raymond 高亮 Raymond 高亮 Raymond 高亮 Raymond 高亮 下面介绍以 SPSS 软件取得生存函数的 Kap!an-Meyer 估计的操作步骤。实际 上,这个关于康复期的例子中.有两个变量c 第一个便是每个案例的康复期.可 以定义其变量名为 REMISSN" 另一个变量是标志案例康复期是否有删截,给定 变量名为 EVENT。疾病复发是要研究的事件,于是尚在康复期中的案例和失去 联系的案例都属于删截案例,即i十算表中打上"+"号的案例应赋值。'表示事 件没有发生,而没有"+"号的案例应赋值 1 ,表示疾病复发的。 表 12-1 康复期序号 3 4+ 干, 5.7 -t 3 6.5 4 6.5 3 8 .4+ 6 10.0 7 10.0 十 8 Kaplan-Mey衍生存函鼓估计计算表 r ( 1/ - r) I( 1/ - r + 1) 生存比例 4 『 7 9/10 9/10 = .900 617 5/6 314 (9/10) x (617) 三 .771 兴 (9/1O):x (617) x (5/6) 工 643 咛 (9/10) x (617) x (5/6) x (314) 二 .482 12.0 9 15 10 9 10 112 0 (lJ/lO) x (6々) x (5/6) \ (3斗)\ (1 12) 二 .241 o 去中康复期数据中注"十"号者为删截的观察案例。 祷采用 0.643 作为保守性的估计c ;主 本书所附磁盘提供这套数据的 SPSS 系统数据文件,文件名为 T12- 1. S八V 、 在i卖人数据之后,激活 "Statistics" 并选择巧~urviva!"。在"Survi va 1 "功能 部分,再继续选择 "kaplan-Mcycr" ,然后我们必须做两项设定 "Time" (时间) 和 "Status" (状况)。时间指至事件发生时的持续期间、或至删截时的期间.对 于上例来说,时间即定义为康复期 REMISSN o 状况是关于删截案例的另一种去 达形式J 虚拟变量 E飞'ENT 标志是否旧病复发,将变量 EVENT 用光标拉至 "Status" 方框之下,并点击 Dcfine Event 键打开对话窗口,在 Sing!e value …·栏 中指定事件发生(即未删截)的编码为 1 D 输出生存表和生存时间平均值、中位 数是 SPSS 的默认状态,如需要输出生存函数图,还需点击窗口右下角的 Options 键,打开输出选项窗口,并在 P!ots 一栏选择 Survival。然后,点击Comi 3 Raymond 高亮 Raymond 高亮 Raymond 高亮 囚。现在,进行 Kaplan-Meyer 估计的准备就做好了,只要点击 "OK" 命令, 计过程就开始了。 SPSS软件的默认状态将产生生存比例表,它能表示在每一时点的生存比例, 并能输出平均生存时间和中位生存时间,本例的这两个统计值分别为 10.1 和 10.0。要是观察案例数很少(如少于 100) ,产生生存比例表就没有问题。但是 如果有大量的观察案例,一般不再计算生存表(将Options 窗口中 Statistics 栏目 中的 Survival T able 一项的 "x" 取消) .只输出 Kaplan-Meyer 法估计的哇存时 间平均值和生存函数图。因为其生存表的计算相当繁琐,其结果也将长得难以把 握。 下面是 SPSS输出的本例生存比例计算表(见表 12-2)。随后的图 12-1 是 使用 SPSS 软件画出的 Kaplan-Mey臼法生存函数估计的图形。图中的线即生存曲 线。并请注意,其估计的生存时间中位数大约为 10 个月 O 表 12-2 S~强输出的生存比例计算表 Survi\!址Analysis for REMISSN Cur丑日lative Standard Cumulative :'>/umber ID Time Status Survival Error Events Remaining 3.0 ves .9000 .0949 9 2 4.0 口。 8 3 5.7 口。 7 4 6.5 yes 2 6 5 6.5 y巳S .6429 .1679 3 5 6 8 .4 no 3 4 7 10.0 yes .4821 .1877 4 3 8 10.0 no 4 2 9 12.0 yes .2411 .1946 5 10 15.0 yes .0000 .∞00 6 。 Number of cas臼: 10 Censored: 4 (40.00% ) Events: 6 Surviva1 Time Standard Error 95 % Confidence Interval Mean: 1O .l 1. 5 (7 .1 , 13. 1) Median: 10.0 2.6 (5.0 , 15.0) 394 Survival Function 1.2 0.8 0.6- 0.2 -0.23 -2 。 2 4 6 8 10 12 14 16 REMISSN 图口-1 SPSS 输出的生存函数图 二、事件历史分析模型 在这一节中,我们介绍事件史分析方法的一系列统计模型,其中我们侧重于 离散时间 logit 模型和Cox 比例风险模型,因为这两种模型是社会科学中使用最 广泛的模型。 1.离散时间 Logit 模型 对于离散时间单位,我们经常估算离散时间Logit 模型,其思路如下: P (t) 代表某人在时间 t 上发生某事的概率。我们可以运用Logit 模型方程拟合 观察数据,用P( t) 代表-个案例在时间 t 发生的事件,然后以下列公式建立 logit 模型拟合数据: P( t) nr首't)=a(t)+b]x]+b2x2 (t) (1) 式中P(t )的值域在 0-1 之间 x] 是一个独立于时间的变量,而 X2 (t) 是一个 随时间变化的变量。为了简明而又不失去代表性,我们在这里以及后面示范中只 |采用两个协变量。 ln 表示取自然对数。截距a (t)也是在不同时间上不断变化的 置。如果我们回到前面提过的结婚年龄的例子,在我们研究结婚概率时 X] 可 325 以代表性别(不随时间变化). 12 代表个人收入(随时间而变化) c 我们还可以 让截距a( t)随时间改变,只要我们加上几个代表不同时期的虚拟变量c 在后面 的示范中,我们将用这个模型来测量在 70 年代末到 80 年代中国政府实行鼓励晚 婚政策所带来的影响O 而我们是否应该运用时变变量 (time-varying varíable) 实际上取决于不同的 研究情况。如果研究者对探索时变变量并无兴趣,或是并不希望知道时变变量随 时间变化的影响的话,那么在等式右边他可以简单地运用"和工2 (与时间元 关) .而不必运用 a (t)和 X2(t)。后面将用例子来说明如何运用这一离散时间 L)git 模型。如同其他 logit 模型,离散时间风险模型也是用最大似然法来进行估 计的。其主要原则是通过选择参数来使模型具有最大可能性拟合所得到的观察数 据J 为了检验拟合优度,我们采用似然比卡方 (χ勺,定义如下 l= 11唱(检测模型的似然值) !一 Ilc思(常数模型的似然值) i (2) 这里常数模型指一个只有常数项而无其他协变量的模型。检验的自由度是协变量 的总数。只要一个模型是另外一个模型的特殊情况(即包含于另一模型之内人 我们就可以用这个统计量来进行检验。大多数统计软件包都提供检测模型似然值 的对数值和常数模型似然值的对数值,作为自己统计分析结果的一部分输 出,因此似然比卡方值很容易根据上述公式计算出来。 2.Cox 比例风险模型 连续时间模型有很多,在这牛章中我们详细介绍的只是其中的一种,即 Cox 比例风险模型。(主JX 比例风险模型是在事件史分析中使用最广的模型。在后面的 一节中,我们将简要介绍→些其他的连续时间模型。 用 h ( 川来代表风险率,考克斯( Cox)①提出可以估算下列比例风险模 型: lnh (t)二 μ (t)+h ,.T, 十 b 2 :r2 (3) 这里(1 ( t )是←一个基准风险函数.可以以任何形式出现。由于α ( t)并未规定. 从这个意义而言. Cox 模型是,种半参数 (semi-parametric) 模型。并且,由于 对任意两个案例 J 和} .两者的风险之比是一个常数,只取决于个人特征而与时 间 t 无关二从这个意义上讲.C侃模型又是成比例的。这很容易用一个例子来说 D 参见 COX.Dél飞址 R.1972. 咀cgression Models and Life Tables. "Joumal of Roval Statistical Sxiety 1 ß4: 187- 220. 396 明。假定案例 i 有特征 .T 1 i 和工2i , 而案例 j 有特征 .T 1j 和二日J '那么案例 i 和j 的 风险率则分别为: hi( t) =exp[a( t) + b 1.T li + bZ .TzJ hj (t) = exp[ a (t) + b 1 X1j + bZX2j ] 因此, h;( t) exp[a (t) + b1Xli + bZX2J hj( r) -exp[α (t) 十 b1Xlj + bzx勾] = exp[b1 (Xli - Xl}) + b 2(X2i - X2j) ] 请注意的是最后的结果并不取决于时间 t 。 考克斯(Cox) 的天才贡献并不在于他的模型是成比例的(proportional)。事 实上,一旦我们开始引进时间变量,这个模型就不再是成比例的了。考克斯的贡 献在于他对估算公式。)模型提出了很好的方法。他的估算方法被称为部分似 然值法 (partial likelih∞d,缩写为 PL)。在艾力森(Allison)①或山口②的书中可 以找到对 PL估算的具体技术细节的讨论。 关于Cox模型的拟合优度检验,离散时间 logit 模型拟合优度检验的程序和 逻辑同样适用在这里。然而,还有另外两种检验即分值检验 (s∞陀 t臼d 和 Wald 检验也可以使用。③有充分理由可以认为,似然比卡方检验是使用最广泛的 检验方法。并且,多数统计软件的标准输出中都提供检测模型的对数似然值和常 数模型的对数似然值,因此似然比卡方值可以仿照上述离散时间模型计算公式 (2) 来计算。 3. 其他一些连续时间模型 如前所述,比例风险模型是社会科学中事件史分析应用最多的一种模型。 C'--ûx 模型的→个主要优点是,我们根本用不着对事件的时间概率分布做任何假 设,可以专心致力于解释变量(即协变量)。但是在某些研究场合中,我们还需 要对事件的时间概率分析提出假设。例如,如果我们知道某一事件发生的概率随 时间单调增加或减少,我们可以建立一个模型来表现这→特征。下面我们介绍一 ①参见Allison , Paul. 1984 . Event History Analysis: Regression for Longitudinal Event Data. Beverly HilL<; , CA: Sage Publications. ② 参见 Yamaguchi. K韶山.199 1. Event Histoη Analysis.Applied Social Science Research Methods Series Volume 28 .Sage Publications , Inc. ③ 参见 Y凹laguchi , Kazuo.1991.Event History Analysis. Sage Publications. Inc. 7 些对风险函数形态做了某种假设的统计模型。 (1)指数模型 指数模型有以下形式: lnh (t) 工 bo + b 1 .T l 十 b 2 .T 2 这种模型常被称为"单纯"模型,因为它假设事件发生的概率是一个常数。 从上述的推导中我们有: h(t)=7 一些研究者认为,指数模型是对事件史数据建立参数模型的很好的起点。① 还有一些人直接在社会学研究中使用这一模型。山口②在研究日本企业间工作流 动时也应用了类似的模型。最近有一个关于中国 1949 年至 1994 年间职业变化模 式的研究也应用了变换了的指数模型。③ (2) Gompertz 模型 Gompertz模型采取下面的形式: lnh (t) = bo+bl .T l+b2 .T2+b3t 因为随机变量 t 服从Gompertz 分布,所以这一模型被命名为Gompertz 模 型c 我们还可以用与此等价的另一公式来表达,即: h (t) =exp[bo + b1Xl + b2.T2 + b3t ] 如前所述,如果我们已知风险函数就能够推导出其他函数比如概率密度函 数。人口学者早就开始使用Gompertz 分布来拟合死亡率数据。@所以对死亡率 建立模型时, Gompertz 模型是一种很好的备选。 (3) Weibull 模型 Weibull 模型采取以下形式: ① 参见Allison , paul. 1984. Event History Analysis. Regression for Longitudinal Event Data. sage Publications. ② 参见 Yarnaguchi , Kazuo. 1991. Event History Analysis. Sage Publications, Inc. ③ 参见 Zhou , Xueguang , Nancy Brandon Tuman , and Phy1lis Moen.1997. .. Institutional Change and ]ob-Shift patterns in Urban China , 1949 ~ 1994." American Sociological Review 曰: 339~365. ④ 参见Allison , Paul. 1984. Event History Analysis: R喀ression for Longitudinal Event ta. Sage Publications. Nar由∞diri , Krishnan. 1991. Den吨raphic Analysis: A St∞hastic Ap- lroach. New York: Academic Pr<巳菇, Inc. 398 ln h ( t) = b 0+ b 1 X 1 + b z x 2 + b 3 ln t 其中 b句3被限制为必须大于 10。这种模型产生出一种 Weibu吐ull 分布来描述至事件H 生时的时间分布,所以被称为 Weibull 模型。 上面介绍的三种模型都属于比例风险模型的大类,并且都可以通过最大似钳 估计方法来估计参数。我们知道,在 CDX 一般比例风险模型中有一项 "α( 仆" 没有规定3 为了揭示 Weibull 模型只是Cox 比例风险模型的一种特殊形式,我| 们可以简单地将 "a( 仆"换成 "bo + 句 ln t" 就行了。对于指数模型和位)m-I pertz 模型,我们也可以这样来做。这三种模型的一个缺陷是,在加随时间变 的解释变量以后模型估计就变得很难。然而, Cox 部分似然法可以解决这个问 题。 (4 )加速失鼓时间模型 (accelarated failure time model) 令 T 为表示事件发生时间的随机变量,加速失效时间模型可以表达为下面 的形式: ln T= bo + b1X1 + bZ X2 + … +μ 上式也可以等价地表达为: T=exp [ho+b1X1+h2X2 十… + u ] 其中 U 是随机扰动,可以有四种分布:正态、 (normal) 分布、罗吉斯蒂 (logistic) 分布、极端值 (extreme value) 分布、对数伽玛 (log gamma) 分布c 依赖于 u 按上述四种分布 , T 的分布有对应的对数正态、对数罗吉斯蒂、 Weibull、伽玛等分布。 Weibull 模型(及它的特例指数模型)是加速失放时间模 型家族的一部分。如果不存在删截观察案例,可以用 OLS 方法来进行模型估计。 如果存在删截情况,我们就必须用最大似然估计方法。 -'.关于模塑的选择 至此我们介绍了许多事件史分析的统计模型,既有离散时间模型,也有连续 时间模型。在上面介绍的连续时间模型中,一些是参数模型,还有一些是非参数 模型或半参数模型(如 COX 比例风险模型)。至于哪一种模型最好,并没有简单 的答案,这依赖于许多方面。比如,如果研究者认为研究方案中的时间单位最好 按离散方式描述,那么就采取离散时间模型。对于连续时间模型,如果可以认为 风险函数是随时间单调变化的,可以考虑选用 Weibull 模型或Gompertz 模型c 如 果认为风险函数不是单调变化的,可以考虑对数正态、对数罗吉斯蒂或Cox 比 例风险模型。在考虑拟合模型的类型时,我们还需要知道所用的计算机软件能够 399 拟合哪些模型。比如,目前的 SPSS 仅能估计Cox 模型,还不能估计其他参数 模型。 在社会科学研究经常应用的估计生存模型的常用软件有 SPSS , SAS , STA- TA 等。对它们的功能简介如下: SPSS: 十分友善。它具有 Kaplan-Meyer 估计功能。它可估计离散时间 logit 模型和带有依时间变化协变量的Cox 比例风险模型。 SAS: 也比较友善c 其 PR使 LIFETEST 程序中具有 Kaplan-Meycr 估计功 能,其 PRI町 LIFEREG程序可以做加速失效时间模型分析,其 PRC充 PHREG 程序可估计带有依时间变化协变量的Cox 回归分析。 STATA: 对于初学者有点难度O 可以进行 Kap抖lan 于生存模型的统计检验D STATA 也可以估计带有依时间变化协变量的Cox 回归 模型,还可以估计 Weibull 和指数模型 c 如需要了解更多细节,请参阅有关于册或各软件中的"帮助"命令。 三、事件史分析的四个例子 对事件史数据应用最多的有两种模型:一种是离散时间 logit 模型,一种是 Cox 比例j风险模型。在本节,我们将通过四个示起例子(两个假设的例子、两个 实际社会研究的例子)来示范这两种模型的实际应用。前两个例子只有较少的案 例,这样读者可以比较容易地在 SPSS 中进行实验。另-个原因是,因为案例较 少,读者可以观察实际数据本身,获得对事件史数据的认识。后两个例子是用中 国 1988 年千分之二生育节育调查中数据的 10% 的再次抽样数据所进行的研究。 由于后两个例子的原始数据量很大,我们只讨论操作步骤和分析结果,不再给出 原始数据。 1.关于职位晋升的假设例子-一离散时间风险模型 ( 1) 例 1 的背景情况和数据 假设-个公司在 1995 年雇用了 30 名雇员 C 研究者感兴趣的是,在随后的两 年中哪些人获得了晋升,其原因是什么。于是.研究者在 1997 年访查了这 30 名 雇员,取得以下信息:是否提升、雇员的性别 (SEX)、在加入本公司以前是否 有工作经历。根据这些信息,建立了以下人年 (person year) 数据文件(见表 12-3) 。 400 12-3 例 1 的变量数据 10 DURA PROM 吼叫EXP SEX 1 2 1 O O 。 2 2 。 。 O 3 O 1 3、 2 1 l 4 1 I 。 5 O O 5 2 。 。 6 O O 1 6 2 1 。 7 。 O O 7 2 1 O 。 8 。 O 8 2 。 O 1 9 1 1 10 1 。 11 12 I 。 。 。 12 2 O 。 13 1 。 。 l3 2 O 14 。 1 。 14 2 。 1 。 15 1 O O 1 15 2 1 。 16 O O 16 2 O 1 17 O 。 O 17 2 O 。 。 l8 。 O 1 401 续前表 lD DURA PROM WEXP SEX 18 2 O 19 O 。 19 2 O O 20 O 。 。 20 2 可 O 。 。 21 O 。 。 21 2 旨 O 。 。 22 1 23 O O 23 2 O O 24 1 I 。 25 O 。 25 2 1 。 26 O O l 26 2 1 O 27 O O 。 27 2 O 。 28 1 。 。 29 O 。 。 29 7 O O 。 30 。 1 。 30 气, O 。 ;主:本书所附磁盘提供这套数据的 SPSS 系统数据文件,文件名为T12 _3.SAV,数据包括来自 30 个 人的 52 个人年案例e 其中,变量 ID 是雇员的识别码;变量 DURA代表雇员在本公司工作的时间 长度;变量 PROM代表某一年中此雇员是否获得晋升,这将是模型中的因变量; 变量 WEXP 是雇员进入本公司前是否有过工作经历。 如果在一年年末,该雇员没有获得晋升,变量 PROM 将赋值为 0,如第二 个人的工作案例。要是得到晋升, PROM 就赋值 1 ,如第四个人的工作案例。 估算离散时间 logit 模型的主要工作是建立人年数据,这在 SPSS 、 SAS 和 ST九TA 软件中都可以做。关于使用 SPSS 改造原始数据,请参见第十→章中更 为详细的介绍c 40 (2) SPSS 中离散时间模型的操作步骤及分析 例 1 的原始数据已经给出,估算离散时间模型的实际操作过程就非常简单 了。实际土它是一个 logistic 回归模型。在 SPSS 中,用光标点击 "Statistics..图 标,然后选择 Vegression"。在"regression" 中,我们再选择"logistic"。然后我 们设定因变量,因变量是 0-1 变量 PROM,用来表示某人在那一年是否有职位 晋升。将该因变量用光标选定(用光标点击变量名,使之变色) ,再用光标点击 相应箭头键将其送入因变量栏。然后以类似方法将所有的自变量(在事件史分析 中称作协变量)设定,并送人自变量栏c 最后,用光标点击一下 "OK" 图标. 估算过程就开始了 O 根据例 1 中 30 个雇员的资料,使用 SPSS 软件来估计离散时间风险模型 u 统计分析结果在表 12-4 中 c 这一结果说明,以往的工作经历 WEXP 和在本公 司工作日J 间 DUR.!气都是获得晋升的重要因素。凹归系数表示出男雇员比女雇员 更可能得到提升,然而性别影响在统计性上并不显著。关于回归系数及发生比率 (表 12-4 中未提供)更具体的解释,请参看本书第六章 logistic 回归。 表 12-4 例 1 关于职位晋升的离散时间风险模型的分析结果 协变量 性别(参照组为女件) L又往工作经历 在本公司的工作时间 截距 卡方 (Chi squarc) 自由度 (d. f.) 人年 (Person Years) 拚 α=0.05 回归系数 1.228 1.726 1.543 也 .4.007 、 10.844 ' 3 52 2. 研究初育间隔的假设例子一-Cox 比例风险模型 ( 1 )例 2 的背景情况及数据 标准误 .678 .768 .705 1.358 初育间隔指已婚妇女从结婚到第一次生育之间的间隔。假设我们要进行初育 间隔的影响因素的研究,并且取得了有关数据。变量 DUR 是初育间隔,以月为 单位进行测量。变量 EDUl , EDU2 、 EDU3 是三个表示受教育程度的虚拟变量、 分别代表高中及以上学历、初中学历和小学学历C 调查对象属于哪-类,对应的 教育虚拟变量就赋值 1 ,否则就赋值。。注意,不属于这三类的就是文吉、半文 盲,那么三个教育虚拟变量值都是 0,作为参照类。变量 AGEM 是妇女的结婚 坐监 年龄。最后还有→个重要的变量 EVENT,用来注明该案例是否属于删隅。 EVENT值为 1 表示该妇女曾生育过子女,因此初育间隔是完整的。 EVENT 值 为 0 表示事件未发生过,因此初育间隔被调查删截了。 表 12-5 中是例 2 的数据。 例 2 的变量数据表 12-5 AGEM EDU3 EDU2 EDUl E飞IENTDUR 21 20 。 。 。 。 。 23 16 23 19 21 O O 1 nuhUAυhuhv 1 1 11 10 10 l O O O O l 12 1 。 17 1 26 。 18 。 24 。 20 。 17 。 'toυ 。υ00 20 。 们UhHV 白υAV"ohv 1 1 1 80 、JO l--- 1 1 Aυ l OXUZJ $17b 。O 11 O 。 。ul 20 23 23 。 O 。 。 O 1 1 14 19 16 Q口,、 v4 吨 《14 《14 鸣,今 。 。 。 们V 白VHV 12 9 l 。 17 1 404 1 QU ,、 νnyzJ ,、 vov?-4 哼 AU --匀'但句, -7 年气 47·?-7·7- 1 。 O O O nvhυAV 们。 1 16 31 13 1 。。 O 1 0 1 6032 1111 O 。υAυ 。υ AVAVhVHHV 1 'EA--A4·A ζJ 、,、 3 1utd'I O 。9 续前表 DUR EVENT EDU1 EDU2 EDU3 AGEM 35 1 。 。 23 18 。 。 。 19 16 1 。 1 O 17 14 。 O 1 35 11 。 O 1 22 11 。 O 1 20 12 。 。 19 10 。 。 29 12 1 1 。 O 22 22 。 。 25 29 。
/
本文档为【第十二章事件史分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索