基于变量选择的支持向量机在乳腺癌预后复发诊断中的应用
李皞 王杰彪 秦旭
(中国人民大学统计学院,北京,100872)
摘要: 本文通过支持向量机对乳腺癌预后是否复发转移进行分类,并且结合决策树,Logistic逐步回归和模拟退火算法对数据进行特征选择,在最小化测试集错判率的标准下,有效减少了特征变量个数,对于降低化验成本起到了令人满意的效果。
关键词: 乳腺癌;预后;支持向量机;特征选择
1 研究的目的与意义
乳腺癌是一种全身性疾病,虽然与其他恶性肿瘤比较预后较好,目前的综合治疗水平也有较大提高,但是仍存在一定概率出现复发转移,一般复发转移的时间以手术后两年内最为常见。乳腺癌复发的诊断是对该疾病长期表现的分析,早期发现复发转移灶并及时治疗,能够有效地决定后续治疗手段,有望延长病人的生存期。如利用FNA诊断(Fine Needle Aspiration)分析乳腺组织细胞就是一种不错的选择。但是这种诊断方法成本较高,对于患者来说显然不经济。因此,本研究的目的就是寻找一种能将乳腺癌是否复发区分开来的一种统计学方法,通过对少量训练样本构建分类器,然后将其用于预测未知样本,这种方法在实际应用中有助于降低医疗分析的成本。
但是,由于样本量的限制和随机误差的影响,所构建的模型往往与真实情况会产生背离,因而会产生预测误差。那么寻找一种稳健的估计方法,使模型具有较高的泛化(generalization)能力,也就是对于未知样本能够取得较低的预测误差,是本研究的主要目标。同时,由于FNA诊断的数据往往具有很多的成分,每一个成分可以称之为一个变量或者一个特征,在进行统计计算时,较高的维数往往会使得计算量较大甚至产生维数灾难(dimension disaster)问题。因此,在寻求最优分类器的同时要考虑降低数据维度的方法,这样不仅能减少运算时间,而且能降低检测成本,排除较次要的变量。降低数据维度可以采用特征选择(Feature Selection,FS)的方法,本文中选择了三种特征选择方法,分别是:决策树,Logistic逐步回归和模拟退火算法。
2 支持向量机和特征选择
2.1.支持向量机
支持向量机的思想起源于统计学习理论(SLT,Vapnic 1995),它通过将样本点所在的输入空间(input space)映射到同维度或更高维的特征空间(feature space,或称做Hilbert空间),以达到线性可分或者线性近似可分的目的。支持向量机基于结构风险最小化(Structural Risk Minimization,SRM)原则,而不是传统统计学的经验风险最小化(Empirical Risk Minimization,ERM)原则。支持向量机有其坚实的理论基础,实际应用中取得了良好的效果。
2.1.1结构风险最小化
机器学习的目的是针对有限的训练样本
,来估计输入输出之间的依赖关系,找出一个最优的预测函数
,其中
是估计的最优参数,使得对未知输入达到最好的预测效果。
传统的统计学基于经验风险最小化原则,也就是说是模型拟合值与实际值的误差达到最小化。这样的一个弊病就是模型估计出的误差仅针对对于有限样本,而对于应用于未知样本的推广性误差没有一个估计。而结构风险最小化基于使期望风险
最小的思想,用
表明就是:
MACROBUTTON AuroraSupport.NoMacro [Automatic section break] MACROBUTTON AuroraSupport.EditInitialCounterValues [Beginning of the document]
0 MACROBUTTON AuroraSupport.PasteReferenceOrEditStyle ( "" "0."
IF 0 = 0 "" "0."
SEQ Eq \* arabic \* MERGEFORMAT
1
)
其中,
是经验风险,
是学习器的VC维,衡量的是学习器的复杂度,或者说表达能力,n是样本量,
是衡量学习机推广能力的函数,是
的增函数。众所周知,一个学习器的复杂度越高,
越大,它对训练样本的拟合效果越好,也就使得
越小,但是这会造成过拟合的现象,使得
取值变大,从而
的置信上界增大,造成对未知样本的预测误差置信区间增大。这种综合考虑经验风险和学习器推广度,在经验风险与学习器复杂度之间寻找一个最好的平衡点的原则就是结构风险最小化原则。
2.1.2支持向量机的数学形式
支持向量机最初应用于二分类问题,分为线性可分、线性近似可分、非线性可分以及非线性近似可分四种情况。首先我们考察线性可分情况。
我们假定有大小为
的样本集
,其中
,是样本的n个特征(或属性),
,当样本属于第一类样本时
,否则
,我们的目的就是构造分类超平面:
0 MACROBUTTON AuroraSupport.PasteReferenceOrEditStyle ( "" "0."
IF 0 = 0 "" "0."
SEQ Eq \* arabic \* MERGEFORMAT
2
)
使得
0 MACROBUTTON AuroraSupport.PasteReferenceOrEditStyle ( "" "0."
IF 0 = 0 "" "0."
SEQ Eq \* arabic \* MERGEFORMAT
3
)
从而有
0 MACROBUTTON AuroraSupport.PasteReferenceOrEditStyle ( "" "0."
IF 0 = 0 "" "0."
SEQ Eq \* arabic \* MERGEFORMAT
4
)
与此同时,需要得到使两类样本间隔最大的超平面以获得最大的泛化能力。因此需最大化
,也就是要最小化
,因此我们有以下原始最优化问题
0 MACROBUTTON AuroraSupport.PasteReferenceOrEditStyle ( "" "0."
IF 0 = 0 "" "0."
SEQ Eq \* arabic \* MERGEFORMAT
5
)
当训练样本线性不可分时,引入松弛变量
,使得通过其对最优超平面的平移,满足式子
0 MACROBUTTON AuroraSupport.PasteReferenceOrEditStyle ( "" "0."
IF 0 = 0 "" "0."
SEQ Eq \* arabic \* MERGEFORMAT
6
)
同时,
可以看作是样本分错时的代价,因此要对其进行惩罚,故引入惩罚性参数C。这样,在线性不可分时,我们有
0 MACROBUTTON AuroraSupport.PasteReferenceOrEditStyle ( "" "0."
IF 0 = 0 "" "0."
SEQ Eq \* arabic \* MERGEFORMAT
7
)
而在实际应用中,求解这个带约束的二次规划原问题往往会产生困难,因此需要通过求解其Wald对偶问题,推导过程需要应用Lagrange乘子法,这里不再详述,只列出最后结果
0 MACROBUTTON AuroraSupport.PasteReferenceOrEditStyle ( "" "0."
IF 0 = 0 "" "0."
SEQ Eq \* arabic \* MERGEFORMAT
8
)
其中
是Lagrange乘子。这个对偶问题必有解
,使得
0 MACROBUTTON AuroraSupport.PasteReferenceOrEditStyle ( "" "0."
IF 0 = 0 "" "0."
SEQ Eq \* arabic \* MERGEFORMAT
9
)
0 MACROBUTTON AuroraSupport.PasteReferenceOrEditStyle ( "" "0."
IF 0 = 0 "" "0."
SEQ Eq \* arabic \* MERGEFORMAT
10
)
这样就得到了最优超平面的解,可以
,
和
是唯一的。需要说明的是,
的解有三种取值。(1)
;(2)
;(3)
。可以看出,分类超平面的确定仅仅和那些
的样本点有关,因此第2、3种情况所对应的点被称为支持向量。
在某些情况下,两类样本点可能不能由一条直线分开,比如标为
的点将标号为
的点包围起来。这样,一条直线可能不会将样本点满意地分开,而一个椭圆却能很好的完成这个任务。因此,考虑将现有输入空间上的点通过函数
0 MACROBUTTON AuroraSupport.PasteReferenceOrEditStyle ( "" "0."
IF 0 = 0 "" "0."
SEQ Eq \* arabic \* MERGEFORMAT
11
)
将其映射到更高维的空间,再在这个空间内使用最优超平面将两类样本点分开。这就是非线性可分的情况。当然,既便如此还是可能出现一类样本点杂糅在另一类样本点中导致非线性不可分的情况,因此还需要引入松弛变量
。非线性近似可分的数学形式与线性近似可分的类似,只需把
换成
即可。在式(8)中,由于
已经处于很高维度的空间,因此计算
的计算量会增大,为了避免产生维数灾难的问题,统计学家发现可以引入核函数
,其道理可以用一个不是很恰当的例子解释:考虑计算
和直接计算其展开式的复杂度,显然是前者小于后者,而
的作用就与核函数类似。核函数的引入,可以使得点乘运算在原维数空间内进行,减小了计算量,同时解决了某些将输入空间映射到无穷维空间的函数
的运算问题。
当求得最优划分超平面时,根据原始判别函数
0 MACROBUTTON AuroraSupport.PasteReferenceOrEditStyle ( "" "0."
IF 0 = 0 "" "0."
SEQ Eq \* arabic \* MERGEFORMAT
12
)
得到决策函数
0 MACROBUTTON AuroraSupport.PasteReferenceOrEditStyle ( "" "0."
IF 0 = 0 "" "0."
SEQ Eq \* arabic \* MERGEFORMAT
13
)
其中
的解由(8)(9)(10)计算得到。
2.2特征选择
2.2.1特征选择概述
特征选择在模式识别领域中扮演着一个极其重要的角色。一方面,在样本有限的情况下,用大量特征来
分类器无论是从计算开销还是从分类器性能来看都不合时宜;另一方面,特征和分类器性能之间并不存在线性关系,当特征数量超过一定限度时,会导致分类器性能变坏。因此,进行正确有效的特征选择成为模式识别中必须要解决的问题,在海量数据条件下尤为重要。对于一些变量很多的化学检测数据,进行特征选择不仅能够有效减少分类运算时间,更有提高分类器性能,减少错判率的作用。
特征选择可以表示为以下数学形式,在全部
个特征中选取
个,也就是选取最优的指标集
,其中
。当某项特征被选中时
,否则取0。最优特征子集的选取标准可以是使得分类器的错判率最小,或者通过距离测度使得两类别样本间的距离最大化。
特征子集的选取标准依赖于评价函数,根据评价函数与分类器的关系,特征选择方法可以分为筛选器(filter)和封装器(wrapper)两种。筛选器的评价函数与分类器无关,而封装器的评价函数就是分类器的错判率。
2.2.2对模拟退火算法的说明
模拟退火算法(Simulated Annealing,SA)属于元启发式(meta herustic)搜索算法,是局部搜索算法的一种扩展,适用于状况复杂、定义模糊、规模较大的优化问题。在1953年,Metropolis就提出了该算法的基本思想,直到1983年Kirkpatrick等人成功的将模拟退火算法应用到求解组合优化问题中,模拟退火算法才逐渐被人们所接受,并且成为一种有效的计算方法。
模拟退火算法来源于固体退火原理,在热力学和统计物理学的研究中,首先将固体加热到足够高的温度,再让其徐徐冷却。温度高时,固体内部粒子内能较大,极不稳定,因此较容易从低能量状态跳至高能量状态。随着固体温度降低,内能下降,粒子跳至高能量状态的机会随之减小,粒子渐趋有序。如果温度降低的足够慢,在每个温度下粒子都可以达到一个平衡态,直至最后停留在基态。粒子在每个温度时的状态转移由Metropolis准则决定。
如果我们把使错判率最小的的变量组合作为最优解的话,那么变量选择问题可以看成是一个最优化问题,评价标准是使得支持向量机错判率达到最小值。如果所选的特征错判率要小于原错判率,那么就接受新特征,如果不是仍可以一定概率
接受,这就是Metropolis准则,在本文中,我们选用了一种常用的简化形式,将这个概率设定为exp(-a/T),也就是用参数a控制这个概率。模拟退火算法允许有一定的概率接受劣解,从而避免跳入局部最小化。算法包括外层循环和内层循环,外层循环由参数T控制,内层循环由参数m控制。随着算法的进行,外层循环中的参数T逐渐减小,从而使得接受劣解的概率exp(-a/T)逐渐减小,而在T固定时,内层循环还要进行m次,这是模拟固体退火中的达到某温度下平衡态的过程。整个算法的示意图如图1。
图 1 模拟退火算法示意图
将模拟退火算法运用到特征选择过程中,可以用以下伪代码说明:
m=50 #设定在每个T下达到平衡态所需要的模拟次数
Tmin=2 #设定终止T
T=50 #设定起始T
k=0 #计数器,计算迭代次数
nvar=1 #设定需要选择的参数个数,这里选定了为1
a=10 #控制参量
p=ncol(data) #数据列数
q=trunc(nrow(data)/2) #数据行数,由于要划分训练测试集,因此除以2
samp=stratify(1/2) #分层抽样的函数,各类别抽样比例相同,这里是1/2
sigma=sample(2:p,nvar) #sigma是所选择的特征标号
err0=svm.error(samp) #用支持向量机判定使用测试集的错判率
while(T>=Tmin) #while语句设定终止条件
{
for(j in 1:m) #在每个T下,模拟平衡态
{
sigma2=replace(sigma,sample(1:nvar,1),sample((2:p)[-sigma],1))
#这是变异函数,也就是将之前sigma中所选的特征随机替换一个
err0=svm.error(((-1)^j)*samp) #用支持向量机判断训练集的错判率,注意这里采用的是反复交叉验证的方法,在m次循环中,训练集和测试集交叉应用
if(err
记录及预后FNA诊断的数据。
考虑到时间变量是右端删失的,我们剔除时间短于两年且未复发的观测,包括对其中存在缺失值的7、29、86、197等四条观测采取直接删除处理,最终剩余137条观测;于是定义判别变量为:病人复发转移且复发时间短于两年赋为类别1,病人未复发转移且时间长于两年赋为类别2。
本文采用的32个特征变量包括:FNA诊断利用乳腺组织的数码图片分析得到的细胞核的特征(30个)、肿瘤大小(记为tumor)、淋巴结状况(记为lymph)等。其中细胞核特征包括10个变量,每一个变量又分别计算其均值、标准差和最大值,组成30个变量(见表1)。
表 1 细胞核特征变量表
变量/特征
均值(m)
标准差(sd)
最大值(max)
半径(radius)
m_rad
sd_rad
max_rad
外观(texture)
m_tex
sd_tex
max_tex
周长(perimeter)
m_per
sd_per
max_per
面积(area)
m_area
sd_area
max_area
光滑度(smoothness)
m_smo
sd_smo
max_smo
致密性(compactness)
m_comp
sd_comp
max_comp
凹性(concavity)
m_conc
sd_conc
max_conc
凹点(concave points)
m_conp
sd_conp
max_conp
对称性(symmetry)
m_sym
sd_sym
max_sym
分形维数(fractal dimension)
m_frad
sd_frad
max_frad
3.2变量选择
3.2.1决策树
决策树是用二叉树形图来表示处理逻辑的一种工具,是一种应用广泛的数据挖掘算法,其每个节点的划分决定着分类结果的走向。我们应用R软件
的rpart软件包对全部原数据构建决策树如图3。
图 3 决策树树状图
在这里,我们的目的是通过决策树筛选变量,也就是那些出现在节点处的变量。最终,得到max_area,max_rad,sd_tex,max_comp和max_conp五个比较重要的变量。由于决策树本身也是一种分类算法,可以得到分类结果如图4。
判 定 类 别
1
2
原
类
别
1
22
12
2
6
97
图 4 决策树分类结果
其中,有12个属于类别1的样本被分到第2类中,有6个属于类别2的样本被分到第1类中。需要说明的是,在这里错判的代价是不同的,这是因为类别1的样本属于两年内(24个月)复发的病人,而类别2的样本属于两年后不复发的病人。如果将类别2判断到类别1,那么在术后的两年内医生可以对其进行更为谨慎的临床观察,即便这个病人两年内没有复发;但是,如果将类别1判断到类别2,那么医生就可能会认为该病人两年内不会在复发而放松治疗,病人也会因此减少相应的检查次数,其后果是不堪设想的。在本数据中,大部分样本属于类别2,也就是良性的情况,数据的不平衡可能导致类别2的样本对决策树训练更加充分。类别1被判断到类别2的人数是类别2被判断到类别1的两倍,这种判别对于原本两年内复发的病人是极其危险的。
3.2.2 Logistic逐步回归
Logistic回归用于处理二分类问题,属于广义线性模型二项分布族。以疾病复发类别为因变量,各临床变量为自变量建立Logistic回归方程,并通过逐步回归筛选变量。最终得到筛选结果如下:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -7.312e+00 8.511e+00 -0.859 0.39023
m_rad 6.004e+00 2.268e+00 2.647 0.00812 **
m_per -8.319e-01 3.212e-01 -2.590 0.00960 **
m_sym 2.663e+01 1.763e+01 1.511 0.13086
m_frad 2.610e+02 1.035e+02 2.523 0.01164 *
sd_comp -1.019e+02 5.306e+01 -1.921 0.05471 .
sd_conp 3.247e+02 1.383e+02 2.349 0.01884 *
sd_sym -9.426e+01 5.226e+01 -1.803 0.07131 .
max_rad -9.837e-01 5.802e-01 -1.695 0.09001 .
max_area 4.443e-03 3.136e-03 1.417 0.15657
max_smo -4.731e+01 2.291e+01 -2.065 0.03894 *
max_comp 1.516e+01 7.003e+00 2.164 0.03046 *
max_conp -2.583e+01 1.708e+01 -1.512 0.13056
lymph -1.112e-01 5.094e-02 -2.183 0.02904 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
可以看到,最终选出了13个变量,分别为m_rad,m_per,m_sym,m_frad,sd_comp,sd_conp,sd_sym,max_rad,max_area,max_smo,max_comp,max_conp和lymph。除sd_tex这个变量以外,决策树所选出的变量都被包含在Logistic回归所选择的变量之中,因此Logistic回归是一种更保守的变量选择方法。
3.2.3模拟退火算法
模拟退火算法涉及的变量较多,因此我们用编号1-32代表上述的32个预测变量。根据上文的伪代码,编写程序,进行模拟。参数设定为:T=50,Tmin=2,m=50,nvar=1, a=10,模拟次数为200次。支持向量机所有参数选取都为默认值,核函数选择为径向基(RBF)核。表2显示的是200次模拟中选出的变量频数分布情况及其对应的平均错判率。
表 2 模拟退火算法变量选择结果
变量编号
错判率
Freq
变量编号
错判率
Freq
1
0.178309
16
18
0.205882
1
3
0.17402
12
19
0.191176
1
4
0.174706
25
21
0.163043
23
6
0.205882
1
22
0.205882
2
7
0.202941
5
23
0.159229
29
8
0.180882
10
24
0.166176
30
11
0.178922
6
25
0.205882
1
13
0.183824
2
28
0.205882
2
14
0.171123
11
29
0.205882
1
15
0.205882
2
30
0.205882
1
16
0.198529
6
31
0.161765
1
17
0.205882
1
32
0.167112
11
图 5 模拟退火算法结果
从图5可以看出,变量24(max_area),23(max_per),4(m_area),21(max_rad),1(m_rad),3(m_per)出现频率较高,而且其平均错判率较低,而前四个变量相对于变量1,3有更高的出现频率。稳健起见,模拟500次作为对照,出现频率前6的变量与200次模拟时相同,因此变量选择如上。
这里有两点需要说明:
(1)上述模拟退火方法是对每个变量单独进行的也就是每次仅用一个变量使用支持向量机进行分类。如果采取穷举的方法,对于每个变量分别使用svm并且计算错判率,那么只需模拟32次就能得出错判率最低的6个变量,但是,所得的错判率仅针对训练集,扩展能力较差。而模拟退火算法是一种随机化方法,加上模拟过程中使用了交叉验证的方法,这样就能在不断地选择中逐渐淘汰掉错判率较高的变量,因此这种方法更为稳健。虽然这种方法需要使用大量的模拟运算,但这在计算机性能突飞猛进的今天,已经不是主要的瓶颈。
(2)上述特征选择方法基于一个较强的假设,每次选出的最优变量组合在一起仍然是最优的,由于变量之间可能存有错综复杂的关系,因此这种方法的效果需要在下文中验证。
4研究结论
4.1模拟结果
4.1.1各变量选择方法在支持向量机中的分类效果对比
将以上三种方法所选出的特征应用于1、2两种类别的疾病复发转移情况分类中,采用分层等比例抽样的方法对原始数据进行划分,将2/3作为训练集,其余作为预测集,分类方法全部选用支持向量机,得到结果如表3。
表 3 各种变量选择方法在支持向量机中的表现
变量选择方法
选出变量
训练集错判率
测试集错判率
FS方法评价
决策树
max_area,max_rad,sd_tex,
max_comp,max_conp
0.1841
0.2219
快速,错判率低
Logistic回归
m_rad, m_per,m_sym,m_frad
sd_comp,sd_conp,sd_sym,max_rad
max_area,max_smo,max_comp
max_conp,lymph
0.1561
0.2258
较慢,错判率尚可
模拟退火1
max_area, max_per, m_area, max_rad
m_rad, m_per
0.1793
0.2025
最慢,错判率最低
模拟退火2
max_area, max_per, m_area, max_rad
0.1783
0.2053
未特征选择
全部变量
0.1539
0.2164
无
需要对上表进行说明的是,在这里我们将模拟退火所选出的变量分为两组:模拟退火1选用的是所有6个变量,而模拟退火2仅采用了出项频率最高的前4个变量。最后一栏是对各种变量选择方法的评价。
如果仅从训练集的错判率来看,未进行特征选择时的错判率最低,但是从应用角度来讲,我们更加关心所选变量在测试集中的表现。由于受到许多无关特征的影响,未进行特征选择时对测试集的效果会变差。而决策树和Logistic回归所选出的变量对测试集的表现甚至不如未进行特征选择,说明在本课题中,用决策树和Logistic回归为为支持向量机进行变量选择是不合适的。从对测试集的错判率来看,两组模拟退火算法所选出的变量表现最优,而前4个变量与前6个变量的表现差距则不大。
此外,在三种方法所选出的变量中,max_area和max_rad同时出现,说明三种方法都认为是这两个变量是关键变量。事实上,仅通过这个变量就能对训练样本取得较低的错判率(在训练集和预测集的错判率分别为0.1852和0.2206),因此在误差允许的情况下,仅检测变量max_area和max_rad就能达到最小的检测成本和较理想的分类效果。
4.1.2支持向量机与其他分类方法分类效果的对比
为了对比支持向量机方法与决策树和Logistic回归的分类效果,分别对其进行200次模拟:支持向量机采用模拟退火方法选出的max_area, max_per, m_area, max_rad四个变量,Logistic回归选择逐步回归之后的变量。同样选用2/3做训练集,1/3做测试集,得到结果如表4。
表 4 三种分类方法结果比较
分类方法
训练集错判率
测试集错判率
决策树
0.1394
0.2644
Logistic回归
0.1168
0.2070
支持向量机
0.1783
0.2053
模拟数据表明,支持向量机能够达到最低错判率,Logistic回归次之。由于Logistic回归和svm本质上属于线性分类,决策树是非线性分类,决策树效果不如前两者说明该分类问题存在线性解,也就是说仅依靠线性分类就能取得很好的效果。而且,从上面的变量选择结果可以看出,Logistic回归和支持向量机所选出的变量存在较大差异,为什么出现这样的结果,原因可能是Logistic回归采用的逐步回归方法和支持向量机所采用的模拟退火方法在原理上有较大差异:前者是以AIC准则作为评价模型的标准,而后者则是一种随机算法,以最小错判率作为评价标准。
4.2研究结论与不足
经过以上的模拟计算,可以看出支持向量机作为一种结构风险最小化算法,对于对于未知样本的确能起到较好的预测效果。而经过变量选择,支持向量机分类器在分类性能上得到了进一步的提升。本文将决策树,Logistic逐步回归,和模拟退火算法三种变量选择方法进行了对比,得到了模拟退火算法要优于其他两种方法的结论。事实证明,将模拟退火算法这一局部搜索算法应用于特征选择,取得了良好的效果。
此外,决策树和Logistic回归不仅能作为变量选择方法,其本来的作用就是进行分类。模拟结果显示,支持向量机和Logistic逐步回归对于测试集具有相近的分类效果,但是决策树的表现不如这两者。这说明两种发病类别在某个空间内存在线性解,决策树的非线性解反而表现欠佳。
从实际意义来看,选择出的有关乳腺组织细胞核半径(max_rad)、面积(max_area)和周长(max_per)等特征变量,可以作为乳腺癌预后复发诊断的重要指标;采用以上选择出来的特征变量和分类器,应用于复发诊断将能明显地起到降低医疗成本的作用,同时在一定程度上降低诊断复杂度、缩短诊断时间、提升诊断精度;并且可以考虑将这种研究思路平行地应用到其他医学领域。
正如前文所说,类别的错误划分所带来的代价是不同的,因此可以引入损失函数或者代价矩阵来描述这种情况,将错判率乘以代价获得一个综合的指标;此外,本研究是基于小样本,二分类进行的研究,所提出的方法在应用于大样本或多分类数据时效果可能会有所改变,如何将变量选择方法推广到多分类的情况值得研究;最后,模拟退火变量选择基于一个较强的假设,即每次选出的最优变量组合在一起仍然是最优的,因此本文的处理方法是每次选出一个变量,通过多次模拟,挑选出出现频率最高的变量,由于变量之间可能存有错综复杂的关联性,因此如何将这种关联性考虑进入变量选择过程中,也是值得探讨的问题。
参考文献
[1] 王星. 非参数统计. 北京: 清华大学出版社, 2009.
[2] 田英杰, 邓乃阳. 数据挖掘中的新方法-支持向量机. 北京: 科学出版社, 2004.
[3] Alexandros Karatzoglou. Support Vector Machines in R. Journal of Statistical Software, April 2006, Volume 15, Issue 9.
[4] J.C. Burges. A tutorial on support vector machines for pattern recognition. Data Mining and Knowledge Discovery 1998, 2, 121-167,.
[5] Sancho Salcedo-sanz,Mario Deprado-Dumplido. Feature Selection Methods Involving Support Vector Machines for Prediction of Insolvency in Non-life Insurance Companies. Intell. Sys. Acc. Fin. Mgmt. 2004, 12, 261–281,.
[6] Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning. America: Springer-Verlag, 2001.
� 数据来源:http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Prognostic%29
�本文数据分析采用开源的R软件,其中决策树用到rpart软件包,支持向量机用到e1071软件包,Logistic回归用到stats软件包的glm函数,模拟退火算法部分为自编函数。
_1298573030.unknown
_1298579039.unknown
_1298628504.unknown
_1298632472.unknown
_1298632573.unknown
_1298632688.unknown
_1299063049.unknown
_1315774154.unknown
_1298893692.unknown
_1298632642.unknown
_1298632488.unknown
_1298629221.unknown
_1298629252.unknown
_1298628505.unknown
_1298629120.unknown
_1298579570.unknown
_1298580199.unknown
_1298628503.unknown
_1298579854.unknown
_1298580159.unknown
_1298579656.unknown
_1298579453.unknown
_1298579469.unknown
_1298579529.unknown
_1298579391.unknown
_1298577139.unknown
_1298578292.unknown
_1298578596.unknown
_1298578605.unknown
_1298578440.unknown
_1298578146.unknown
_1298578276.unknown
_1298578057.unknown
_1298575952.unknown
_1298576359.unknown
_1298577015.unknown
_1298577104.unknown
_1298577114.unknown
_1298576719.unknown
_1298575972.unknown
_1298573557.unknown
_1298574897.unknown
_1298575951.unknown
_1298574575.unknown
_1298573114.unknown
_1298573459.unknown
_1298554465.unknown
_1298572627.unknown
_1298572733.unknown
_1298572844.unknown
_1298572703.unknown
_1298572458.unknown
_1298572580.unknown
_1298572368.unknown
_1297838266.unknown
_1297838870.unknown
_1297838925.unknown
_1297839016.unknown
_1297838479.unknown
_1297837347.unknown
_1297837380.unknown
_1297837264.unknown