福 建 电 脑福 建 电 脑!""#年第 $期
基于决策树方法的信用卡审批模型分析
花 蓓 %&!
!"#南华工商学院计算机系!广东 广州!$"%$%&"’(华南理工大学!广东 广州!$"%)*"+
!摘 要" 本文针对建模数据的非对称性会影响分类检测建模问题!研究用不同比例的建模数据集进行建模!以
获得较优的模型"利用决策树技术建立了信用卡审批模型!并对模型进行了检验!通过实验得出!该模型在预测精度#建
模速度等方面均优于神经网络模型$
!关键词" 信用卡审批%决策树#神经网络
! 引言
由于信用卡能给银行带来很高的利润! 中国的各大商业银
行受信用卡业务的高额利润和巨大市场空间的吸引! 都开始加
入或增加了在信用卡业务的投入"但高利润必然伴随高风险"如
何更好地对信用卡申请人进行识别和判断! 提高银行预防和抵
抗信用卡风险的能力!是所有银行迫切需要解决的问题" 因此!
对信用卡审批的研究具有重要的实际意义"
过去对信用卡申请的资信评估主要是通过专家根据经验判
断和统计技术’如判别分析( 做出的& 然而随着电子商务的发展&
信用卡的使用者和交易量也将迅速增加& 导致信息量急剧扩大&
仅凭个人经验已很难有效的做出正确判断& 而判别分析所做的
假设条件又常常无法满足& 因此需要引入先进的信息处理技术
为决策者提供决策支持" 本文利用决策树及神经网络技术对信
用卡申请进行高效# 智能的判断& 对决策者提供有效的决策支
持"
" 决策树方法)%*
决策树就是一个类似流程图的树结构! 其中每个内部节点
示在一个属性$取值%上的测试!每个分支代表一个测试输出!
而每个叶结点就代表一个类别"树的最高层结点是根结点"如图
% 所示!就是一个决策树示意描述!该决策树描述了一个购买电
脑的分类模型! 利用它可以对一个顾客是否会在本商场购买电
脑进行分类预测" 内部节点用矩形表示& 而树叶节点用椭圆表
示"
为了对未知数据对象进行分类识别! 可以根据决策树的结
构对数据集中的属性值进行测试! 从决策树的根结点到叶结点
的一条路径就形成了对相应对象的类别预测" 决策树可以很容
易转换为分类规则"
图 % 决策树示意描述
决策树是一种结构简单#搜索效率高的分类算法"这类方法
以信息论为基础!对大量的实例选择重要的特征建立决策树"常
用的算法有 +,-#./0+,#.012#34567#.89# 和 .#9" 等"
.89# 是基本的 +,- 算法的扩充版本!它在以下几个方面作
了改进)!*’
$%%避免对训练数据的过分适合!采用的方法是控制决策树
的生长深度&
$!%采用后剪枝技术&
$-%可以处理连续的变量!如温度等&
$8%可以处理含缺失值的训练数据"
用 .#9" 比用 .89# 建立的决策树尺寸小且计算时间少 !
.#9" 增加了推进$:;;67<=>%技术!以改进预测准确率!而 .89# 确
没有此推进技术" .#9" 新增加的主要功能如下 )-*’
%!变量误分类成本$?@A<@:B5 C<6DB@66
记录数为
!$$$ 的分析表!再通过对数据的分析及预处理!最后进入建模
的输入变量为’%9 H4C;?5AIA@E7B
5 年龄#
-9 G@AA<5ID;I5 婚否#89 /;C5J;67D;I5 邮编 ##9 0?>:@B@=D5 平均
帐面余额#K9 .@AI=4C 卡数#L9 0?>I@MD;=64C5 日均消费额#N9
G@O@DD;4=7465C;=7P6 最长使用卡帐户时间#$9 0?>I@M;?5AIA@E7@"
C;4=7 平均每天透支额#%"9 0?>7A@=6@D7<;=@C;4=7 平均每笔交易
的金额#%%9 0?>;?5AIA@E7I@M6 平均每笔透支天数#%!9 H5OD;I5 性
别代码!目标变量定义为 .467;C5ADB@66 客户类别!把 !$$$ 个样
本中的信用卡持有者分成两类’类标号为(%)的(好)客户$!$#$
个样本%和类标号为(")的(差)客户$8" 个样本%" 在建立了最佳
模型后!在信用卡申请中!如果模型判断为(好)客户!则批准发
给信用卡!如果判断为(差)客户!则拒绝发给信用卡"
! 数据比例的调整)8*
由于在最后的建模数据中! 客户类别决策属性 .46"
7;C5ADB@66 的类标号为(%)和(")的记录是非对称的!而非对称的
建模数据集会影响建模的结果!有时甚至得到的是错误的结果!
在后面的实验分析中可以看出!如果用非对称数据集$未经调整
比例的建模数据集%!则得不到正确的预测" 因此!在本研究中!
对建模数据集作如下调整’
%9 在建模数据集Q!""" 条记录R中提取所有的类标号为(")
的记录 E!共 -! 条记录&
!! 在剩余的数据中随机提取 8 组记录’=E%&=E!&=E-&=E8& 其中!
=E%#=E8每组有 -! 条记录&
-!利用未经调整比例的建模数据集直接进行建模"
形成下面的 # 个划分$数据集%’
,&
福 建 电 脑福 建 电 脑 !""#年第 $期
%&’ ( 与任一个 )(*!*+&,!,-,."结合在一起#形成比例为 #"/0
#"/数据集$
1!2 ( 与任两个不同的 )(*!*+&,!,-,."结合在一起#形成比例为
--3--/044345/数据集$
6-2 ( 与任三个不同的 )(*!*+&,!,-,."结合在一起#形成比例为
!#705#/数据集$
%.2 ( 与四个 )(*!*+&,!,-,."结合在一起 #形成比例为 !"/0
8"/数据集$
%#2 未经调整比例的建模数据集,其比例为 &/%4&3#/&
! 决策树和神经网络建模
本论文采用 9:;<;)=*); 83" 数据挖掘软件为工具#利用上述
不同比例的建模数据集进行决策树和神经网络建模&
图 ! 和图 - 分别显示了由决策树节点 9#3" 和神经网络节
点生成的决策树模型和神经网络模型&
图 !!左边"显示了一个决策树模型# 由图 ! !右边"可知#八
个 重 要 的 输 入 变 量 为 % >?@AB:B)C;’ 9BDE)F<’
>?@=DB)GBC=*H)B?@EBIH?;DEDB(=B?@EBICH)GF<;’ KH<;LHG=CHE; 和
MBNBCCHF)=FG;总结
本文利用决策树技术研究了商业银行信用卡审批问题#并
利用银行的实际数据#对模型的效果进行了检验和比较#结果表
明%
!&"数据集比例为 !#/%5#/的基于决策树的信用卡审批评
估模型在预测能力方面优于其它数据集比例的模型 !决策树和
神经网络"& 用决策树方法构造的模型所需时间短#得到的结果
易于解释&
!!"如果模型建立在一个极不对称的数据集上#则很可能得
不到正确的模型& 这可能发生主要是因为那些被拒绝的申请者
可能不会包含在构建模型的数据库中# 因此就没有机会来确知
他们的信用价值性& 因而#样本将会是有偏的!也就是不同于一
般总体"#其中良好的客户大大的得到了表现& 使用这一样本得
到的模型通常将无法在完全的总体中表现良好# 因为用于购建
模型的数据与将模型应用到的数据存在差异&
!-"按 !#/05#/比例数据集建立的决策树模型#由于其类型
!错误率为 !#/#显然错误率还是比较高的#这说明在对于申请
信用卡客户的审批方面还是存在一定的风险的# 目前的审批政
策还比较宽松#还有需要改进和加强的地方&
!下转第 !" 页"
模型 数据比例
决
策
树
#"/%#"/ !#3"" &8345 8&3!8
--3--/044345/ !#3"" !"35$ 5$3&8
!#/05#/ !#3"" &.3!- 8#34$
!"/08"/ #"3"" 83.8 $&3&$
&/04&3#/ 853#" "3!" $$3&"
神
经
网
络
#"/%#"/ !#3"" -&34$ 483-5
--3--/044345/ !#3"" !$355 5"3!5
!#/05#/ !#3"" -83$# 4&3&4
测试集测验结果%/2
类型!错误率 类型"错误率 准确率
!"/08"/ #"3"" 4344 $!3$$
&/04&3#/ &""3"" " $$3!"
#$
福 建 电 脑福 建 电 脑!""#年第 $期
参考文献!
!"# $%&’ ()*+,-)&, .%/0,1 著2 数据挖掘概念与技术3 范明’孟小峰等译3 机械工业出版社3 4556373
!8# 93:)&;<=&> ?@3A BC<=1)%-!6DD83
+<
674?%64(5,5=@ A--96- 45* A5,7,40 B6-907-! CCC&;-&D,7&6*9EF1G;E1416(-EG**$HID(49*&1-
J#K L45= %,9!M/6 6N40947,)5 )D ;04--,D,;47,)5 +)*60- D)( ;(6*,7 -;)(,5=!!""!!/771@EECCC&C,!&C,-)&95,I=)677,5=65&*6E=67D,06O:476,A:PQ$#
缆"电力线"无线"红外线等多种媒体进行信号传输#根据传输距
离的远近" 传输速度和现场设备等具体要求组成自由拓扑结构
或总线型等结构! 这些都给系统和维护升级改造带来极大
的方便$
图 Q 采用三层结构的楼宇自动化系统集成
! "#$%#&’( 在智能小区中的应用
智能小区通常由 Q 大基本要素组成R即家庭智能管理%物业
管理"信息通信网络&其中家庭智能管理是指对业主家中的 S 表
T水表"电表"煤气表"暖气表U"Q 防T防火"防盗"防煤气泄漏U"A3
卡"家电"照明"通信等进行集中智能化操作控制R物业管理包括
房产"财务"人员"收费T物业管理费"水电煤暖 S 表用量收费等U"
图纸"信息"设施"维护"安防T门禁"巡更"报警"住宅安防"边界"
一卡通"U等管理 R信息通信网络是智能小区的系统支撑平台R发
展速度很快R是未来小区增值服务的主要方面&
!)* 住户室内安全防护系统
住户室内安全防护系统主要包括室内防盗%紧急求助%煤气
泄漏探测和关断等功能&
室内采用的各种探测器如’微波红外双鉴器%门磁%紧急求
助按钮和煤气泄漏探测器等!均为简单开关量 AEV 接口& 选用具
有 W 路开关量 AEV 接口的 %)5X)(G- 节点产品!每一通道连接一
种探测器!节点程序自动检测各 AEV 口的状态& 一旦某 AEV 口状
态发生变化!节点程序就将相应的报警信号!以网络变量的形式
发送到网络上!小区监控中心收到信号后作出相应的反应&
!+, 小区远程自动抄表系统
小区远程自动抄表系统使用电子水表% 电子电表和电子煤
气表&这三种表输出都为电子脉冲!只需对电子脉冲进行计数便
可测得表的计量& 选用具有 W 路数字量 AEV 接口的 %)5X)(G- 节
点产品!可同时对八个表头的输出脉冲进行计数!并转化为相应
的读书!保存在节点的 YY’BV> 中& 管理中心的计算机可通过
%)5X)(G- 网络读取表数!实现远程自动抄表&
!)- 小区管理监控系统
小区管理监控系统包括报警监控计算机和远程抄表计算
机&在两台计算机上安装有 %)5X)(G- 网卡!接入 %)5X)(G- 主干
网络!小区内所有的信号均通过 %)5X)(G- 主干网络传送到监控
中心&
监控计算机可以显示住户资料(性命%电话等)和报警类别!
历史记录!可同时接受多点报警$远程抄表计算机可查询任意住
户的水%电%煤气表的读书和历史记录!并可对用户用量超过预
设最大值时进行报警$
!)! 小区智能化总体系统结构
在智能住宅建设中应用 %)5X)(G- 技术R可以很容易地实现
智能化住宅的所有功能R整个网络结构相对简单R网络布线相当
容易$ 图 S 中!对于用户各种不同的功能要求R只需选用不同的
控制节点R编写相应的程序R直接连接到住宅区的控制网络上就
完成了 R 在物理学方面不必对网络结构作任何修改 $ 而且
%)5X)(G- 网络可扩充性极好R扩充子系统R增加功能R连接两个小
区控制网等都很简便$ %)5X)(G- 技术提供的高效开发平台让我
们在进行系统设计和开发时对网络通讯不再需要花费时间 R可
以把精力集中到具体的系统功能实现上R 能在较短时间内针对
具体任务设计出成熟稳定的系统$
图 S 小区智能化系统结构
. 小结
智能建筑目前仍远远未达到成熟阶段! 系统的稳定性及费
用投入的回报还不能明显地体现出来!而 %)5X)(G- 凭借其在这
方面的独特优势迅速占领了大部分智能建筑的市场! 并已经进
入到了工业现场总线领域$ 目前来说!%)5X)(G- 更加注重了人
性化的设计! 神经网络及模糊控制在其中的应用更加满足了用
户个性化的需求! 为智能建筑的发展提供了更为广阔的发展空
间$
参考文献!
!6# 储忠 V=&:=1U; 技术在智能建筑中的应用 计算机应用研究 85553X
!8# 周祖德 基于网络环境的智能控制 国防工业出版社 855@
!L#谢凌广 V=&:=1U; 技术在楼宇自动化领域的应用 工业控制计算机 85563Y
"上接第 L7 页#
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
8M