为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

基于数据挖掘技术的信用卡审批模型研究_花蓓

2013-12-27 3页 pdf 284KB 25阅读

用户头像

is_671527

暂无简介

举报
基于数据挖掘技术的信用卡审批模型研究_花蓓 - 2989- 0 引 言 过去对信用卡申请的资信评估主要是通过专家根据经验 判断和统计技术 (如判别分析)做出的,然而随着电子商务的 发展,信用卡的使用者和交易量也将迅速增加,导致信息量急 剧扩大,仅凭个人经验已很难有效的做出正确判断,而判别分 析所做的假设条件又常常无法满足,因此需要引入先进的信 息处理技术为决策者提供决策支持 [1-2]。本文结合决策树和神 经网络技术,对信用卡申请进行高效、智能的判断,对决策者 提供有效的决策支持。并针对建模数据集合的非对称性会影 响分类检测建模问题,研究用不同比例的建模数据集进行...
基于数据挖掘技术的信用卡审批模型研究_花蓓
- 2989- 0 引 言 过去对信用卡申请的资信评估主要是通过专家根据经验 判断和统计技术 (如判别分析)做出的,然而随着电子商务的 发展,信用卡的使用者和交易量也将迅速增加,导致信息量急 剧扩大,仅凭个人经验已很难有效的做出正确判断,而判别分 析所做的假设条件又常常无法满足,因此需要引入先进的信 息处理技术为决策者提供决策支持 [1-2]。本文结合决策树和神 经网络技术,对信用卡申请进行高效、智能的判断,对决策者 提供有效的决策支持。并针对建模数据集合的非对称性会影 响分类检测建模问题,研究用不同比例的建模数据集进行建 模,以获得最优的模型。 1 数据预处理 1.1 输入变量和目标变量 本文实验用的数据是某银行提供给的业务数据,来源于 信用卡业务系统,主要包括客户资料、客户申请资料、信用卡 资料、账户资料、历史交易数据等,共包含 100多张,大约 300 Mb的数据量。通过查阅大量的文献等,最后汇集成一张 数为 2 999的分析表,再通过对数据的分析及预处理[3],最 后进入建模的输入变量为:①Sumoverdraftlimit 授信额度总 和、②Age 年龄、③Marriedcode 婚否、④Homepostcode 邮编、 ⑤Avgbalance 平 均账 面 余 额、⑥Cardnum 卡 数、⑦Avgday- consume日均消费额、⑧Maxaccountusemonths最长使用卡账户 时间、⑨Avgdayoverdraftamount 平均每天透支额、⑩Avgtransac- tionamount平均每笔交易的金额、 Avgoverdraftdays平均每笔 透支天数、 Sexcode性别代码,目标变量定义为Customerclass 客户类别,把 2 999个样本中的信用卡持有者分成两类:类标 号为“1”的“好”客户(2 959个样本)和类标号为“0”的“差”客户 (40个样本)。在建立了最佳模型后,在信用卡申请中,如果模 型判断为“好”客户,则批准发给信用卡,如果判断为“差”客 户,则拒绝发给信用卡。 1.2 数据比例的调整 [4] 由于在最后的建模数据表格中,客户类别决策属性 Cus- tomerclass的类标号为“1”和“0”的记录是非对称的,而非对称 的建模数据集会影响建模的结果,有时甚至得到的是错误的 结果,在后面的实验分析中可以看出,如果用非对称数据集 (未经调整比例的建模数据集),则得不到正确的预测。因此, 在本研究中,对建模数据集作如下调整:①在建模数据集 (2000条记录)中提取所有的类标号为“0”的记录 f,共 32条记 录;②在剩余的数据中随机提取 4组记录:nf1,nf2,nf3,nf4,其中, nf1~nf4每组有 32条记录;③利用未经调整比例的建模数据集 直接进行建模。 形成下面的 5个划分(数据集):①f与任 1个nfi(i = 1,2,3,4) 结合在一起,形成比例为 50%: 50%数据集;②f与任 2个不同 的 nfi(i = 1,2,3,4)结合在一起,形成比例为 33.33%:66.67%数据 收稿日期:2007-06-10 E-mail:qunhuali@163.com 作者简介:花蓓 (1962-),女,上海人,硕士,工程师,研究方向为数据挖掘等。 基于数据挖掘技术的信用卡审批模型研究 花 蓓 (南华工商学院 计算机系,广东 广州 510507) 摘 要:针对分类预测建模数据的非对称性,提出一种基于神经网络和决策树技术结合的非对称性数据集合预测分类建模 方法,建立了信用卡审批模型。结果表明:增加预测类标识决策属性后,在用不同比例的建模数据集建立的所有模型中,比 例为 33.33%:66.67%的数据集建立的神经网络模型最好,模型的准确率达到 88.49%。 关键词:数据挖掘; 信用卡; 神经网络; 决策树; 模型 中图法分类号:TP391 文献标识码:A 文章编号:1000-7024 (2008) 11-2989-03 Research on credit card approval models based on data mining technology HUA Bei (Computer Department, Nanhua College of Industry and Commerce, Guangzhou 510507, China) Abstract:Because the unbalance of the data sets of building model would affect the credit card classified prediction, it is raised that the predictive classified building model method of unbalance data sets is based on the combination of decision tree and neural net and the model of credit card approval are built. The result shows that after added predict field among all models which are built using different data sets, the neural net model with the 33.33%: 66.67% data set has the best performance. The accuracy rate of the model is 88.49%. Key words:data mining; credit card; neural net; decision tree; model 2008年 6月计算机工程与 June 2008 第 29卷 第 11期 Vol. 29 No. 11 Computer Engineering and Design - 2990- 集;③f与任 3个不同的 nfi(i = 1,2,3,4)结合在一起,形成比例为 25%:75%数据集;④f与 4个 nfi(i = 1,2,3,4)结合在一起,形成比 例为 20%:80%数据集;⑤未经调整比例的建模数据集,其比例 为 1%:61.5%。 2 信用卡审批模型建立 2.1 建立模型所用方法 论文用决策树 [5-7]和神经网络方法 [6]建立模型。 2.1.1 C5.0算法 [5] 决策树分类方法是一种有指导的学习方法。决策树是一 个类似于流程图的树结构,首先根据训练样本数据集生成。如 果该树不能对所有对象做出正确的分类,那么选择一些例外 的样本加入到树中,重复该过程一直到形成正确的分类规则 集(决策树)[6]。最终结果的决策树中,叶结点代表类型或者类 型分布,内部结点对应于一个属性的测试,每个分枝代表一个 测试的输出,从根到叶结点的一条路径就对应着一条规则。最 为典型的决策树学习系统是 ID3,它采用自顶向下递归的各个 击破方式来构造决策树。算法 C4.5和 C5.0都是 ID3的扩展, 它们将分类领域从类别属性扩展到数值型属性。 C5.0决策树采用增益率(GainRate)来构造,增益率采用综 合的熵值来度量。熵 E(S)衡量数据集的无序程度,见式(1),其 中,数据集 S包含类别 C1,C2,⋯,Cm,P(Sc)表示类别 C在数据 集 S中出现的概率 = = 1 *log2 (1) 设属性A具有V个不同的值{a1,a2,⋯aV},可以用属性A将 S划分为 V个子集 {S1,S2,⋯SV},|SV|分别为子集 SV中各个类别 样本数的和,|S|为 S中的样本总数,信息增益(InformationGain) 用来度量序数改进的结果,见式(2) , = * (2) 增益中包含把数据集划分为更小有序子集的属性A的偏 差。要减少这个偏差,采用 SplitInfo来计算每个变量相对于它 的 m个变量值的熵,见式(3) , = = 1 *log2 (3) 增益率(GainRatio)采用Gain除以SplitInfo计算得到,见式 (4),这样计算就减小了较大值数据集的偏差 , = , , (4) C5.0算法是通过在使增益率最大化的属性上划分数据集 来构建一棵决策树。 2.1.2 神经网络算法 最流行的神经网络算法是 20世纪 80年代提出的后向传 播算法 [6]。后向传播通过迭代地处理一组训练样本,将每个样 本的网络预测与实际知道的类标号比较,进行学习。 对于每个训练样本,修改权,使得网络预测和实际类之间 的均方误差最小。这种修改“后向”进行。即由输出层,经由 每个隐藏层,到第一个隐藏层(因此称作后向传播)。一般来说 权将最终收敛,学习过程停止。算法描述如下所示: 算法:后向传播。使用后向传播算法的神经网络分类学习 输入:训练样本 samples,学习率 l,多层前馈网络 network。 输出:一个训练的、对样本分类的神经网络。 方法: 初始化 的权和偏置。 while 终止条件不满足{ for 中的每个训练样本 X { //向前传播输入 for 隐藏或输出层每个单元 j { = + ;//相对于前一层 i,计算单元 j的净输入 ;} //计算每个神经元 j的输出 //后向传播误差 for 输出层每个单元 j = 1 ;//计算误差 for由最后一个到第一个隐藏层,对于隐藏层每个单元 j = 1 ;//计算关于下一个较高层 k 的误差 for 中每个权 { = ; //权增值 = + ;} //权更新 for 中每个偏置 { = ; //偏置增值 = + ;} //偏置更新 }} 2.2 模型建立步骤 论文用决策树和神经网络技术的结合使用来建立模型[8]。 (1)首先利用上面数据预处理一节中介绍的不同比例的建 模数据集和输入变量和目标变量进行决策树和神经网络建模, 然后分别选出最佳的决策树和神经网络模型。 (2)分别以上述最佳的决策树(或神经网络)模型产生的预 测类标识属性$C-Customerclass(或$N-Customerclass)加上原来 的 12个输入属性作为神经网络(或决策树)模型的输入属性,在 不同比例的建模数据集上建立增加预测类标识属性后的神经 网络(或决策树)模型,然后选出最佳神经网络(或决策树)模型。 3 模型结果分析 用上述不同比例的数据集将增加预测类标识属性前后的 决策树模型与神经网络模型的预测结果进行比较。模型预测 能力的比较将从模型的总预测准确率和两类错误率两个方面 进行[9],不同比例数据集建立的增加预测类标识决策属性前后 的决策树模型和神经网络模型的测试结果如表 1所示。 由表 1可知: (1)比例为 50%:50%、33.33%:66.67%和 25%:75%的数据集 增加预测类标识决策属性后对神经网络和决策树模型的准确 率都有提高。比例为 20%:80%和 1%:61.5%的数据集增加属性 后准确率几乎没有什么变化,这说明数据集的数据越对称,则 增加预测类标识决策属性能提高模型的准确率。 (2)增加预测类标识决策属性后,比例为 33.33%:66.67%的 数据集建立的神经网络模型最好(准确率为 88.49%),它比没有 时得到的最好模型准确率 (85.69%)提高了 2.80%(类型Ⅰ错误 率不变前提下)。 - 2991- (3)用原始比例数据集(1%:61.5%)进行建模,增加预测类 标识决策属性后,不管是用决策树建立的模型,还是神经网 络建立的模型,都不可用。因类型Ⅰ错误率(“坏”客户错误地 划分为“好”客户数目占实际“坏”客户数目的比例) 均为 87.5%,这说明用具有傾斜的数据集 (绝大部分数据为“好”客 户)建立的模型,则检测的结果也几乎都为“好”客户。因此, 对于非对称数据集,如果不进行数据集的比例调整,则得不到 正确的结果。 4 结束语 本文利用决策树技术和神经网络技术研究了银行信用卡 审批问题,并利用银行的实际数据,对模型的效果进行了检验 和比较,结果表明: (1)增加预测类标识决策属性后的最好模型比增加预测类 标识决策属性前 (没有增加预测类标识决策属性时)的最好模 型准确率提高了 2.80%(类型Ⅰ错误率不变前提下)。因此,提 高了信用卡审批准确率。 (2)如果模型建立在一个极不对称的数据集上,则很可能 得不到正确的模型。这可能发生主要是因为那些被拒绝的申 请者可能不会包含在构建模型的数据库中,因此就没有机会 来确知他们的信用价值性。因而,样本将会是有偏的(也就是 不同于一般总体),其中良好的客户大大的得到了表现。使用 这一样本得到的模型通常将无法在完全的总体中表现良好, 因为用于购建模型的数据与将模型应用到的数据存在差异。 (3)由于增加预测类标识决策属性后的最好模型的类型Ⅰ 错误率为 25%,显然错误率还是比较高的,这说明在信用卡申 请审批方面还存在一定的风险,目前的审批政策还比较宽松, 还有需要改进和加强的地方。 参考文献: [1] Karel Komorad. On credit scoring estimation[D]. Berlin: Hum- boldt University, 2002. [2] 邹权.基于数据挖掘的信用卡申请者信用评分模型研究[D].西 南财经大学,2004. [3] 翟凌慧,马少平,唐焕玲.银行信用卡分类挖掘数据的预处理[J]. 计算机工程,2003,29(11):195-197. [4] Salvatore J Stolfo, David W Fan, Wenke Lee,et al. Credit card fraud detection using meta-learning: Issues and initial results[C]. Proceedings of the AAAI-97 Workshop on AI Approaches to Fraud Detection and Risk Management. Menlo Park, CA: AAAI Press,1997: 83-90. [5] Lewis Frey, Douglas Fisher, Ioannis Tsamardinos, et al. Identif- ying Markov blankets with decision tree induction[C]. Procee- dings of the Third IEEE international Conference on Data Mining. Melbourne, Florida: IEEE Computer Society,2003:59-66. [6] Jiawei Han, Micheline Kamber. 数据挖掘概念与技术[M]. 范 明,孟小峰,译.北京:机械工业出版社,2001:185-207. [7] 桂现才,彭宏,王小华.基于决策树的保险客户流失分析[J].计算 机工程与设计,2005,26(8):2026-2029. [8] Leea T S, Chiub C C, Luc C J. Credit scoring using the hybrid neural discriminant technique[J]. Expert Systems with Applica- tions, 2002(23):245-254. [9] Yang Liu. The evaluation of classification models for credit sco- ring [DB/OL]. http://www.wi2.wiso.uni-goettingen.de/getfile? DateiID=395,2002. (上接第 2988页) 目前,该集成系统框架已经在山西省电网公司、山西省电 力科学研究院项目“电力企业标准化信息管理平台”中得到了 应用。该系统很好地将企业原有的人事管理、保险管理、财务 管理等多项异构数据库管理系统进行了整合,搭建了一个在 办公自动化管理基础上体现标准化的适合电力企业自身实际 需求的开放式的信息管理平台,从而实现管理过程的自动化 和标准化。通过实践应用证明,通过该系统框架对企业原有 异构数据库系统进行集成,可以高效地实现异构数据资 源的共享和系统间信息通讯,具有广泛的应用价值。 参考文献: [1] 高复先.专家论“信息孤岛”[EB/OL].http://www.people.com.cn/ GB/it/48/298/20021112/864401.html,2002-11-12. [2] 达飞鹏,孟广猛.分布式数据库异构消解研究[J].计算机工程与 应用,2004,40(6):187-190. [3] Collins SR,Navathe SB,Mark L.XML schema mappings for hete- rogeneous database access[J].Information and Software Techno- logy,2002,44(4):251-257. [4] 王继成.基于元数据与Z39.50的分布协作式Web信息检索[J]. 软件学报,2001,12(4):620-627. [5] 王杰勋,廖文和.利用 JMS、XML技术实现异构数据库的数据 同步[J].机械制造与自动化,2007(1):68-70. [6] 王天亮,陈刚,徐宏炳.基于共享数据库的数据共享设计[J].计算 机工程与设计,2007,28(4):1923-1926. 表 1 增加属性后的不同比例决策树、神经网络模型两类 错误率和准确率 模型 测试集测验结果/% 类型Ⅰ错误率 类型Ⅱ错误率 准确率 增加预测类标识 决策属性 前 后 前 后 前 后 决 策 树 数 据 比 例 50%:50% 25.00 12.50 18.67 18.67 81.28 81.8 33.33%:66.67% 25.00 25.00 20.79 20.48 79.18 79.48 25%:75% 25.00 25.00 14.23 12.61 85.69 87.29 20%:80% 50.00 50.00 8.48 8.48 91.19 91.19 1%:61.5% 87.50 87.50 0.20 0.20 99.10 99.10 神 经 网 络 数 据 比 例 50%:50% 25.00 25.00 31.69 15.44 68.37 84.48 33.33%:66.67% 25.00 25.00 29.77 11.40 70.27 88.49 25%:75% 25.00 25.00 38.95 11.60 61.16 88.29 20%:80% 50.00 50.00 6.66 6.86 92.99 92.79 1%:61.5% 100.00 87.50 0 0.20 99.20 99.10
/
本文档为【基于数据挖掘技术的信用卡审批模型研究_花蓓】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索