为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

利用人工神经网络识别小圆蓝细胞瘤亚型

2017-11-29 9页 doc 25KB 25阅读

用户头像

is_624976

暂无简介

举报
利用人工神经网络识别小圆蓝细胞瘤亚型利用人工神经网络识别小圆蓝细胞瘤亚型 利用人工神经网络识别小圆蓝细胞瘤亚型 230 第44卷第3期 2010年6月 哈尔滨医科大学 JOURNALOFHARBINMEDICALUNIVERSITY Vo1.44.No.3 Jun.,2010 利用人工神经网络识别小圆蓝细胞瘤亚型 郭松,刘心平,史呈伟,李立群,孟群 (1.哈尔滨医科大学科研处;2.哈尔滨医科大学公共卫生学院,黑龙江哈尔滨150081) [摘要]目的研究人工神经网络方法在识别肿瘤亚型中的有效性.方法利用小圆蓝细胞瘤的基因芯片数据, 采用人工神...
利用人工神经网络识别小圆蓝细胞瘤亚型
利用人工神经网络识别小圆蓝细胞瘤亚型 利用人工神经网络识别小圆蓝细胞瘤亚型 230 第44卷第3期 2010年6月 哈尔滨医科大学 JOURNALOFHARBINMEDICALUNIVERSITY Vo1.44.No.3 Jun.,2010 利用人工神经网络识别小圆蓝细胞瘤亚型 郭松,刘心平,史呈伟,李立群,孟群 (1.哈尔滨医科大学科研处;2.哈尔滨医科大学公共卫生学院,黑龙江哈尔滨150081) [摘要]目的研究人工神经网络方法在识别肿瘤亚型中的有效性.方法利用小圆蓝细胞瘤的基因芯片数据, 采用人工神经网络方法从分子层面对其亚型进行分类.在计算出每个基因信噪比指标的基础上,采用加权投票方 法确定出特征基因,并利用线性神经网络方法构建分类器.结果该分类器在内部验证中获得了97.82%的正确 率,在独立检验样本集的预测过程中获得了95%的预测精度.结论人工神经网络模型在对癌症的亚型识别以及 治疗候选靶点的确定等领域具有很大的应用潜力. [关键词]人工神经网络;肿瘤亚型;基因芯片 [中图分类号]R730.4[文献标识码]A[文章编号]1000—1905(2010)03—0230—03 Identificationofsmall,roundblue-celltumorssubtypesbyartificialneuralnetwork GUOSong,LIUXin—ping,SHICheng—wei,etal (DepartmentofScientificResearch,HarbinMedicalUnive~ity,Harbin150081,China) Abstract:ObjectiveToinvestigatetheeffectivenessofartificialneuralnetworkinidentificati onof tumorsubtypes.MethodsBasedonthemicroarraydataofthesmall,roundblue— celltumors,artificial neuralnetworkwasemployedtoclassifythetumorsubtypesinmolecularleve1.Firstly,theod dsratiowas calculatedforeachgene.Secondly,aweightedvoterulewasusedforidentificationoffeatureg enes.Fi- nally,theclassificationswereconstructedbylinearneuralnetwork.ResultsTheaverageaccu racyof theclassificationintheinner— validationwas97.82%.and95%wasobtainedbyusingtheindependent testsampleset.ConclusionThereisapotentialapplicationoftheartificialneuralnetworkfort umordi— agnosisandtherapybyidentificationoftumorsubtypesandcandidatetargets. Keywords:artificialneur~network;tumorsubtypes;microarray 随着高通量基因芯片技术的完善和推广,其已 经广泛应用于基因功能预测,疾病诊断与分型以及 药物筛选等领域.传统的肿瘤诊断和分类方法 往往具有很强的主观性,其准确率依赖于分析者的 经验和水平.而基因芯片能够在一次实验中同时检 测成千上万个基因的表达水平,这为从分子层面对 肿瘤进行亚型分类及诊断肿瘤提供了良好的机遇. 例如Ramaswamy等人应用支持向量机的方法研究 了来自14种不同肿瘤类型的218个肿瘤样本的分 类和诊断问题,整体的分类正确率达到78%,远高 于随机的分类正确率. [收稿日期]2olo—o4—12 [作者简介]郭松(1968一),男,黑龙江哈尔滨人,教授,硕士. 通讯作者 人工神经网络(artificialneutralnetworks,ANN) 是一种应用类似于大脑神经突触联接的结构进行信 息处理的数学模型,通过训练可以对复杂的模式进 行识别和分类.神经网络的输入可以是任何类型的 数据,而输出则可以是多个类别标签.目前,人工神 经网络已经被应用到临床研究中,如利用心电图数 据诊断心肌梗死和心律失常;解释x线片诊断 间质性肺疾病等.本研究分析了小圆蓝细胞瘤 的基因芯片数据,应用数据挖掘算法识别其亚型间 的差异表达基因,基于这些分子标记利用线性人工 神经网络构建分类器,从而对小圆蓝细胞瘤的4种 亚型进行较为精确的分类. 第3期郭松,等.利用人工神经网络识别小圆蓝细胞瘤亚型231 l资料与方法 1.1数据描述 小圆蓝细胞瘤(SRBCTs)通常发生在儿童身上, 具有4种亚型,分别是NB(neuroblastoma),RMS (rhabdomyosarcoma),NHL(non?Hodgkinlympho— ma)和EWS(theEwingfamilyoftumors).目前还 没有单一的化学或者生物学测试方法能够把这4种 亚型准确地区分开.本研究所引用的小圆蓝细胞瘤 4种亚型的基因芯片数据来自Khan等"的研究,其 中包含6567个基因在88个样本中的表达水平(由 于偏小的基因表达水平容易受到噪声的影响,因此 Khan等人将红色荧光强度低于20的基因过滤掉, 最终获得了2308个基因用于亚型识别的分析),这 88个样本的诊断结果为:29个EWS,25个RMS,18 个NB,11个NHL,另外还有5个为非SRBCT样本. 因此,本文将83个患病亚型分成两部分,其中63个 用于人工神经网络的训练,另外20个不参与训练, 而作为独立样本集用于后期分类器的检验.83个 样本的4种亚型分布情况如表1所示. 表183个小圆蓝细胞瘤的4种亚型分布情况 1.2特征基因的提取 为了消除基因芯片数据的误差,利用公式 (g,s)=丛_二对基因芯片数据进行化 org 处理,式中x(g,s)是第g个基因在第S个样本中的 原始表达值,(g)和(g)分别表示基因g在所有 样本中的均值和方差.由于基因芯片数据具有样本 量少,检测基因多的特点,应对数据进行降维,以选 取到最具分类价值的基因,从而有效地避免"维数 灾难".本研究采用Gloub等人提出的基因信噪比 指标来评价基因同类别的相关程度_8J,其计算公式 2N(g)lI,g), (g),17"(g),(g)分别表示基因g在两类样本中 的均值和方差.然而,因小圆蓝细胞瘤具有4种亚 型,是一个四分类问题,所以需先将63个样本进行 4次两类化处理,每次中的第一类被定义为其中的 一 种亚型类别,而另一类则是其余3种亚型的并集, 然后再利用公式S()=?'~iS2N(g,)定义一种加 权的信噪比指标(s值),以衡量基因包含分类信息 的多少,式中n为第类亚型包含的样本数量,/2表 示的是全部63个训练样本.所计算出的值越大, 表明该基因对于亚型的识别越重要. 1.3人工神经网络的构建 采用线性神经网络对小圆蓝细胞瘤的4种亚型 进行分类.线性神经网络是最简单的一种神经元网 络,它可以由一个或多个线性神经元构成,每个神经 元的激活是线性函数.若选出的特征基因有 个,则具有个输入的单层线性神经元网络结构如 图1所示,本文选取的是N=4,为小圆蓝细胞瘤的4 种亚型.网络输出和输入之间的关系可以表示为y =+B,其中y表示输出列向量,表示输入列向 量,表示权重矩阵,B为阈值列向量.如果用表 示网络的目标输出向量,线性网络的输出误差函数 定义为(,)=1/2(r-r)=1/2(WX-B),当 网络的输入和目标输出值给定后,其输出误差将取 决于网络的权重和阈值.采用Widrow—Hoff学习规 则来训练神经网络,调整网络的权值,该学习规则又 被称为最小均方误差算法(1eastmeansquare, LMS),它利用梯度下降法,沿着相对于均方误差的 最快下降方向,不断修正权重和阈值,以使输出误差 达到最小值J,其学习规则无需求导,算法比较简 单,并且具有很快的收敛速度. ," y 图1具有M个输入?个神经兀的单层线性神经网络模型 1.4分类器的评价 使用内部验证和外部验证两种评价方法对分类 器的性能进行评价,其中内部验证使用的是改进的 n倍交叉证实方法,将63个训练样本4种亚型中 的每种亚型样本随机分成近似的n等份后,再从每 种亚型样本中随机选取其中的一份合并作为检验 集,剩余的所有样本作为训练集.依此类推,穷举所 有组合的情况下一共可以构建n×n×n×n=/7,个 训练集和检验集对,从而保证了每个样本均有一次 机会被用作检验样本,同时保证了在训练集中各类 样本的比例与原始样本集中的比例近似一致.由于 在对训练样本集进行划分的时候是随机进行的,因 此,还需要重复运算该随机过程m次,这样将会获 232哈尔滨医科大学第4_4卷 得m×凡个分类器及其检验正确率,将这些检验结 果进行平均就得到了分类器在内部验证中的正确 率.此外,20个检验样本作为外部独立的数据集用 来对所构建的神经网络分类器进行外部验证,以进 一 步评价分类器的效能. 2结果 对小圆蓝细胞瘤基因表达谱数据进行标准化 (使其服从均值为0,方差为1的分布)后分别计算 出2308个基因的s值,.s值的分布如图2所示.为 了能够利用较少的特征基因来达到较好的分类效 能,本研究选取0.7作为s的阈值,从而获得了11 个特征基因(ImageID:770394,784224,377461, 814260,1435862,866702,796258,244618, 52076,295985,491565);基于这些特征基因在63 个训练样本中的表达水平,利用WidrowHoff学习规 则采用改进的3倍交叉证实的方法来构建线性神经 网络分类器.在对分类器进行评价的过程中,将63 个样本按照4种不同的亚型分别随机分成近似的3 等份,每次从每个类别中随机抽取一份合并作为检 验集,其余2份合并作为训练集,所以一次随机将产 生3=81种不同的训练集和检验集对.在每种情 况下,通过训练集来构建线性神经网络分类器,再利 用检验集进行分类效能评价.该随机过程重复进行 了1O次,一共获得了810个神经网络分类器,这些 分类器正确率的均值作为评价神经网络在训练样本 中的分类效能.810个分类器中错分样本的个数统 计如表2所示,故内部验证的整体正确率为371/ [(81×10×63)/3]97.82%.而20个独立样本 的外部评价结果显示19个样本获得了正确的分类. 图2S的不同阈值及其对应的特征基因个数 表2内部验证的分类器效果 3讨论 利用小圆蓝细胞瘤4种亚型的基因表达谱数 据,在筛选出特征基因的基础上,采用Widrow—Hoff 学习规则训练线性人工神经网络分类器,在内部的 3倍交叉验证和外部验证的评价中都取得了令人满 意的分类效能.本研究结果提示,利用基因芯片数 据并结合数据挖掘算法,可实现对肿瘤亚型的较为 精确分类,克服传统肿瘤诊断的主观性判断问题,避 免出现在显微镜下因肿瘤亚型细胞相似而难以精确 分型的困难,对肿瘤的诊断以及肿瘤分子靶点的识 别来说是一种行之有效的更为客观的精细方法,具 有重要的实用价值.此外,该方法还能够识别出对 分类有重要贡献的特征基因,不但能够很好地起到 降维作用,并且对于肿瘤治疗靶点的识别具有重要 的参考意义. [参考文献] [1]RamaswamyS,GolubTR.DNAmicroarraysinclinicaloncology 【J].JClinOncol,2002,20(7):1932-1941. [2]LanderES.Arrayofhope[J].NatGenet,1999,21(1Supp1):3-4. [3]RamaswamyS,TamayoP,RifkinR,eta1.Muhiclassc~cerdi— agnosisusingtumorgeneexpressionsignatures[J].ProcNatlAcad SciUSA,2001,98(26):15149-15154. [4]Hed6nB,OhlinH,RittnerR,eta1.Acutemyocardialinfarction detectedinthe12-leadECGbyartificialneuralnetworks『J]. Circulation,1997,96(6):1798—1802. [5]SilipoR,GoriM,TaddeiA,eta1.Classificationofarrhythmic ventsinambulatoryelectrocardiogram,usingartificialneuralnet— works[J].ComputBiomedRes,1995,28(4):305-318. [6]AshizawaK,IshidaT,MacMahonH,eta1.Artificialneuralnet— worksinchestradiography:applicationtothedifferentialdiagnosis ofinterstitiallungdisease[J].AcadRadiol,1999,6(I):2_9. [7]KhanJ,Weijs,Ringn6rM,eta1.Classificationanddiagnostic predictionofcancersusinggeueexpressionprofilingandartificial neuralnetworks[J].NatMed,2001,7(6):673-679. [8]GolubTR,SlonimDK,TamayoP,eta1.Molecularclassification ofcancer:classdiscoveryandclasspredictionbygeneexpression monitoring[J].Science,1999,286(5439):531-537. [9]葛蕾,霍爱清.Widrow—Hoff神经网络学习规则的应用研究 [J].电子设计工程,2009,17(6):15—16. [10]bX,RaoS,WangY,eta1.Genemining:anovelandpowerful ensembledecisionapproachtohuntingfordiseasegenesusingmi— croarrayexpressionprofiling[J].NucleicAcidsRes,2004,32 (9):2685.2694. 匿 一 : 匾 一垦 一 嘲豳一 儿网一 丽豳黼阻一网嘲嘲邈一 m圈溺嘲豳嘲邈一m阐嬲阕嘲盥一嬲豳豳潲盟
/
本文档为【利用人工神经网络识别小圆蓝细胞瘤亚型】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索