为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

基于氨基酸组成分布的蛋白质同源寡聚体分类研究_cropped

2017-11-11 19页 doc 60KB 42阅读

用户头像

is_036899

暂无简介

举报
基于氨基酸组成分布的蛋白质同源寡聚体分类研究_cropped基于氨基酸组成分布的蛋白质同源寡聚体分类研究_cropped 基于氨基酸组成分布的蛋白质同源寡聚体分类研究 111,21 程咏梅 施建宇 ,潘 泉 ,张绍武 , ( 1. 西北工业大学自动化学院,西安 710072; 2. 西北工业大学生命科学院,西安 710072) 基于一种新的特征提取方法——氨基酸组成分布, 使用支持向量机作为成员分类器, 采用“ 一对一” 摘要: 的多类分类策略, 从蛋白质一级序列对四类同源寡聚体进行分类研究。结果表明, 在 10-CV 检验下, 基于氨基酸 组成分布, 其总分类精度和精度指数分...
基于氨基酸组成分布的蛋白质同源寡聚体分类研究_cropped
基于氨基酸组成分布的蛋白质同源寡聚体分类研究_cropped 基于氨基酸组成分布的蛋白质同源寡聚体分类研究 111,21 程咏梅 施建宇 ,潘 泉 ,张绍武 , ( 1. 西北工业大学自动化学院,西安 710072; 2. 西北工业大学生命科学院,西安 710072) 基于一种新的特征提取方法——氨基酸组成分布, 使用支持向量机作为成员分类器, 采用“ 一对一” 摘要: 的多类分类策略, 从蛋白质一级序列对四类同源寡聚体进行分类研究。结果明, 在 10-CV 检验下, 基于氨基酸 组成分布, 其总分类精度和精度指数分别达到了 和 , 比基于氨基酸组成成分的传统特征提取方法 86.22%67.12% 分别提高了 和 个百分点, 比二肽组成成分特征提取方法分别提高了 和 个百分点, 说明氨基 5.74 10.03 3.12 5.63 酸组成分布对于蛋白质同源寡聚体分类是一种非常有效的特征提取方法; 将氨基酸组成分布和蛋白质序列长度特 征组合, 其总分类精度和精度指数分别达到了 和 , 说明蛋白质序列长度特征含有一定的空间结构 86.35%67.23% 信息。 同源寡聚体关键词: 氨基酸组成分布; 二维主成分分析; 支持向量机; 中图分类号: Q617 引言材料与方法0 1 数据库蛋白质四级结构按亚基的种类和数目可分为同1.1 源多聚体和异源多聚体,例如同源二聚体、同源三 本 文 使 用 文 献 [3] 中 的 数 据 库 , 从 聚体、同源四聚体和同源六聚体等。对于蛋白质四 SWISS-PROT 数据库中选出,仅限于原核生物和细 级结构一般是通过生物学实验测定的,但需要昂贵 胞质的同源寡聚蛋白,由 1568 个同源寡聚蛋白质 的仪器,且实验中可能还会遇到一些困难。随着人 序 列 构 成 , 其 中 包 含 914 个 同 源 二 聚 体 类基因组计划在全世界范围内的顺利展开,人类已 ( homo-dimer, 2EM)、 139 个 同 源 三 聚 体 获得了大量的蛋白质序列,因而与实验方法相结 ( homo-trimer, 3EM)、407 个同源四聚体( homo- 合,利用蛋白质一级结构序列信息预测蛋白质空间 结构将扮演重要的角色。 tetramer, 4EM) 和 108 个 同 源 六 聚 体( homo- 目前对于蛋白质同源聚体分类研究较少。 hexamer, 6EM)蛋白质一级结构序列。2EM 类别 [1]Garian R用决策树和简单 Binning function 特征提 中 的 最 小 、 最 大 和 平 均 序 列 长 度 分 别 为 35、 取方法对蛋白质的同源二聚体和非同源二聚体进行 2 110、336;3EM 类别中的最小、最大和平均序列[2]了分类研究;Chou KC 等使用贝叶斯协方差判别 长度分别为 41、1 096、268;4EM 类别中的最小、 法和伪氨基酸组成成分特征提取方法对蛋白质四级 [3,4]最大和平均序列长度分别为 35、1 034、393;6EM 结构进行预测研究;张绍武等使用支持向量机和 类别中的最小、最大和平均序列长度分别为42 、 加权自相关、伪氨基酸组成成分特征提取方法 对多类同源寡聚体进行了分类研究。本文提出了一 729、340。 种新的特征提取方法—氨基酸组成分布,采用支 —1.2 特征提取方法 持向量机对蛋白质同源二聚体、同源三聚体、同源 设有 N个蛋白质序列,AA={A,R,N,D, p 四聚体和同源六聚体进行分类研究。 C,O,E,G,H,I,L,K,M,F,P,S,T, [5]支持向量机是近年来国际上新兴的一种机器 W,Y,V} 为基本氨基酸构成的集合,其中A 、 学习方法,由于出色的学习性能,该技术已成为当 前的研究热点。且已被成功地应用于生物信息学的 [6][7]基因微阵列表达模式、蛋白质家族、转录起始 [8][9][10]收稿日期: 2005-10-10 点、蛋白质亚细胞定位、蛋白质折叠等方面。 基金项目:国家自然基金项目(60372085 ) 通讯作者: 施建宇,电话:(029)88494352 , E-mail:snake5947@hotmail.com R、N、D、C、O、E、G、H、I、L、K、M、F、 段,这样蛋白质序列可表示为如下特征矩阵:P、S、T、W、Y、V 分别表示 20 个基本氨基酸, (A,k)P P(A,n)P(A,1) i’#ii% % ?[11]这里采用氨基酸残基指数数据库中的氨基酸排列 P (,k) !(i)= ! $ (n i %%顺序。 (V,k)P(V,n)PP(V,1) & ii20×n )i 1.2.1 氨基酸组成成分(3) [12][13][14]Nishikawa 等、Klein、Chou 等和张绍武 其中 P(!,k)为基本氨基酸在第 i 个蛋白质序列i [3]等的研究表明,蛋白质的折叠信息与氨基酸组成 的第 k 段中出现的次数除以蛋白质序列长度L , i( amino acid compositon)有明显的关联性,因此 ?AA,k=1, ,n。可以看出氨基酸组成成分是氨 " 对于第 i 个蛋白质序列可表示为如下特征向量: 基酸组成分布的一种特殊情况,对应于n= 1,即 ?!!!(i)={P(A) P() P(V)}, ?AA, i=1, ,N(1) 1iiip! =。相比多肽组成成分,氨基酸组成分布具 !11 其中 P()表示基本氨基酸 在第 i 个蛋白质序列中!! i有较低的计算阶数,随着 n 的增大,数据计算量只 出现的概率,特征向量中元素的顺序按照 20 种基 是线性增大,当 n=20 时,计算量与 !相当。 此2 本氨基酸的氨基酸残基指数顺序排列。从(1)式中 外,随着 n 逐渐增大,氨基酸组成分布提供 可以看出氨基酸之间的顺序信息没有包含在其中。 了这样一种从粗到细多尺度氨基酸组成分析手段,1.2.2 多肽组成成分 虽然氨基酸组成成分的计算且{P(,1) P(,i) P(,n)}构成了氨基酸 在蛋白 !!!! 非常方便,但没有 质序列中的概率密度分布,为我们提供了进一步研 [15]考虑氨基酸之间的顺序和耦合信息。Liu 等、 究的基础。 [16][17]Park 等和 Bhasin 等的研究表明,多肽组成成分 1.2.4 高维特征向量降维方法 方法考虑了氨基酸的顺序信息。 当 n 较大时,氨基酸组成分布特征矩阵的维数 对于 n 肽组成成分,第 i 个蛋白质序列可表示 较高,计算量较大,且自然地具有矩阵形式,本文 为如下特征矩阵: 使 用 二 维 主 成 分 分 析( two-dimension principle n- 1 n- 1 [18]"" #’component analysis, 2DPCA)算法对特征向量进 P(AA A )P(AV V ) ii %% %% 行降维,该算法最初应用于人脸识别,详细算法如 P(!!!!!)!(i)= i12jn- 1n( n $下。 n- 1 n- 1 ""% % n- 1 ? A AP(VV V )P(V)20×20 &)ii 对于 n 段氨基酸组成分布,令 TR={!(1), ,n ???(2) 20×n !!!(i), ,(N)}为训练集,其中(i)?R为第 i 个 nnpn !!! 其中 P( !!)表示氨基酸子串 !!i12 jn- 1n12训练样本,i=1,2, ,N,N为训练样本的个数。则 pp !!!!在第 i 个蛋白质中出现的概率,?AA, j n- 1n j 训练集的均值样本 "和协方差矩阵 C分别为:n n j=1, ,n。对于一个长度为 L 的氨基酸序列包含不 Np ? 1 "= (i)(4) !+ nn同子串的最大数目为 L- n+1,可以看出氨基酸组成 N pi =1 成分是多肽组成成分的一种特殊情况,对应于 n 等 N p # ?? 1 T C= ((i)- ") ((i)- ")!!于 1, 即 !。 从 (2) 式 可 以 看 出 !包 含 了 20 × (5) +nnnnn1n N p i =1 n- 1n 20=20个元素,显然对高阶氨基酸组成成分的分 进一步,方阵 C所有的特征向量 v可由 n p 析非常复杂,随着 n 的增大,一方面数据计算量以 下式求出:幂级数增大,另一方面噪声也急剧增大(零值急剧 Cv=#v(p=1,2, ,n)(6) nppp 增多),更重要的是噪声可能掩盖了有用的信息。 其中 $是方阵 C的对应于 v的特征值,且满 p n p 文献[15]研究表明,当 n! 3 时,!已经不能表达 n 足 $ ?$ (p q, p,q=1,2, ,n)。 -!p q [17]什么有用的信息,通常只使用二肽组成成分 在实际运用中,一般是选择前 k 个最大特征值 ( dipeptide composition)进行分析。对应的特征向量{v " p =1, ,k}组成氨基酸组成分 p 1.2.3 氨基酸组成分布 考虑氨基酸之间的布子空间 V :V =[v v v ]。 k k 1 2 k 顺序和总体分布信息,本文 获得氨基酸组成分布子空间后,就可以利用这 提出一种新的特征提取方法——氨基酸组成分布个子空间 V进行特征变换和后续分类。对第i 个 k ( amino acid composition distribution,AACD)。 ? 训练样本(i),其特征矩阵 Y (i)可通过下列线性变!n n 设第 i 个蛋白质序列长度为 L,将其均分为 n i 换来提取:数。这一思想同样可以引入同源寡聚体分类问当 ?i i i 中来,本文将原始的Q 三类表达式扩展为" 类, (i=1,2, ,N) (7)!!y] 9 Y(i)=((i)- )×V=[yy pknnnk1 2 i 定义如下:其中 y 代表的 Y (i) 第 j 列,它是一个 20 维向量 j n " ? ( 传统 PCA 计算的每一分量为标量),称其为!(i)n Q=p/N# (9) 3ipi = 1 的第 j 个主成分向量。 ? *20×n(10) Q(i)=p/obs 3ii对于任意一个待识测试样本!?R,向子空 n " * 间 V投影 后的特征矩阵为 Y : 2 2 2n k b (u +o)# iii ? * *i =1 * * * Q=1-(11) Y=( - )×V=[yy!y](8) !9 kn nnk1 2" 222 b [(p +u )+(p +o )] #然后进行分类识别。i i i i i $ i =1 1.3 分类方法 1 b= (12) i支持向量机( SVM)是一种基于统计学习理 "(p+u) ii[5]论的分类方法。它对“ 维数灾难”不敏感且能足 上式中 N 为样本总数," 为样本类别数,obs 为类 p i 够有效地处理数据量大和特征输入空间大的分类问 别 i 的样本数,p为第 i 类样本的正确分类数,u i i[19]题,并且存在高效和高质量的算法实现,这方便 为第 i 类样本中被错误分为其它类别的样本数,o i 了 SVM 在各个领域中的应用,有关SV M 更详细 为其它类别的样本被错误分为第 i 类样本的数目, 的信息可以从文献[19]获得。SVM 存在多种多类 b为第 i 类样本的平衡权重因子。 i [20]分类的算法,比如“ 一对多”(one -versus-rest或 [10][20] one-versus-all),“ 一对一”( one-versus-one) 结果与讨论2 [10]或称“ 多对多”( all-versus-all),直接非循环 [21]图法( DAGSVM)以及其它正在验证和证明之 本文基于氨基酸组成分布特征提取方法,使用[22]中的多类分类算法。文献[22] 研究结果表明, 支持向量机作为分类器,采用“一对一”作为多类 “ 一对一”和 DAGSVM 更适合在实践中使用,且 分类策略,核函数选用径向基函数,对四类蛋白质 同源多聚体进行分类研究。因为 SVM 要求输入特 SVM 的核函数选用径向基函数(RB F)通常能取 征是向量形式,所有我们将多肽组成成分和氨基酸 得较好的分类效果。对于" 类分类问题,“ 一对 组成分布这两种特征均按行展成向量形式。实验中 一”为任意两个类构造超平面,共需训练 "("- 1)/2所有特征数据都按照如下方式进行归一化:首先计 个两值 SVM 分类器。测试时,每个测试样本经过 算训练集所有样本的特征向量每一维分量的最小值 "("- 1)/2 个 SVM 分类器进行判别,对" ("- 1)/2 个 和最大值;然后根据训练样本特征向量的每一维分 判别结果( 类别)进行投票,得票最多的判别结果 量所在维的最小值和最大值,分别将每一维分量线 为测试样本所属的类别。 性变换到[0,1];最后使用同样的变换函数,对测试 集所有样本的特征向量进行归一化。 1.4 分类系统检验 2.1 分段数目对分类系统的影响 本文采用较为客观和严格的 k-fold cross vali- 表 1 显示了采用氨基酸组成分布特征,蛋白质 dation (k-CV) 检 验 对 分 类 结 果 进 行 评 价 , 在 序列均分段数目对总分类精度和精度指数的影响, k-CV 检验方法中,随机将数据库分为 k 个子集合, 分段数目分别为 2~10、12、15、20。 依次取出一个子集作为测试集,而其余的 k-1 个子 表 1 中清晰地反映出分段数目与总分类精度 集合作为训练集,此过程循环 k 次,实验中 k 取值 Q和精度指数 Q的关系,随着蛋白质序列分段数 3 9 为 10。 n 的增大,Q和 Q先增大后减小,原因在于特征 3 9 精度评估分别采用总分类精度Q 、每类样本 3 维数增大,由于每段氨基酸数目减少,零元素(噪 的分类精度 Q(i)和内容平衡精度指数 Q(accuracy 39 声)逐渐增多,导致分类精度降低。综合考虑Q [23]3 index)。文献[23]提出的 Q最初是用来评估二级 9 和 Q的结果以及计算量,我们认为氨基酸组成分 9 结构预测算法的有效性,与 Q相比,Q充分考虑 3 9 布的分段数目 n=6 和 7 时,分类效果最好。 了错分信息,为样本数量不均衡的分类问题提供了 较为精确的性能评估,是一种独立于类别的评估指 Table 1 Results (in percents) in using AACD based on 2~10,12,15,20 segments Segment Q(1)Q(2)Q(3)Q(4)QQ 333339 ? 95.08 71.94 68.30 61.11 83.74 64.16 !2 ? !95.62 71.22 71.50 62.96 84.95 65.70 3 ? !95.73 71.94 73.46 64.81 85.71 67.77 4 ? !96.17 69.78 73.71 63.89 85.78 66.69 5 ? !96.61 69.78 73.96 64.81 86.16 67.38 6 ? !95.84 69.78 75.92 64.81 86.22 67.12 7 ? !94.86 70.50 74.69 61.11 85.14 66.54 ? 8 ! 95.95 67.63 75.68 67.59 86.22 67.28 9 ?95.73 68.35 73.71 63.89 85.40 66.21 !10 ? !96.28 69.78 72.97 63.89 85.65 65.68 12 ? !95.73 68.35 76.17 58.33 85.65 64.95 15 ? !95.19 66.19 71.74 62.04 84.25 64.45 20 Segment denotes the number of segments of primary sequence which is equally separated. Q(1), Q(2), Q(3) 333 and Q(4) denote the classification accuracies of 2EM, 3EM, 4EM and 6EM, respectively 3 三种特征提取方法对比此外,我们注意到随着分段数目的变化各类分2.2 为了验证本文方法的有效性,使用氨基酸组成 类精度并非变化一致。例如对于3E M,分为 2 段 就达到了最佳分类效果,而对于 4EM 却要分为 15 成分和二肽组成成分这两种特征提取方法对四类蛋段才能达到了最佳分类效果。这种现象可能与同源 白质同源寡聚体体进行分类,表 2 列出了以上两种 ? 寡聚体的空间结构有关,例如 3EM 由 3 个亚基构 特征提取方法与氨基酸组成成分的结果对比。 !7 成,4EM 由 4 个亚基构成。 Table 2 Results (in percents) for protein homo-oligomers using amino acid composition, dipeptide composition and AACD Method Q(1)Q(2)Q(3)Q(4)QQ 333339 93.98 63.31 64.62 48.15 80.48 57.09 ! 1 !94.64 67.63 69.29 57.41 83.10 61.49 2 ?95.84 69.78 75.92 64.81 86.22 67.12 !7 Method denotes the method of feature extraction used in Q(1),Q(2), Q(3)andQ(4) denotethis paper. 3 3 3 3 classification accuracies of 2EM, 3EM, 4EM and respectively. !denotes amino acid composition,6EM, 1 ?!denotes dipeptide composition and !denotes 7-segment AACD 2 7 ? 的特征提取方法。 从表 2 可知,氨基酸组成分布分类效果最!7 2.3 样本长度对分类系统的影响 好,2EM、3EM、4EM 和 6EM 的分类精度、总分 氨基酸组成分布的分段数目分别为 1~10、12、 类 精 度 和 精 度 指 数 分 别 为 95.84% 、 69.78% 、 15、20 时,我们统计了每一类分类错误和分类正 75.92%、64.81%、86.22%和 67.12%,与氨基酸组 确样本的平均长度,如图1 所示,其中(A)、(B)、 成 成 分 ! 相 比 分 别 提 高 了 1.86、 6.47、 11.30、 1 16.66、5.74 和 10.03 个百分点,与二肽组成成分! (C)和(D)区分别表示 2EM、3EM、4EM 和 6EM 的 2 相比分别提高了1.20 、2.15、6.63、7.40、3.12 和统计结果。图 1 中 Error 表示错分样本的平均长 5.63 个百分点。 以上结果说明,对于蛋白质同源度,Correct 表示分类正确样本的平均长度,All 表 寡聚体分类问 示所有样本的平均长度。我们发现 2EM 分类错误 题,氨基酸组成分布比其它两种特征提取方法要 样本的平均长度均大于所有2EM 样本的平均长 好,它表达了更多的蛋白质结构信息,是一种有效 度, 4EM 和 6EM 分类错误样本的平均长度均小 于所有 4EM 和 6EM 样本的平均长度,但是3EM 分类错误样本的平均长度与所有 3EM 样本的平均 和 6 个相同亚基构成,在空间结构上有对称 2、4 长度的关系不清晰。这种现象可能与同源寡聚体的 性,而 3EM 由 3 个亚基构成,在空间结构上不具 空间结构有关,例如2E M、4EM 和 6EM 分别有 有对称性。 (A) (B) 550 360 340 500 320 h h t t 300g 450 g n en el l 280n an a 400 e e260 M M 240 350 220 300 200 1 2 3 4 5 6 7 8 9 10 12 15 20 1 2 3 4 5 6 7 8 9 10 12 15 20 Segment Segment (C) (D) 550 550 500 500 h h t tg 450 g n450 n e le l n an a e 400 e 400 M M 350 350 300 3001 2 3 4 5 6 7 8 9 10 12 15 20 1 2 3 4 5 6 7 8 9 10 12 15 20 Segment Segment Fig.1 Mean sequence lengths of 2EM, 3EM, 4EM and 6EM which are correctly classified and misclassified using AACD based on 1~10,12,15,20 segments respectively. (A) 2EM; (B) 3EM; (C) 4EM; (D) 6EM. ×: Error; ?: Correct; ——: All 个蛋白质的氨基酸组成分布特征,L(i)为第 i 个蛋 i 根据以上分析我们认为蛋白质同源寡聚体的序 列长度包含结构信息,于是将序列长度作为一个分 白质的序列长度。1~10 段氨基酸组成分布特征组 类特征与氨基酸组成分布特征进行组合得到新特征 合序列长度特征的分类结果如图 2 所示。 ?? 图 2 中 Q-Plus 和 Q-Plus 分别表示氨基酸组成39!!F (i)={(i),L(i)},其中(i)按行展成向量形式的第 nn (A) (B) 7087 6886 ) ) 6685 % % ( ( y y 64 84 c c a a r r u u 62c 83 c c c A A6082 5881 5680 0 1 2 3 4 5 6 7 8 9 10 11 0 1 2 3 4 5 6 7 8 9 10 11 Segment Segment Fig.2 Comparison of overall accuracy Q(A) and content-balancing accuracy index Q(B) 3 9 of AACD versus AACD incorporated with the length of sequence. —?—: Q; —?—: 3 Q-plus; —?—: Q; —?—: Q-plus 3-99 少了支持向量的计算时间。分布与序列长度组合后的总分类精度 Q和精度指 3 数 Q,可以看出对于 1~10 段,Q和 Q总体上有 93 9 不同程度的提高,且采用 1 分段时提高程度最大, 结论3 分别提高了 1.22 和 2.04 个百分点。但随着分段数 目的增加,特征向量维数增加,序列长度对分类的 综合上述结果可知,同源寡聚蛋白质一级序列贡献便逐渐降低。其中,7 分段的氨基酸组成分布 包含蛋白质四级结构信息,其特征向量(氨基酸组 成分布)的确表示了埋藏在缔合亚基作用部位接触 与 序 列 长 度 组 合 时 ,Q和 Q分 别 为 86.35% 和 3 9 表面的基本信息;同时表明氨基酸组成分布比氨基 67.23%。与组合前相比,结果表明蛋白质序列长 酸组成成分和二肽组成成分包含了更多的蛋白质结 度的确包含了同源寡聚体结构信息。 构信息;此外也表明蛋白质同源寡聚体序列长度包 2.4 降维处理对分类系统的影响含一定的结构信息。因此,在缺乏结构信息的条件 ? 我们选择氨基酸组成分布作为 2DPCA 降维!7 下,基于蛋白质一级结构序列预测四级结构是完全 处理的对象,降维之前其特征向量的维数为140 。 可行的,有着重要的生物意义。 ? ?本文仅以氨基酸组成分布及氨基酸组成分布与 第一步,对于!,经降维处理之后得到!,在7 7_PCA 序列长度组合构成的特征向量表示蛋白质同源寡聚 10 次 cross validation 测试中特征向量的维数分别 体一级序列,这必将遗失一些蛋白质序列次序等相 为 120、100、100、80、100、80、80、140、80 和关信息。若进一步结合氨基酸序列次序及氨基酸物 100,平均维数等于 98,且 Q和 Q达到了 86.92%3 9 理化学特性的影响,分类精度会得到进一步的改 ? 和 67.57%,与!相比分别提高了0.70 和 0.45 个善,这些将是我们下一步研究的内容。 7 ? 百分点。第二步,将!与序列长度进行组合,经7 ? ,在 10 次 cross valida- 降维处理之后得到!7_PCA_Plus tion 测试中特征向量的维数分别为 121、101、61、 参考文献: 81、101、121、81、81、81 和 61,平均维数等于[1] Garian R. Prediction of quaternary structure from primary ?! 89。且 Q和 Q达到了 87.12 和 68.08 ,与 !!3 9 7structure. Bioinformatics, 2001,17(6):551~556 相比分别提高了 0.90 和 0.96 个百分点。表 3 显示 Chou KC, Cai YD. Predicting protein quaternary structure by [2] pseudo amino acid composition. PROTEINS: Structure, Func- 了 AACD 及其与序列长度组合特征经降维处理前 tion, and Genetics, 2003,53(2):282~289 后的分类结果对比: [3] 张绍武, 潘 泉, 陈润生, 张洪才. 基于支持向量机的蛋白质同 源寡聚体分类研究. 生物化学与生物物理进展, 2003,30(6): ? ? Table 3 The classification performance of ,! !,7 7_PCA 879~883 ?? and !! 7_Plus 7_PCA_Plus Zhang SW, Quan P, Zhang HC, Wu YH, Shi JY. Support [4] (%)Q(%)QMethod Dim 39 vector machines for predicting protein homo-oligomers by ?86.22 67.12 140 ! incorporating pseudo-amino acid composition. Internet Elec- 7 ?tronic Journal of Molecular Design,2003,2(6):392~402 86.92 67.57 98 !7_PCA ?Vapnik V. The nature of statistical learning theory. New [5] 86.35 67.23 141 !7_Plus York: Springer, 1995. 1~188 ? 87.12 68.08 89 !7_PCA_Plus Brown M, Grundy W, Lin D, Cristianini N, Sugnet CW, [6] ?? denotes 7-segment AACD, and denotes 7- ! ! 7 7_PCAAres MJ, Furey TS, Haussler D. Knowledge-based analysis segment AACD which achieves the reduced dimension by of microarray gene expression data by using support vector ? 2DPCA. denotes 7-segment AACD which achieves !7_Plus machines. Proceedings of the National Academy of Science ?the reduced dimension by 2DPCA. denotes 7- USA, 2000,97(1):262~267 ! 7_PCA_Plus segment AACD which is incorporated with the length of [7] Jaakkola T, Diekhans M, Haussler D. Using the fisher protein sequence and then achieves the reduced dimension kernel method to detect remote protein homologies. In: by 2DPCA Lengauer T, Schneider R, Bork P, Brutlag DL, Glasgow JI, Mewes HW, Zimmer Ralf. Proceedings of the seventh 以上结果表明,采用2 DPCA 对 AACD 以及 international conference on intelligent systems for molecular AACD 与序列长度组合进行降维处理,均提高了 biology. Menlo Park: AAAI Press, 1999. 149~158 总分类精度和精度指数。此外由于特征维数的降 [8] Zien A, Ratsch G, Mika S, Scholkopf B, Lengauer T, Muller KR. Engineering support vector machine kernels that 低,使得 SVM 中的边界决策函数复杂度降低,减 recognize translation initiation sites. Bioinformatics, 2000,16 subcellular localization of eukaryotic proteins using dipeptide (9): 799~807 composition and PSI-BLAST. Nucleic Acids Research, 2004, [9] Cai YD, Liu XJ, Xu XB, Chou KC. Support vector machines 32(1):414~419 for prediction of protein subcellular location by incorporating Yang J, Zhang D, Frangi A, Yang JY. Two-dimensional [18] quasi-sequence-order effect. J Cell Biochem, 2002,84 (2): PCA: a new approach to appearance-based face representa- tion and recognition. IEEE Transactions on Pattern Analysis 343~348 and Machine Intelligence, 2004,26(1):131~137 [10] Ding CH, Dubchak I. Multi-class protein fold recognition Using support vector machines and neural networks. Bioinfor- [19] Joachims T. Making large-scale SVM learning practiceal. In: matics, 2001,17(4): 349~358 Sch !lkopf B, Burges C, Smola, A. Advances in kernel meth- [11] Kawashima S, Ogata H, Kanehisa M. AA index: amino acid ods: support vector learning. Cambridge: MIT Press, 1999. index database. Nucleic Acids Research, 1999,27(1):368~369 169~184 [20] Kreel U. Pairwise classification and support vector machines. "[12] Nakashima H, Nishikawa K, Ooi T. The folding type of a protein is relevant to the amino acid composition. In: Sch#lkopf B, Burges C, Smola A. Advances in kernel methods: support vector learning. Cambridge: MIT Press, J Biochem, 1986,99(1):152~162 1999. 255~268 [13] Klein P. Prediction of protein structural class by discriminant [21] Platt J, Cristianini N, Shawe-Taylor J. Large margin dags for analysis biochem. Biophys Acta, 1986,876(2):205~275 multiclass classification. In: Jordan MI, Lecun Y, Solla SA. [14] Chou KC. A key driving force in determination of protein Proceedings of neural information processing systems. Cam- structural classes. Biochemical and Biophysical Research Com- bridge: MIT Press, 2000. 547~553 munication, 1999,264(10):216~224 [22] Hsu CW, Lin CJ. A comparison of methods for multi-class [15] Liu WM, Chou KC. Prediction of protein secondary structures support vector machines. IEEE Transactions in Neural content. Protein Engineering, 1999,12(12):1041~1050 Networks, 2002,13(2):415~425 [16] Park KJ, Kanehisa M. Prediction of protein subcellular loca- [23] Zhang CT, Zhang R. Q9,a Content-balancing accuracy index tions by support vector machines using compositions of to evaluate algorithms of protein secondary structure predic- amino acids and amino acid pairs. Bioinformatics, 2003, tion. The International Journal of Biology& Cell Biology, 19(13):1656~1663 2003,35:1256~1262 [17] Bhasin M, Raghava GP. ESLpred: SVM-based method for CLASSIFICATION OF PROTEIN HOMO-OLIGOMERS USING AMINO ACID COMPOSITION DISTRIBUTION 111,21SHI Jian-yu, PAN Quan, ZHANG Shao-wu, CHENG Yong-mei ( 1. College of Automation, Northwestern Polytechnical University, Xi'an 710072, China; 2. Faculty of Life Science, Northwestern Polytechnical University, Xi'an 710072, China) Abstr act: Since the gap between sharply increasing known sequences and slow accumulation of known structures is becoming large, an automatic classification process based on the primary sequences and known three-dimensional structure becomes more important nowadays. Meanwhile, a fully automatic and reliable classification system is also necessary due to the importance of primary sequences which contain much useful information for the biologists. Generally, the performance of the classification system can be improved by selecting appropriate algorithm of feature extraction. Thus a novel method of feature extraction (amino acid composition distribution, AACD) from the sequences has been developed to classify the protein homo-oligomers, which is a generalization of the 20 components of the conventional amino acid composition. The primary sequence is equally separated into several segments, and each element of the AACD array can be individually calculated by the count of 20 natural amino acids appearing within each segment divided by the length of corresponding sequence. The classification system takes support vector machines as classifier, and adopts “ One-Versus-One” as multi-class categorization, and finally applies AACD to 4-class homo-oligomers classification from the primary sequence of proteins. The results of 10 fold cross validation (10CV) test show that overall accuracy and accuracy index of AACD are 86.22% and 67.12% , which are 5.74 and 10.03 per cent higher than those of amino acid composition, and 3.12 and 5.63 per cent higher than those of dipeptide composition (amino acid pairs) feature extraction method respectively. Incorporating AACD with the length of protein primary sequence can slightly improve that performance with overall accuracy 86.35% and accuracy index 67.23%. Using two-dimension principle component analysis (2DPCA) to decrease the dimension of those incorporated feature vectors can get better results with overall accuracy 87.12% and accuracy index 68.08% respectively. The results demonstrate that AACD is an effective and reliable method for classifying homo-oligomers and that the length of protein sequence contains some information of homo-oligomers structure and also indicate that 2DPCA is an effective approach to decrease the high dimension of feature vector. The effectiveness of classification of homo-oligomers encourages further exploration of AACD. Key Wor ds: Amino acid composition distribution (AACD); Two-dimension principle component analysis (2DPCA); Support vector machines (SVM); Homo-oligomers This work was supported by a grant from The National Natural Sciences Foundation of China (60372085). Received: Oct 10, 2005 Cor r esponding author : SHI Jian-yu,Tel:+86(29)88494352,E-mail:snake5947@hotmail.com
/
本文档为【基于氨基酸组成分布的蛋白质同源寡聚体分类研究_cropped】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索