为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

生物信息学数据库搜索

2013-07-18 50页 ppt 4MB 77阅读

用户头像

is_570921

暂无简介

举报
生物信息学数据库搜索null数据库搜索相似序列 数据库搜索相似序列 数据库使用 关键字查询、目标搜索 最流行的序列数据库快速搜索程序 BLAST FastA数据库搜索相似序列的意义数据库搜索相似序列的意义判断是否为新序列 功能预测与同源判定 基因的电子克隆 模式识别BLAST算法BLAST算法BLAST (Basic Local Alignment Search Tool)基本的局部比对搜索工具[Altschul, 1990, 1997]。 无空位的BLAST比对 序列片段对 高记分片段对(HSP) ...
生物信息学数据库搜索
null数据库搜索相似序列 数据库搜索相似序列 数据库使用 关键字查询、目标搜索 最流行的序列数据库快速搜索程序 BLAST FastA数据库搜索相似序列的意义数据库搜索相似序列的意义判断是否为新序列 功能预测与同源判定 基因的电子克隆 模式识别BLAST算法BLAST算法BLAST (Basic Local Alignment Search Tool)基本的局部比对搜索工具[Altschul, 1990, 1997]。 无空位的BLAST比对 序列片段对 高记分片段对(HSP) 统计显著性 允许空位的BLAST比对 最高得分片段对(MSP) nullBLAST算法本身很简单,它的基本要点是序列片段对(segment pair)的概念。所谓序列片段对是指两个给定序列中的一对子序列,它们的长度相等,且可以形成无空位的完全匹配。 BLAST算法首先找出代查序列和目标序列间所有匹配程度超过一定阈值的序列片段对,然后对具有一定长度的片段对根据给定的相似性阈值延伸,得到一定长度的相似性片段,称高分值片段对(high-scoring pairs, HSPs)。这就是无空位的BLAST比对算法的基础,也是BLAST输出结果的特征。 无空位的 BLAST null最初的BLAST程序只能用于无空位的比对。经验表明比对结果通常会出现一些无空位但不连续的区域,不难想象,有些高分值片段对可以通过一些相似性较低且有空位的片段连接起来,组成了一些更长的或许更具实际生物学意义的比对。 基于上述思路,BLAST算法经过改进允许空位插入(Altshul等,1997)。为缩短对数据库初始搜索的时间,新的算法只找出一个最好的高分值片段,并以此为基础运用动态规划方法将这一片段向两端延伸,最终产生的比对结果可能有空位插入。由于免去了查找所有高分值片段对的步骤,新的算法比原算法快3倍。对BLAST算法的进一步扩充,可以考虑双序列比对和多序列比对的有效结合允许空位的 BLAST BLAST算法BLAST算法BLAST算法:快速高效的保证 将查询序列分为多个短片段及相似片段; 筛选数据库以发现具备以上片段的序列; 将匹配序列进行延伸,插入和延伸gap,根据记分矩阵计分排序; 返回分值最高的匹配序列 1、BLAST1、BLAST 比对分数的统计学评价 期望值(Expectation value,简称E值) 分数 Bit:命中指数 nullBLAST是一个序列数据库搜索程序家族 其中有许多特定用途的程序http://www.ncbi.nlm.nih.gov/BLASThttp://www.ncbi.nlm.nih.gov/BLASTBLAST系列程序选择流程BLAST系列程序选择流程蛋白质序列?是蛋白质数据库?是blastp否 蛋白质数据库?tblastn否否blastn是否tblastxblastx是数据库翻译?查询序列数据库搜索相似序列数据库搜索相似序列用DNA序列还是PROTEIN序列搜索 搜索程序选择 数据库选择BLASTpBLASTpBLAST 格式BLAST 格式BLAST 结果BLAST 结果12345BLAST 结果 (1)BLAST 结果 (1)BLAST 结果 (2)BLAST 结果 (2)BLAST 结果 (3)BLAST 结果 (3)BLAST 结果 (4)BLAST 结果 (4)BLAST 结果 (5)BLAST 结果 (5)Mega-blastMega-blast可用于搜索近似完全的匹配, 可以处理一批核苷酸查询,比标准BLAST查询速度快 NCBI进行基因组BLAST查询时的默认程序 http://www.ncbi.nlm.nih.gov/BLASThttp://www.ncbi.nlm.nih.gov/BLASTPSI-BLASTPSI-BLAST位置特定的迭代 BLAST (Position Specific Iterated BLAST) 搜索数据库以找出与查询序列同一蛋白质家族的成员 揭示亲缘关系较远的蛋白质间的关系null在全序列数据库中 搜索相似的序列PSI BLAST FGLGRT-I-T-YMTN -GLVRT-I---LGLE FGLLRT-I---YMTQ起始序列构建一个概型并以数字描述每一个位点的保守性概型比单一序列包含有更多的信息:利用概型来获取更多的信息进行多序列对位排列经过数次迭代后得到: 注释的序列信息; 数套多重序列对位排列; 由PSI-BLAST 所产生的概形(Profile); 确定相似性的域值 (对位排列统计结果)两条序列间的查询两条序列间的查询许多情况下,需要比较2个序列的相似性,显然不需要传统BLAST的数据库查询 BLAST2 局部对位排列,获得结构域或序列内的复制 建议不超过150 kb,最好 1kbBLAST2BLAST2nullhttp://www.ncbi.nlm.nih.gov/BLAST基因组搜索http://www.ncbi.nlm.nih.gov/BLAST基因组搜索微生物基因组微生物基因组微生物基因组微生物基因组微生物基因组微生物基因组微生物基因组微生物基因组提供 BLAST的若干网站提供 BLAST的若干网站NCBI BLAST http://www.ncbi.nlm.nih.gov/BLAST/ DDBJ http://www.blast.genome.ad.jp/ EMBL-EBI http://www.ebi.ac.uk/blastall/ PKU http://blast.cbi.pku.edu.cn/ 本地 BLAST本地 BLAST查询序列网络服务器BLAST输出结果本地计算机BLAST显示结果WU-BLASTWU-BLASTWashington University BLAST (不是NCBI-BLAST的镜像) http://blast.wustl.edu/ nullnullnullnull实例一: 恐龙蛋DNA研究中的一场争论实例一: 恐龙蛋DNA研究中的一场争论恐龙蛋化石中的18s rDNA 恐龙蛋化石中的18s rDNA Acta Sc. Nat. Univ. Pekinesis.31:140-7.1995BLAST结果BLAST结果U41317 >gi|20377928|gb|AF372708.1| Uncultured basidiomycete clone BAQA52 small subunit ribosomal RNA gene, partial sequence U41318 >gi|2735774|gb|AF008955.1|AF008955 Corallocarpus bainesii 18S ribosomal RNA gene, complete sequence (2004结果)nullnullnull18sDNA 系统树18sDNA 系统树结论结论DA18s1类似于真菌 DA18s7类似于被子植物 DA18s1 、DA18s7与鸭、人、鳄鱼和其他动物的序列差异很大 鸟类与爬行类是恐龙现存的最近的物种; DA18s1/7不是真正的恐龙DNAMol. Biol. Evol.14(5):589-91.19972、FASTA算法2、FASTA算法FASTA(fast alignment) FastA算法是由Lipman和Pearson于1985年发表的(Lipman和Pearson,1985)。 FastA的基本思路是识别与待查序列相匹配的很短的序列片段,称为k-tuple。 FASTA算法FASTA算法1、选定字长参数k-tuple,寻找连续配对小片段,找出配对密度最高的十个片段。 2、利用记分矩阵对十个片段重新记分。 3、将相似区域连接起来(允许空位插入),获得最佳序列比对。 null 蛋白质序列数据库搜索时,短片段的长度一般是1-2个残基长;DNA序列数据库搜索时,通常采用稍大点的值,最多为6个碱基。通过比较两个序列中的短片段及其相对位置,可以构成一个动态规划矩阵的对角线方向上的一些匹配片段。 FastA程序采用渐进(heuristic approach)算法将位于同一对角线上相互接近的短片段连接起来。也就是说,通过不匹配的残基将这些匹配残基片段连接起来,以便得到较长的相似性片段。这就意味着,FastA输出结果中允许出现不匹配残基。这和BLAST程序中的成对片段类似。如果匹配区域很多,FastA利用动态规划算法在这些匹配区域间插入空位。 null以两条氨基酸序列的比较为例介绍算法的基本思路,算法可以分为4步:第一步: FASTA首先找出进行比较的两条序列所有长度为K-tuple 的连续的一致序列片段。例如以下两条蛋白质序列: 设K-tuple =2,则序列2中有两个符合条件的片段(用下划线表示),相对于序列1的偏移(offset)分别是4和1[对于一对开始位置为(x1,x2)的一致片段,偏移定义为x1-x2。在上例中有两对(x1,x2),即(5,1)和(5,4)]。这种片段的一致性可以表示为对角线图,两条序列中的一对一致片段在图中表示为一段对角线。(图6)。 null图6 序列FLWRTW和STWKTWT比较形成的对角线图null 对于图中每一条完整的对角线(即同一偏移)上的一致片段,如果片段间距小于用户界定的界限,则将片段连接起来作为一条一致片段。. 本例是两条非常短的氨基酸序列,在实际比较长的蛋白质序列或DNA序列时,对角线图如图A所示。null 对这些片段进行计分,每一对对应的元素,一致的加分,不一致的扣分。完成了所有一致片段的计分后,选出10条分值最高的片段进入下一轮计算,如图Bnull FASTA将这10对片段重新计分。这轮计分允许保守突变,对蛋白质来就,就是使用PAM250等替换矩阵。简单地说,替换矩阵就是对应于20×20种氨基酸替换(比如R替换成P)的计分规则所构成的20×20的矩阵。这种矩阵是从蛋白质进化实例中总结出来的经验矩阵,它给予进化上相对保守的氨基酸替换比非保守的替换更高的分值。在重新计算分值后,在每一条这样的片段中找出分值最高的子片段,作为“初始区域”(initial region)进入下一步。在initial region中,最高的分值计为initl。 第2步:null 在这一步中,FASTA选出分值高于用户确定的界限且相互之间不重叠的初始区域,并尝试将这些初始区域连接起来。当然,由于连接而出现的缺失和插入情况要作相应的扣分。FASTA在这一步才考虑插入和缺失的情况,最终找出能够得到的最高分值的初始区域或连接起来的数个初始区域。这一步计算出的最高分计为initn。第3步:null 以initl片段或(initn的片段)为中心,向前后延伸一定的长度。在这样一个区域中(见图中虚线间的区域),应用Smith-Waterman算法进行重新对齐,最终的得分计为opt第4步:nullFastA的最新版本是FastA3软件包,下表2列出FastA3家族所有成员:FastA家族nullFastA使用界面
/
本文档为【生物信息学数据库搜索】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索