为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 一次数据库的搜索

一次数据库的搜索

2009-11-18 16页 ppt 520KB 18阅读

用户头像

is_392486

暂无简介

举报
一次数据库的搜索nullnull第三章 一次数据库搜索 第一节 数据库的搜索简介(1) 在分子生物学研究中,新测定的碱基序列或由此翻译得到的氨基酸序列,往往需要通过数据库搜索,找出具有一定相似性的同源序列,以推测该未知序列可能属于哪个基因家族,具有哪些生物学功能。 (2)弄清数据库搜索的基本概念,对于选择恰当的搜索算法和搜索程序,正确分析搜索结果,都十分必要。数据库搜索的基础是序列的相似性比对,即双序列比对(pairwise alignment)。 (3)确定检测序列和一个已知基因家族之间的进化关系,在通过数据库搜索得到某些相似序列后...
一次数据库的搜索
nullnull第三章 一次数据库搜索 第一节 数据库的搜索简介(1) 在分子生物学研究中,新测定的碱基序列或由此翻译得到的氨基酸序列,往往需要通过数据库搜索,找出具有一定相似性的同源序列,以推测该未知序列可能属于哪个基因家族,具有哪些生物学功能。 (2)弄清数据库搜索的基本概念,对于选择恰当的搜索算法和搜索程序,正确分析搜索结果,都十分必要。数据库搜索的基础是序列的相似性比对,即双序列比对(pairwise alignment)。 (3)确定检测序列和一个已知基因家族之间的进化关系,在通过数据库搜索得到某些相似序列后,还需要判断其序列相似性程度。如果检测序列和目标序列的相似性程度很低,还必须通过其它方法或实验手段才能确定其是否属于同一基因家族。 null第二节 基本概念提要:一、相似性和同源性 二、局部相似性和整体相似性 三、相似性分数矩阵一、相似性和同源性 (1)数据库搜索的基础是序列的相似性比对,寻找同源序列则是数据库搜索的主要目的之一。同源序列,是指从某一共同祖先经趋异进化而形成的不同序列。相似性(similarity)和同源性(homology)是两个完全不同的概念。相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基顺序所占比例的高低。相似程度高于50%时,容易推测检测序列和目标序列可能是同源序列;相似性程度低于20%时,难确定是否具有同源性。所谓“具有50%同源性”,或“这些序列高度同源”等说法,都是不确切的,应该避免使用。 (2)相似性概念应用在:①蛋白质序列比对中,指两个残基是否具有相似的特性,如侧链基团的大小、电荷性、亲疏水性等。②氨基酸残基相似性分数矩阵。③相似性概念常用于蛋白质空间结构和折叠方式的比较 。null第二节 基本概念二、局部相似性和整体相似性 (1)序列比对是找出检测序列和目标序列的相似性。比对过程中需要在检测序列或目标序列中引入空位,以示插入或删除 [图3-1]。 (2)序列比对必须依赖于某个数学模型。不同的模型,从不同角度反映序列的特性,如结构、功能、进化关系等。很难断定,一个模型一定比另一个模型好,也不能说某个比对结果一定正确或一定错误,而只能说它们从某个角度反映了序列的生物学特性。此外,模型参数的不同,也可能导致比对结果的不同。图3-1 序列比对 图中 “-” 表示插入和删除,用字符表示相同的残基,“+” 表示相似残基null第二节 基本概念二、局部相似性和整体相似性 (3)序列比对的数学模型分为两类,一类从全长序列出发,考虑序列的整体相似性,即整体比对;第二类考虑序列部分区域的相似性,即局部比对。 (4)局部相似性比对的生物学基础是蛋白质功能位点往往是由较短的序列片段组成的,这些部位的序列具有相当大的保守性,尽管在序列的其它部位可能有插入、删除或突变。此时,局部相似性比对往往比整体比对具有更高的灵敏度,其结果更具生物学意义。 (5)正确选择比对方法是十分重要的。用整体比对方法找出只有局部相似性的两个序列之间的关系,显然是徒劳的;用局部比对得到的结果也不能说明这两个序列的三维结构或折叠方式一定相同。BLAST和FastA等常用的数据库搜索程序均采用局部相似性比对的方法,具有较快的运行速度,而基于整体相似性比对的数据库搜索程序则需要超级计算机或专用计算机才能实现。null第二节 基本概念三、相似性分数矩阵 (1)对蛋白质数据库搜索时,采用不同的相似性分数矩阵,以提高搜索的灵敏度和准确率。常用有突变数据矩阵(Mutation Data Matrix,简称MD)和模块替换矩阵(BLOcks Substitution Matrix,简称BLOSUM)。 (2)序列比对中,使用能够反映一个氨基酸发生改变的概率与两个氨基酸随机出现的概率的比值。比值用相关几率(relatedness odds)矩阵表示。这是突变数据相似性分数矩阵产生的基础,在序列比对过程中,两个序列从头到尾逐个残基进行比对,所得几率值的乘积就是整个比对的分值。常取几率值的对数以简化运算。常用的突变数据矩阵PAM250实际上是几率值的对数矩阵。矩阵中值大于0的元素所对应的两个残基之间发生突变的可能性较大,值小于0的元素所对应的两个残基之间发生突变的可能性较小。 (3)突变数据矩阵PAM即可接受点突变(Point Accepted Mutation,简称 PAM)。1个PAM的进化距离表示100个残基中发生一个残基突变的概率。 (4)PAM250相似性分数矩阵相当于在两个序列之间具有20%的残基匹配 (图3-2)。 null第二节 基本概念三、相似性分数矩阵 (图3-2 突变数据相似性分数矩阵PAM250 ) null第二节 基本概念三、相似性分数矩阵 (图3-2 矩阵PAM250 ---解释说明) 主对角线上分数值是指两个相同残基之间的相似性分数值,分值较高,如色氨酸W为17、半胱氨酸C为12,说明它们比较保守,不易突变;有的分值较低,如丝氨酸S、丙氨酸A、门冬酰氨N三种氨基酸均为2,这些氨基酸则比较容易突变。不同氨基酸之间的分数值越高,它们之间的相似性越高,进化过程中容易发生互相突变,如苯丙氨酸F和酪氨酸Y,它们之间的相似性分数值是7。分数值为负数的氨基酸之间的相似性则较低,如甘氨酸和色氨酸之间为-7,进化过程中不易发生互相突变。图中把理化性质相似的氨基酸按组排列在一起,如碱性氨基酸组氨酸H、精氨酸R和赖氨酸K。序列分析的关键是检测进化距离较远的序列之间是否具有同源性。null第三节 数据搜索内容提要: 一、BLAST搜索 二、FastA搜索 三、允许空位的 BLAST FastA和BLAST程序是常用的基于局部相似性的数据库搜索程序,都查找完全匹配的短小序列片段,并将它们延伸得到较长的相似性匹配。 BLAST是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具 。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST程序使用广泛,其运行速度比FastA快,改进后的BLAST程序允许空位的插入。 null 一、BLAST搜索 (1)BLAST算法是序列片段对(segment pair)的概念。序列片段对是指两个给定序列中的一对子序列,它们的长度相等,且可以形成无空位的完全匹配。BLAST首先找出待查序列和目标序列间所有匹配程度超过一定阈值的序列片段对,对具有一定长度的片段对根据给定的相似性阈值延伸,得到一定长度的相似性片段,称高分值片段对(high-scoring pairs, HSPs)。这是无空位BLAST比对算法的基础,也是BLAST输出结果的特征。 (2)BLAST是综合在一起的一组程序,可用于直接对蛋白质序列数据库和核酸序列数据库进行搜索,也可将检测序列翻译成蛋白质或将数据库翻译成蛋白质后再进行搜索,以提高搜索结果的灵敏度(表3-1)。 第三节 数据搜索null 一、BLAST搜索 (3)BLAST程序可以从美国国家生物技术信息中心NCBI下载,安装在本地计算机上,但必须有BLAST格式的数据库,也可以利用该系统提供的格式转换工具,由其它格式的核酸或蛋白质序列数据库经转换后得到。对核酸序列数据库而言,不论用哪种方式,必须使用高性能的服务器。 对一般用户来说,常用是通过NCBI、EBI等生物信息中心的BLAST服务器进行搜索。北京大学生物信息中心也提供了BLAST数据库搜索服务。 (4)各生物信息中心BLAST用户界面有所不同,所提供的数据库也可能不完全相同,使用前最好先进行适当的选择。 (5)欧洲生物信息研究所BLAST服务器的用户界面 ( 图3-3 ) 比较简洁,提供的数据库和参数很多,可以根据不同要求,选择不同的数据库和各种参数。一般情况下,可以先按照系统给定的缺省参数进行初步搜索,对结果进行分析后再适当调整参数,例如改变相似性矩阵、增加或减少空位罚分值、调节检测序列滑动窗口大小等。对于核酸序列数据库,一般选择重复序列屏蔽功能,而对于蛋白质序列,通常不必选择重复序列屏蔽功能。 第三节 数据搜索null 一、BLAST搜索:图3-3 欧洲生物信息学研究所的BLAST服务器的用户界面 第三节 数据搜索null 一、BLAST搜索:图3-4 是BLAST程序运行实例 (1)检测序列是与细胞凋亡有关的人自噬基因氨基酸序列,通过欧洲生物信息学研究所的BLAST服务器对包括SwissProt和TrEMBL数据库在内的蛋白质数据库进行搜索。 (2)输出结果中包括程序名称、版本号以及文献引用出处,以及检索序列的名称、数据库名称;列出相似性值较高的序列条目,以及它们在数据库中的编号和简要说明。 (3)每个条目后面给出相似性分数值Score和期望频率值E。相似性分数值大小为序排列,分数越高,相似性越大。E值则表示随机匹配的可能性,E值越大,随机匹配的可能性也越大。 (4)最后给出检测序列和目标序列的比对结果(限于篇幅,图中只给出检测序列和一个目标序列的比对结果)。第三节 数据搜索null 一、BLAST搜索:图3-4 BLAST程序运行实例 第三节 数据搜索null 一、BLAST搜索:图3-4 BLAST程序运行实例---续1 第三节 数据搜索null 二、FastA搜索 (一)FastA算法是由Lipman和Pearson于1985年发表的。FastA识别与待查序列相匹配的很短的序列片段,称为k-tuple。蛋白质序列数据库搜索时,短片段的长度一般是1-2个残基长;DNA序列数据库搜索时,通常采用最多为6个碱基。 (二)比较两个序列中的短片段及其相对位置,构成一个动态矩阵的对角线方向上的一些匹配片段。FastA程序采用渐进算法将位于同一对角线上相互接近的短片段连接起来。通过不匹配的残基将这些匹配残基片段连接起来,以便得到较长的相似性片段。这样FastA输出结果中允许出现不匹配残基。如果匹配区域很多,利用动态规划算法在这些匹配区域间插入空位。 (三)FastA搜索产生的典型输出结果:(1)第一行列出:①程序名称、版本号、发表的杂志。②接下来列出所提交的序列,③然后是所用参数和运行时间,④紧跟这些一般信息的是数据库搜索结果。搜索得到的目标序列简单说明,其数目可由用户定义。(2)所列出的目标序列的信息包括:①序列所在数据库名称的缩写,②目标序列的标识码、③序列号和序列名等部分信息。④括号中标明匹配部分的残基数。⑤接着是由程序计算得到的初始化和优化后的分数值。⑥最后一列是期望值即E值,用来判断比对结果的置信度。接近于0的E值表明两序列的匹配不大可能是由随机因素造成的。 第三节 数据搜索null 三、允许空位的 BLAST (1)最初的BLAST程序只能用于无空位的比对。经验表明比对结果通常会出现一些无空位但不连续的区域,不难想象,有些高分值片段对可以通过一些相似性较低且有空位的片段连接起来,组成了一些更长的更具实际生物学意义的比对。 (2)基于上述思路,BLAST算法经过改进允许空位插入(Altshul等,1997)。为缩短对数据库初始搜索的时间,新的算法只找出一个最好的高分值片段,并以此为基础运用动态规划方法将这一片段向两端延伸,最终产生的比对结果可能有空位插入。由于免去了查找所有高分值片段对的步骤,新的算法比原算法快3倍。对BLAST算法的进一步扩充,可以考虑双序列比对和多序列比对的有效结合。第三节 数据搜索
/
本文档为【一次数据库的搜索】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索