生物信息学数据库资源下载_在线阅读_16

is_525473

暂无简介

生物信息学数据库资源收稿日期: 2001 年 2月 8 日作者简介:万跃华,浙江工业大学图书馆信息咨询部主任,主要从事网络信息资源、数字图书馆、搜索引擎、信息检索、计算机视觉等研究与教学。何立民, 浙江工业大学图书馆馆长,主要从事化工机械、图书情报、信息检索等方面的科研与教学工作。 1)本文为浙江省科技厅基金资助项目( 2001080) /基因组信息学数据库信息资源开发与利用研究0 网上生物信息学数据库资源1) 万跃华何立民 (浙江工业大学图书馆, 杭州 310032) 摘要大量的蛋白质和核酸数据的积累与理性地分析这些数据...

收稿日期: 2001 年 2月 8 日作者简介:万跃华,浙江工业大学图

书

关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf

馆信息咨询部主任,主要从事网络信息资源、数字图书馆、搜索引擎、信息检索、计算机视觉等研究与教学。何立民, 浙江工业大学图书馆馆长,主要从事化工机械、图书情报、信息检索等方面的科研与教学工作。 1)本文为浙江省科技厅基金资助项目( 2001080) /基因组信息学数据库信息资源开发与利用研究0 网上生物信息学数据库资源1) 万跃华何立民 (浙江工业大学图书馆, 杭州 310032) 摘要大量的蛋白质和核酸数据的积累与理性地

分析

定性数据统计分析pdf 销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析

这些数据中所蕴涵的生物学意义的双重需要, 产生了综合生物学研究与计算技术研究等领域最新成果的交叉性学科生物信息学。本文分别从生物信息学的基因组数据库,核酸和蛋白质一级结构序列数据库, 生物大分子(主要是蛋白质)三维空间结构数据库,以及以这 3 类数据库和文献资料为基础构建的二次数据库(包括基因组二次数据库、蛋白质序列二次数据库、蛋白质结构二次数据库)和生物信息学数据库的集成系统等几个方面,概述了发展中的生物信息学数据库的最近动态和有关信息, 同时对主要的热门生物信息学数据库站点和资源进行了评价。此外,就国内生物信息学数据库存在的问题与前景进行了讨论,指出生物信息学将是一次国际性的科学大协作,也是我国生命科学振兴的一个新契机。关键词生物信息学网络信息资源基因组数据库结构数据库核酸数据库蛋白质数据库序列数据库 Bioinformatics Database Resources on Internet Wan Yuehua and He Limin ( Library of Zhejiang University of Technology, Hangzhou 310032) Abstract Bioinformatics came from the requirement for vast data of protein and nucleic acids and analysis of the biological significance implying in these data. It is an intercross subject which integrates the newest reaching outcomes of biology, computer technology and other fields. The paper summarizes the newest developments and relative information of bioinformatics database from some respects such as genome database, first class database of protein and nucleic acids sequence, three-dimensional spatial struc- ture database of biomacromolecules ( protein is dominating) , sub-databases including genome database, protein sequence sub-data- base and protein structure sub-database, which are all constructed on the first class databases, references, and the integrated sys- tem of bioinformatics database . At the same time, evaluation about the main hot nets of bioinformatics database and resources is given out. Furthermore, the problems and prospects of domestic bioinformatics database are discussed. Bioinformatics will be an international collaborative venture of modern science. Bioinformatics also will be a chance to develop our life science. Keywords bioinformatics, network information resource, genome database, structure database, nucleic acids database, protein database, sequence database. 1 引言生物信息学( Bioinformatics)是近年来在生命科学的研究中发展起来的一门由分子生物学和计算机信息处理技术相结合的, 以计算机为工具对生物信息进行储存、检索和分析的交叉学科,它的基本出发点是利用数据库技术和软件技术对大量积累的生物第 21 卷第 4期 2002 年8 月情报学报 Vol. 21, l 4August, 2002 大分子序列数据和实验测定的序列进行结构比较和统计分析,揭示出生物大分子的分子结构、功能和进化关系。因此, 它是分子生物学研究的一个新领域, 同时也是生命科学和自然科学的重大前沿领域之一,其研究重点主要体现在基因组学 ( Genomics)和蛋白组学(Proteomics)两方面。具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。数据库是生物信息学的主要内容之一。生物信息学数据库具有以下一些特点: ( 1)数据库种类的多样性。生物信息学各类数据库几乎覆盖了生命科学的各个领域, 如核酸序列数据库, 蛋白质序列数据库,蛋白质、核酸、多糖的三维结构数据库,基因组数据库, 文献数据库(如 Medline, Uncover )和其他杂类数百种。( 2)数据库的更新和增长快。数据库的更新周期越来越短, 有些数据库每天更新。数据的规模以指数形式增长。( 3)数据库的复杂性增加、层次加深。许多数据库具有相关的内容和信息, 数据库之间相互引用, 如PDB就与文献库、酶学数据库、蛋白质二级数据库、蛋白质结构分类数据库、蛋白折叠库等十几种数据库直接交联。( 4)数据库使用高度计算机化和网络化。越来越多的生物信息学数据库与因特网联结, 从而为分子生物学家利用这些信息资源提供了前所未有的机遇。绝大多数网上生物信息学数据库中的信息资源可免费检索或下载。随着网络信息检索工具搜索引擎的不断发展, 生物信息学数据库的网上信息资源检索越来越方便、快速, 这对我国开展生物信息学研究以及人类和水稻基因组工程的DNA序列数据的分析提供了捷径。特别是当前我国生物信息学自建数据库不丰富和引进数据库又比较少的情况下, 探讨和研究如何充分开发和利用网络上免费的生物信息学数据库信息资源显得尤为重要。 2 生物信息学数据库种类生物信息数据库种类繁多,归纳起来,大体可以分为 4个大类:基因组数据库,核酸和蛋白质一级结构序列数据库, 生物大分子(主要是蛋白质)三维空间结构数据库, 以及以这 3类数据库和文献资料为基础构建的二次数据库。基因组数据库来自基因组作图, 序列数据库来自序列测定, 结构数据库来自 X-衍射和核磁共振结构测定。这些数据库是分子生物信息学的基本数据资源, 通常称为基本数据库或初始数据库, 也称一次数据库。根据生命科学不同研究领域的实际需要, 对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释, 构建具有特殊生物学意义和专门用途的二次数据库,是数据库开发的有效途径。近年来,世界各国的生物学家和计算机科学家合作, 已经开发了几百个二次数据库和复合数据库, 也称专门数据库或专业数据库、专用数据库。一次数据库的数据量大、更新速度快、用户面广,通常需要高性能的计算机硬件、大容量的磁盘空间和专门的数据库管理系统支撑。例如, 欧洲生物信息学研究所用 Oracle数据库软件管理、维护核酸数据库 EMBL。而基因组数据库 GDB 的管理、运行则基于 Sybase 数据库系统。Oracle 和 Sybase 均为流行的数据库管理商业软件。而二次数据库的容量则要小得多,更新速度也不像一次数据库那样快, 可以不用大型商业数据库软件支撑。许多二次数据库的开发基于Web浏览器, 使用超文本语言HTML 和 Ja- va程序编写的图形界面, 有的还带有搜索程序。这类针对不同问题开发的二次数据库的最大特点是使用方便, 特别适用于计算机使用经验并不丰富的生物学家。二次数据库种类繁多。以核酸数据库为基础构建的二次数据库有基因调控转录因子数据库 Tr- ansFac [1~ 2] ( http:pptransfac. gbf . dePTRANSFACP) , 真核生物启动子数据库 EPD[ 3~ 4] ( Eukaryotic Promoter Da- tabase) ( http:PPwww. epd. isb-sib. ch. ) , 克隆载体数据库Vector[ 5] , 密码子使用表数据库 CUTG等。以蛋白质序列数据库为基础构建的二次数据库有蛋白质功能位点数据库 PROSITE [ 6~ 7] , 蛋白质功能位点序列片段数据库 PRINTS[ 8~ 10] ( http:PPwww. bioinf. man. ac. ukPdbbrowserPPRINTSP) ,同源蛋白家族数据库 Pfam- [11~ 12] ( http:PPwww. sanger. ac. ukPSoftwarePPfamP) , 同源蛋白结构域数据库 Blocks[ 13~ 15]。以具有特殊功能的蛋白为基础构建的二次数据库有免疫球蛋白数据库 Kabat [ 16] ( http:PPimmuno. bme. nwu. edu) , 蛋白激酶数据库 PKinase等。以三维结构原子坐标为基础构建的数据库为结构分子生物学研究提供了有效的工具,如蛋白质二级结构构象参数数据库 DSSP[ 17] , 已知空间结构的蛋白质家族数据库 FSSP[ 18~ 19] ,已知空间结构的蛋白质及其同源蛋白数据库 HSSP[ 20~ 21] 等。蛋白质回环分类数据库则是用于蛋白质结构、功能和分子

设计

领导形象设计圆作业设计 ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计

研究的专门数据库。此外,酶数据库 Enzyme Database[ 22] ( http:PPwww. expasy. chPenz- 498 情报学报 21 卷 ymeP) ,限制性核酸内切酶数据库 REBASE[ 23~ 24] ( ht- tp:PPrebase. neb. com) , 辐射杂交、氨基酸特性表、序列分析文献等, 也属于二次数据库或专门数据库。除了上面介绍的几种类型生物信息学数据库外,还出现了专门收集现有生物信息学数据库目录的数据库。法国生物信息研究中心 Infobiogen 生物信息数据库目录 DBCAT ( http:PPwww. infobiogen. frP servicesPdbcatP)搜集了 513个主要数据库的名称、作者、内容、数据格式、联系地址、网址等详细信息,能使用户对目前生物信息数据库有一个详尽的了解。 DBCAT 本身也是一个具有一定数据格式的数据库, 它按 DNA、RNA、蛋白质、基因图谱、结构、文献等分类,其中大部分数据库是可以免费下载的公用数据库。表 1列出了常用的生物学信息数据库。表 1 常用生物信息学数据库名称内容名称内容 EMBL 核酸序列 EMEST EMBL数据库中 EST部分 PIR 蛋白质序列 SWISS-PROT 蛋白质序列 OWL 非冗余蛋白质序列 TREMBL EMBL翻译所得蛋白质序列 PDB 蛋白质三维空间结构 DSSP 蛋白质二级结构参数 HSSP 同源蛋白家族 FSSP 已知空间结构蛋白质家族 PDBFINDER PDB数据库注释信息 SBASE 蛋白质结构域序列 SUBTILIST 枯草杆菌序列 HUMREP 人类基因组中重复序列 VECTOR 克隆载体 CPGISLE CpG岛序列 RDP 核糖体序列 TRANSFAC 转录因子 ECDC 大肠杆菌序列 YPD 酵母基因组 KABATN 免疫球蛋白核酸序列 KABATP 免疫球蛋白蛋白质序列 PROSITE 蛋白质功能位点 PROSITEDOC 蛋白质功能位点文献摘要 BLOCKS 同源蛋白序列模块 PRINTS 蛋白质指纹图谱 PRODOM 蛋白质结构域 PFAM 蛋白质家族序列 ENZYME 酶 REBASE 限制性内切酶 OMIM 人类遗传缺陷基因 UNIGENE 人类基因组中基因序列 SEQANALREF 序列分析文献目录 SEQANALRABS 序列分析文献摘要 MEDLINE 医学文献目录 VIRGIL GDB 和 GenBank 链接 FLYGENES 果蝇基因组 MITSNP 单核甘酸多态性 RHDB 放射杂交 GENDIAG 遗传疾病和遗传缺失 P53 P53 蛋白突变 CD40LBASE CD40 蛋白 PK 丙酮酸激酶 IMGT 免疫球蛋白 CUTG 遗传密码使用频度 GENETICCODE 遗传密码表 TAXONOMY 分类学 AAINDEX 氨基酸性质索引表 BIOCAT 生物信息学程序目录 DBCAT 生物信息学目录 3 基因组生物信息学数据库基因组数据库是分子生物信息数据库的重要组成部分。基因组数据库内容丰富、名目繁多、格式不一,分布在世界各地的信息中心、测序中心以及和医学、生物学、农业等有关的研究机构和大学。基因组数据库的主体是模式生物基因组数据库, 其中最主要的是由世界各国的人类基因组研究中心、测序中心构建的各种人类基因组数据库。小鼠、河豚鱼、拟南芥、水稻、线虫、果蝇、酵母、大肠杆菌等各种模式生物基因组数据库或基因组信息资源都可以在网上找到。随着资源基因组计划的普遍实施, 几十种动物、植物基因组数据库也纷纷上网, 如英国 Roslin研究所的ArkDB( http:PPwww. ri. bbsrc. ac. ukParkdbPsites. html)包括了猪、牛、绵羊、山羊、马等家畜以及鹿、狗、鸡等基因组数据库;美国、英国、日本等国的基因组中心的斑马鱼、罗非鱼(T ilapia)、青鱼( Medaka)、鲑鱼( Salmon)等鱼类基因组数据库; 英国谷物网络组织( CropNet) [ 25]建立的玉米、大麦、高粱、菜豆农作物以及苜蓿(Alfalfa)、牧草( Forage)、玫瑰等基因组数据库。除了模式生物基因组数据库外, 基因组信息资源还包括染色体、基因突变、遗传疾病、分类学、比较基因组、基因调控和表达、放射杂交、基因图谱等 4994 期网上生物信息学数据库资源各种数据库。 3. 1 人类基因组数据库 GDB 人类基因组数据库 ( The Genome Database, GDB) [26] ( http:PPgdbwww. gdb. org; http:PPwww. gdb. orgP; http:PPgdb. pku. edu. cnP)于 1990年初建于美国约翰斯# 霍普金斯大学( Johns Hopkins University) , 以支持国际合作的人类基因组计划,是一个专门汇集存储人类基因组数据的数据库, 其中包括了全球范围内致力于人类 DNA结构和100 000种人类基因序列研究的分析成果,对从事相关领域的研究人员具有重要的参考作用,现由加拿大儿童医院生物信息中心负责管理。目前,该库包括以下多种内容:人类基因组, 包括基因、克隆、断裂点、细胞遗传标记物、易断位点、重复片段等; 人类基因组示意图, 包括细胞遗传图,关联图,辐射杂交图、综合图等;人类基因组内的变异,包括基因突变和基因多态性;还有等位基因发生频次等数据资料。可通过名字PGDB ID、关键词、DNA序列 ID进行查询。 GDB数据库用表格方式给出基因组结构数据, 包括基因单位、PCR位点、细胞遗传标记、EST、连续子( Contig)、重复片段等;并可显示基因组图谱,包括细胞遗传图、连锁图、放射杂交图、连续子图、转录图等;并给出等位基因等基因多态性数据库。此外, GDB数据库还包括了与核酸序列数据库 GenBank和 EMBL、遗传疾病数据库 OMIM、文献摘要数据库 MedLine等其他网络信息资源的超文本链接。 GDB数据库是用大型商业软件 Sybase 数据库管理系统开发的,并用 Java语言编写基因图谱显示程序,为用户提供了很好的界面,缺点是传输速度受到一定限制。GDB数据库是国际合作的成果, 其宗旨是为从事基因组研究的生物学家和医护人员提供人类基因组信息资源。其数据来自于世界各国基因组研究的成果, 经过注册的用户可以直接向 GDB 数据库中添加和编辑数据。 3. 2 线虫基因组数据库 AceDB AceDB是线虫 ( Caenorhabditis elegans)基因组数据库[ 27~ 28] ( http:PPwww. acedb. orgP)。需要说明的是, AceDB既是一个数据库,又是一个数据库管理系统, 可以从网上自由下载, 目前许多研究单位用它建立自己的数据库。AceDB基于面向对象的程序设计技术,是一个相当灵活和通用的数据库系统,可用于其他基因组计划的数据分析。AceDB最初是基于 Unix 操作系统的 X 窗口系统, 适用于本地计算机系统。 AceDB提供很好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。新开发的WebAce 和 AceBrowser 则是基于网络浏览器。Sanger 中心已经将其用于线虫和人类基因组数据库的浏览和搜索。库内的资源包括限制性图谱、基因结构信息、质粒图谱、序列数据、参考文献等等。 3. 3 美国基因组研究所的数据库 TIGR 美国基因组研究所是一个非营利的研究单位, 研究重点放在病毒、真细菌、致病菌及真核细胞(植物与动物) ,包括人类的基因组及基因产物的结构、功能与比较分析。美国基因组研究所的数据库 TIGR [29] ( The Inst itute of Genomic Research) ( http:PP www. tigr. orgP)包括了微生物、植物及人类的 DNA及蛋白质序列, 基因表达, 细胞的作用, 蛋白质系族及分类数据。由该页面可进入以下数据库:微生物库,人类基因索引,老鼠基因索引,水稻基因索引,人类基因组排序项目,人类 cDNA 图项目,表达的基因结构库等。其中基因组研究所的微生物数据库 (MDB) ( http:PPwww. t igr. orgPtdbPmdbPmdb. html)网页列出了已完成的 14个和正在研究的 40个微生物基因组,包括名称、信息量、研究单位、资金来源及发表在何处等。已完成的基因组大部分可通过超链接进入该数据库进行查询。 3. 4 美国国家基因组资源中心基因组序列库美国国家基因组资源中心基因组序列库 [ 30] Ge- nome Sequence DataBase( GSDB) ( http:PPwww. ncgr. orgP researchPsequenceP) 是美国国家基因组资源中心 (NCGR)的基因组序列库( GSDB) ,收集了 DNA序列数据和有关的信息。由该主页可进入: NCGR主页, 基因组序列库,几套完整的细菌基因组等。 3. 5 其他的基因数据库美国国家农业图书馆的基因组数据库( Databas- es at the Nat ional Agricultural Library ) ( http:PPprobe. nalusda. gov: 8000Palldbs. html )。在美国植物基因组计划等的基金支持下, 美国农业图书馆建立了一批基于Web的植物基因组、牲畜基因组数据库, 世界各地均能方便地免费访问和检索。该页面有如下数据库的超链接:植物基因组(目前包括 19个数据库, 有浏览、查询和介绍)、牲畜基因组 (包括 2 个数据 500 情报学报 21 卷库)、其他生物体基因组(包括 5 个数据库)、植物( 9 个数据库)、昆虫( 5个数据库)等的参考信息等。果蝇基因组数据库[ 31~ 32] ( FlyBase ) A Database of the Drosophila Genome ) ( http:PPflybase. bio. indiana. eduP)。FlyBase是一个提供果蝇遗传学与分子生物信息的综合数据库。它提供了果蝇基因组项目的各类基本数据(基因、畸变、克隆、基因图、果蝇文献目录、数据查询等) , 文件与命名, 果蝇基因组计划以及其他有关数据库及资源等。酵母基因组数据库 ( YEASTS) ( http:PPgenome- www. stanford. eduP)这是美国斯坦福大学的基因资源库,主要提供了各类酵母基因组数据以及斯坦福大学基因组研究机构的信息。美国生物技术信息中心基因数据库 ( National Center for Biotechnology Information) ( http:PPwww. ncbi. nlm. nih. govP)。美国生物技术信息中心( NCBI)提供了18个数据库,可提供科研人员免费检索有关基因工程和生物技术方面的资料。这些基因组数据库几乎包括基因工程所有方面的数据库,如人类基因、老鼠基因、生物基因、癌基因等信息资源。另外还提供了分析基因组数据的各类工具软件。英国农作物基因数据库[ 25] (UK CropNet ) ( http:PP synteny. nott . ac. ukPdb. html )。该数据库主要提供各类有关农作物的基因数据,包括 Arabidopsis thaliana, Barley, Brassica spp, Forage Grasses,Millet and tef,Alfa-l fa, Chlamydomonas, Dictyostelium 等 18个物种基因数据库。美国农业基因组信息系统( Agricultural Genome Information System ) AGIS) ( http:PPars-genome. cornell. eduP)。AGIS是由美国马里兰大学植物生物系、美国农业部等单位联合创建的农业基因组信息服务系统。该系统目前主要包括农作物与牲畜品种的基因信息, 也包括种质与植物命名数据库等与这些信息有关的数据库。基因数据库主要有植物基因组、牲畜基因组、Demeter. s 基因组等信息资源,另外还提供了分析基因组数据的各类工具软件, 还链接了其他基因数据库、会议、出版物等。 4 生物信息学序列数据库序列数据库是生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。序列数据库早期的数据主要由数据录入人员通过查阅文献杂志搜集,或者由科研人员用磁盘、电子邮件方式向国际生物信息数据库中心递交。数据中心对搜集到的序列数据进行整理、维护, 并定期通过磁盘、磁带和光盘方式向全世界发布。序列数据库的序列数据来自核酸和蛋白质序列测定; 注释信息包括两部分,一部分由计算机程序经过序列分析而生成, 另一部分则依靠生物学家通过查阅文献资料而获得。随着基因组大规模测序计划的迅速开展, 序列数据库特别是核酸序列数据库的数据量迅速增长,数据来源主要集中于国际上几大著名的测序中心,如位于英国剑桥南郊基因组园区的 Sanger Center,华盛顿大学基因组研究中心等。我国于 1999年参加国际人类基因组研究项目, 已经于 2000年 4月按计划完成人类基因组 1%序列的测定。 4. 1 核酸序列数据库 EMBL、GenBank 和 DDBJ 是国际上三大主要核酸序列数据库。EMBL 是德国海德堡市的欧洲分子生物学实验室( European Molecular Biology Laboratory) 1980年创建的, 其名称也由此而来。1994年 9月随着欧洲生物信息学研究所 ( European Bioinformatics Institute ) EBI) ( http:PPwww. ebi. ac. uk)在英国剑桥建成, EMBL 数据库由海德堡市迁移至剑桥 [ 33]。美国国家健康研究院 ( Nat ional Institurte of Health, 简称 NIH)也于 1982年委托洛斯阿拉莫斯( Los Alamos)国家实验室建立 GenBank [34~ 35] , 后移交给美国国立卫生研究院国家生物技术中心( National Center for Bio- technology Information ) NCBI) ( http:PPwww. ncbi. nlm. nih. gov) , 隶属于 NIH 下设的国家医学图书馆( Na- t ional Liabraty of Medicine,简称 NLM)。DDBJ是日本静冈市的日本国立遗传学研究所 ( http:PPwww. nig. ac. jp) 1986年创建的日本DNA数据库( DNA Database of Japan ) DDBJ) [ 36]。1988年, EMBL、GenBank与DD- BJ共同成立了国际核酸序列联合数据库中心,建立了合作关系。根据

协议

离婚协议模板下载合伙人协议下载渠道分销协议免费下载敬业协议下载授课协议下载

, 这三个数据库分别收集所在区域的有关实验室和测序机构所发布的核酸序列信息,并共享收集到的数据,每天交换各自数据库新建立的序列记录, 以保证这三个数据库序列信息的完整性。鉴于核酸序列数据库规模不断扩大, 数据来源种类繁多,特别是大量的基因组序列片段迅速进入数据库,有必要将其分成若干子库,这样既便于数据库的维护和管理, 也便于用户使用。例如,在对数据库进行查询或搜索时, 有时不需要进行整库操作,而 5014 期网上生物信息学数据库资源是将查询和搜索范围限定在一个或几个子库, 不仅加快了速度,而且可以得到更加明确、可靠的结果。分类的原则,一是按照种属来源,如哺乳类、啮齿类、病毒等;二是根据序列来源,如将专利序列、人工合成序列单独分类。此外, 基因组计划测序所得到的序列已经占了数据库总容量的一半以上, 而且增长速度远远超过其他各种子库, 有必要将其单独分类, 包括表达序列标记( Expressed Sequence Tags, 简称 EST)、高通量基因组测序( High Throughput Genomic sequencing, 简称 HTG )、序列标记位点 ( Sequence Tagged Sites, 简称 STS)、基因组概览序列 ( Genome Survey Sequence, 简称 GSS)。其中 EST 序列条目占了整个核酸序列数据库的一半以上。由于历史的原因, EMBL 和 GenBank对子库的分类方法略有不同, 见表2所示,使用时应该注意。表 2 EMBL和 GenBank核酸序列数据库中各子库名称 EMBL GenBank 英文含义中文含义 HUM PRI Primate 人类、灵长类 MAM MAM Other mammalian 其他哺乳动物 ROD ROD Rodent 啮齿类动物 VRT VRT Other vertebrate 其他脊椎动物 INV INV Invertebrate 无脊椎动物 PLN* PLN Plant , fungi, algi 植物、真菌、藻类 FUN PLN Fungal 真菌、藻类 PRO BCT Prokaryotes, bacterial 细菌、原核生物 VRL VRL Viral 病毒 PHG PHG Bacteriophage 噬菌体 ORG* * - Organelles 细胞器 SYN SYN Synthetic 合成产物 UNC UNA UnclassifiedPUnannotated 未分类P未注释 EST EST Expressed Sequence Tags 表达序列标记 PAT PAT Patent 专利序列 STS STS Sequence Tagged Sites 序列标记位点 GSS GSS Genome Survey Sequences 基因组测序序列 HTG HTG High Throughput Genomic Sequences 高通量基因组序列 * EMBL 将真菌单独分类,而GenBank将真菌和藻类归在植物中。 * * EMBL 将细胞器单独分类。 4. 2 EMBL和 GenBank数据库格式了解序列数据库的格式, 有助于提高数据库检索的效率和准确性。DDBJ数据库的内容和格式与 GenBank相同。EMBL 和 GenBank 数据库的基本单位是序列条目, 包括核甘酸碱基排列顺序和注释两部分。序列条目由字段组成, 每个字段由标识字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次标识字或特性表说明符开始。EMBL 序列条目以标识字/ ID0开始, 而 GenBank 序列条目以标识字/ LOCUS0开始, 可理解为序列的代号或识别符, 实际表示序列名称。标识字还包括说明、编号、关键词、种属来源、学名、文献、特性表、碱基组成,最后以双斜杠/PP0作本序列条目结束标记。EM- BL数据库的所有标识字以 2个字母的缩写表示, 如表 3所示。如/ ID0表示 Identif ication, / AC0表示 Ac- cession,并都从第 1列开始。GenBank数据库的标识字则以完整的英文单词表示,主标识字从第 1列开始,次标识字从第 3列开始,特性表说明符从第 5列开始,等等。无论是 EMBL 还是 GenBank, 每个字段的字数不超过80个字符, 若该字段的内容一行中写不下,可以在下一行继续。需要说明的是, 序列代码/ AC0或/ Accession0具有唯一性和永久性, 在文献中引用时, 应以代码为准,而不是以序列名称为准。已经完成全序列测定的细菌等基因组在数据库中分成几十个或几百个条目存放,以便于管理和使用。例如,大肠杆菌基因组的 4639221个碱基分成 400 个条目存放, 每个条目都有一个唯一的编码。除了上述通用的注释信息外, EMBL 和 GenBank 502 情报学报 21 卷还包括大量与序列直接相关的注释信息, 这些信息为数据库的使用和二次开发提供了基础。这些注释信息位于其他注释信息和序列之间,称为序列特征表( Feature table)。EMBL序列特征以标识字/ FH0引导, 不同的特征表具有不同的说明符, 以标识字 / FT0开始。而 GenBank 的特征表则以标识字/ FEA- TURE0引导。序列特征表详细描述该序列的各种特性,包括蛋白质编码区以及翻译所得的氨基酸序列、外显子和内含子位置、转录单位、突变单位、修饰单位、重复序列等信息, 以及与蛋白质数据库 SWISS- PROT 和分类学数据库 Taxonomy 等其他数据库的交叉索引编号。应该指出, EMBL和 GenBank序列数据库中序列条目的大小相差极大, 有的只有几个或几十个碱基,而有的则有几十万个碱基。表 3 EMBL和 GenBank数据库格式 EMBL GenBank 含义 ID LOCUS 序列名称 DE DEFINITION 序列简单说明 AC ACCESSION 序列编号 SV VERSION 序列版本号 KW KEYWORDS 与序列相关的关键词 OS SOURCE 序列来源的物种名 OC ORGANISM 序列来源的物种学名和分类学位置 RN REFERENCE 相关文献编号, 或递交序列的注册信息 RA AUTHORS 相关文献作者, 或递交序列的作者 RT TITLE 相关文献题目 RL JOURNAL 相关文献所在杂志名, 或递交序列的作者单位 RX MEDLINE 相关文献 Medline引文代码 RC REMARK 相关文献注释 RP 相关文献其他注释 CC COMMENT 关于序列的注释信息 DR 相关数据库交叉引用号 FH FEATURES 序列特征表起始 FT 序列特征表子项 SQ BASE COUNT 碱基种类统计数空格 ORIGIN 序列 4. 3 主要蛋白质序列数据库由于蛋白质序列测定技术先于 DNA 序列测定技术问世, 蛋白质序列的搜集也早于 DNA序列。序列数据库从一个侧面反映了信息资源的传播从印刷品到电子媒体到网络的发展趋势。蛋白质序列数据库的雏形可以追朔到 60年代。1966年美国国家生物医学研究基金会 ( National Biomedical Research Foundation,简称 NBRF) Dayhoff 领导的研究组, 将搜集到的蛋白质序列和结构信息以5蛋白质序列和结构地图集6( Atlas of Protein Sequence and Structure)一书的形式发表, 主要用来研究蛋白质的进化关系。 1984年, /蛋白质信息资源0 ( Protein Information Re- source, 简称 PIR)计划正式启动, 蛋白质序列数据库 PIR也因此而诞生。与核酸序列数据库的国际合作相呼应, 1988年, 美国华盛顿的乔治城大学全国生物医学研究基金会(NBRF)、日本东京理科大学的日本国际蛋白质信息数据库( Japanese International Pro- tein Information Database,简称 JIPID)和德国的慕尼黑蛋白质序列信息中心( Munich Information Center for Protein Sequences,简称MIPS)三家实验室合作成立了国际蛋白质信息中心( PIR-Internat ional) ,共同收集和维护蛋白质序列数据库 PIR[ 37~ 38] ( http:PPpir. george- town. edu)。PIR数据库按照数据的性质和注释层次分四个不同部分,分别为 PIR1、PIR2、PIR3 和 PIR4。 PIR1中的序列已经验证, 注释最为详尽; PIR2中包含尚未确定的冗余序列; PIR3中的序列尚未加以检验,也未加注释; 而 PIR4中则包括了其他各种渠道获得的序列,既未验证,也无注释。除了 PIR外,另一个重要的蛋白质序列数据库则是 SWISS-PROT [ 39~ 41] ( Protein Sequence Database) ( http:PPwww. expasy. chPsprotPspro-t top. html)。该数据库由瑞士日内瓦大学生化系 A. Bairoch于 1986年创建,目前由瑞士生物信息学研究所( Swiss Institute of Bioinformatics,简称 SIB) 和欧洲生物信息学研究所 ( EBI)共同维护和管理。瑞士生物信息学研究所下属的蛋白质分析专家系统 ( Expert Protein Analysis System, , 简称 ExPASy) ( http:PPwww. expasy. chP) 的 Web服务器除了开发和维护 SWISS-PROT 数据库外,也是国际上蛋白质组和蛋白质分子模型研究的中心,为用户提供大量蛋白质信息资源。北京大学生物信息中心设有 ExPASy 的镜象。现在 EBIPEMBL 也参与 SWISS-PROT 的开发,并随 EMBL 数据库一起发行。 SWISS-PROT 蛋白质序列库是现在最为常用、注释最全、包含独立项最多的数据库,它包括其他蛋白质序列库中经过验证的全部序列、其注释及蛋白质的功能、结构域和活性位点、二级结构、四级结构、翻 5034 期网上生物信息学数据库资源译后修饰、与其他蛋白质的相似性、相关的疾病、处理的冲突等。数据库中的所有序列条目, 都经过有经验的分子生物学家和蛋白质化学家通过计算机工具并查阅有关文献资料仔细核实。SIB和 EBI 共有 70多人的研究队伍,专门从事蛋白质序列数据的搜集、整理、分析、注释、发布, 力图提供高质量的蛋白质序列和注释信息。SWISS-PROT 数据库的每个条目都有详细的注释,包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、突变体等。该数据库中还包括了与核酸序列数据库 EMBLPGenBankPDD- BJ、蛋白质结构数据库 PDB以及 PROSITE、PRINTTS 等十多个二次数据库的交叉引用代码。特别值得一提的是, ExPAsy 专门聘请了由 200多位国际知名生物学家组成的网上专家评审团, 并将 SWISS-PROT 数据库中的蛋白质分成200多个类别,每个类别由1 位或 2位评审专家负责,通过计算机网络进行审核。 ExPASy网站上列出了这些评审专家的姓名、电子邮箱地址和他们所负责评审的蛋白质种类。用户若对某个蛋白质条目有疑问, 可以直接和相应的评审专家取得联系。 SWISS-PROT 采用了和 EMBL 核酸序列数据库相同的格式和双字母标识字。这种双字母的标识字对于数据库的管理维护比较方便,但用户在使用时却不很方便,特别对数据库格式不很熟悉的用户, 尤为如此。近年来,随着计算机网络和信息技术的发展, ExPASy开发了面向生物学家的、基于浏览器的用户界面,特别是用可视化方式表示氨基酸特征表, 使用户对序列特性一目了然, 如二硫键、跨膜螺旋、二级结构片段、活性位点等。另一个常用的蛋白质序列数据库是已知三维结构蛋白质的一级结构序列数据库 NRL- 3D[42] ( ht- tp:PPwww-nbrf. georgetown. eduPpirwwwPdbinfoPnrl3d. ht- ml)。该数据库的序列是从三维结构数据库 PDB 中提取出来的。除了序列信息外,NRL-3D包括二级结构、活性位点、结合位点、修饰位点等与蛋白质结构直接有关的注释信息, 对研究蛋白质结构功能关系和同源蛋白分子模型构建特别有用。 4. 4 其他蛋白质序列数据库 PIR和 SWISS-PROT 是创建最早、使用最为广泛的两个蛋白质数据库。随着各种模式生物基因组计划的进展,DNA序列特别是 EST 序列大量进入核酸序列数据库。蛋白质序列数据库 TrEMBL 是从 EM- BL中的 cDNA 序列翻译得到的。TrEMBL 数据库创建于1996年[ 39] , 意为Translation of EMBL。该数据库采用SWISS-PROT 数据库格式,包含 EMBL 数据库中所有编码序列的翻译。TrEMBL 数据库分两部分: SP-TrEMBL 和 REM-TrEMBL。SP-TrEMBL 中的条目最终将归并到 SWISS-PROT 数据库中。而 REM- TrEMBL则包括其他剩余序列, 包括免疫球蛋白、T 细胞受体、少于 8个氨基酸残基的小肽、合成序列、专利序列等。与 TrEMBL 类似, GenPept 是由 Gen- Bank翻译得到的蛋白质序列。由于 TrEMBL 和Gen- Pept均是由核酸序列通过计算机程序翻译生成, 这两个数据库中的序列错误率较大, 均有较大的冗余度。上述几个蛋白质序列数据库可以称为蛋白质序列一次数据库, 或基本数据库。它们各有特点。 NRL- 3D包含已知空间结构的序列, 但数据量十分有限; SWISS-PROT 的序列经过严格的审核, 注释完善,但数据量较小。PIR数据量较大,但包含未经验证的序列,注释也不完善。TrEMBL 和 GenPept的数据量最大,且随核酸序列数据库的更新而更新, 但它们均是由核酸序列翻译得到的序列, 未经实验证实, 也没有详细的注释。将上述数据库整合起来,构建复合数据库,或二次数据库,则有利于生物学家的使用。OWL[43]混合蛋白质序列数据库( Composite pro- tein sequences databases, http:PPwww. biochem. ucl. ac. ukPbsmPdbbrowserPOWLPowlcontents. html )和 NRDB[ 44] 就是根据这一原则构建的非冗余蛋白质序列数据库。这两个数据库均是由 GenPept、PIR、SWISS- PROT、NRL- 3D等数据库复合而成。为使二次序列数据库中的序列具有较好的代表性, 在构建复合数据库时,采取了某些序列取舍的

标准

excel标准偏差 excel标准偏差函数 exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载

,使用了一定的算法,并增加了与其他数据库的交叉引用,在某些方面具有一定的优点。另外, NCBI 在重点发展 GenBank 的同时, 还于 1991年开发出 Entrez: Sequences( http:PPwww3. ncbi. nlm. nih. govPEntrezP)数据库。该库综合了 GenBank、 EMBL、PIR和 SWISS-PROT 等数据库的序列信息和 MEDLINE有关序列的文献信息, 因而是具有 PIR等数据库所没有的分子序列的文献数据库。它的另一个特点是对于每一个序列或文献,还给出了类似(或同源)的序列或相关文献的信息, 因而该库较 Gen- Bank等数据库有更丰富的结构、功能和文献信息。综上所述,蛋白质序列数据库种类繁多,各有特色。表 4列出了有关蛋白质数据库的种类和特点。显然,与核酸序列数据库不同,用户在使用蛋白质序 504 情报学报 21 卷列数据库时,不能只用其中一个,而必须根据实际情况进行选择,如有可能,则应该尽量选择几个不同的数据库,并对结果加以比较。表 4 蛋白质数据库种类和特点名称维护单位注释冗余度数据量更新 PIR NCBI、JIPID、MIPS 部分完善较大较大较慢 SWISS-PROT EBI、SIB 完善小不大较慢 NRl3D NCBI 完善小小较慢 TrEMBL EBI、SIB 不完善大大快 GenPep NCBI 不完善大大快 NRDB EBI 一般小大较快 OWL HGMP 一般小大较慢本表列出国际上主要蛋白质数据库的种类和特点。表中各项指标为相对数据。如 SWISS-PROT 几个月发布一个新版, 每周发布新增加的数据。 5 生物信息学结构数据库除了基因组数据库和序列数据库外,生物大分子三维空间结构数据库则是另一类重要的分子生物信息数据库。根据分子生物学中心法则, DNA 序列是遗传信息的携带者, 而蛋白质分子则是主要的生物大分子功能单元。蛋白质分子的各种功能, 是通过不同的三维空间结构实现的。因此, 蛋白质空间结构数据库是生物大分子结构数据库的主要组成部分。蛋白质结构数据库是随 X 射线晶体衍射分子结构测定技术的发展而出现的数据库, 其基本内容为实验测定的蛋白质分子空间结构原子坐标。90 年代以来,越来越多的蛋白质分子结构被测定, 蛋白质结构分类的研究不断深入,出现了蛋白质家族、折叠模式、结构域、回环等数据库。表 5列出目前主要的蛋白质结构数据库和信息资源的网址[ 45] 。 5. 1 蛋白质三维结构数据库 PDB 蛋白质结构数据库 ( Protein Data Bank, 简称 PDB)是美国纽约 Brookhaven国家实验室于 1971年创建的。为适应结构基因组和生物信息学研究的需要, 1998年 10月由美国国家科学基金委员会、能源部和卫生研究院资助, 成立了结构生物学合作研究协会( Research Collaboratory for Structural Bioinformat- ics,简称 RCSB)。PDB数据库改由 RCSB管理[ 46] ,目前主要成员为拉特格斯大学( Rutgers University)、圣地亚哥超级计算中心 ( San Diego Supercomputer Cen- ter,简称 SDSC)和国家标准化研究所( National Inst-i tutes of Standards and Technology,简称NIST)。和核酸序列数据库一样, 可以通过网络直接向 PDB 数据库递交数据。表 5 蛋白质结构数据库资源名称网址内容 PDBSum http:PPwww. biochem. ucl. ac. ukPbsmPpdbsumP PDB 数据库综合信息 SCOP http:PPscop. mrc- lmb. cam. ac. ukPscopP 蛋白质结构分类 CATH http:PPwww. biochem. ucl. ac. ukPbsmPcathP 蛋白质结构分类 TOPS http:PPwww3. ebi. ac. ukPtopsP 蛋白质拓扑结构 ComPASS http:PPwww- cryst. bioc. cam. ac. ukP~ campassP 同源蛋白质结构分类 HomSTRAD http:PPwww- cryst. bioc. cam. ac. ukPdataPalignP 蛋白结构相似性比较 DSMP http:PPsalarjung. embnet. org. inPdsmp. html 蛋白质结构模体 LPFC http:PPwww-smi. stanford. eduPprojectsPhelixPLPFCP 重要蛋白质家族 Culled PDB http:PPwww. fccc. eduPresearchPlabsPdunbrackPculledpdb. html 非冗余蛋白质 IMB http:PPwww. imb- jena. dePIMAGE. html 生物大分子图形 OLDERADO http:PPneon. chem. le. ac. ukPolderadoP 蛋白质结构域 Protein Sidechain http:PPwww. fccc. eduPresearchPlabsPdunbrackPsidechain. html 蛋白质侧链 SPIN-PP http:PPtrantor. bioc. columbia. eduPcg-i binPSPINP 蛋白质互作用 LPC http:PPbioinfo .weizmann. ac. il: 8500Poca-binPlpccsu 配体P蛋白质相互作用 HIC-Up http:PPalpha2. bmc. uu. sePhicupP PDB 中其他化合物 MOOSE http:PPdb2. sdsc. eduPmooseP 蛋白质结构检索服务器 DALI

本文档为【生物信息学数据库资源】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

生物信息学数据库资源

热门搜索

历史搜索