为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

生物信息学数据库资源

2013-12-08 16页 pdf 448KB 83阅读

用户头像

is_525473

暂无简介

举报
生物信息学数据库资源 收稿日期: 2001 年 2月 8 日 作者简介:万跃华,浙江工业大学图书馆信息咨询部主任,主要从事网络信息资源、数字图书馆、搜索引擎、信息检索、计算机 视觉等研究与教学。何立民, 浙江工业大学图书馆馆长,主要从事化工机械、图书情报、信息检索等方面的科研与教学工作。 1)本文为浙江省科技厅基金资助项目( 2001080) /基因组信息学数据库信息资源开发与利用研究0 网上生物信息学数据库资源1) 万跃华 何立民 (浙江工业大学图书馆, 杭州 310032) 摘要 大量的蛋白质和核酸数据的积累与理性地分析这些数据...
生物信息学数据库资源
收稿日期: 2001 年 2月 8 日 作者简介:万跃华,浙江工业大学图馆信息咨询部主任,主要从事网络信息资源、数字图书馆、搜索引擎、信息检索、计算机 视觉等研究与教学。何立民, 浙江工业大学图书馆馆长,主要从事化工机械、图书情报、信息检索等方面的科研与教学工作。 1)本文为浙江省科技厅基金资助项目( 2001080) /基因组信息学数据库信息资源开发与利用研究0 网上生物信息学数据库资源1) 万跃华 何立民 (浙江工业大学图书馆, 杭州 310032) 摘要 大量的蛋白质和核酸数据的积累与理性地这些数据中所蕴涵的生物学意义的双重需要, 产生了综 合生物学研究与计算技术研究等领域最新成果的交叉性学科生物信息学。本文分别从生物信息学的基因组数据 库,核酸和蛋白质一级结构序列数据库, 生物大分子(主要是蛋白质)三维空间结构数据库,以及以这 3 类数据库和 文献资料为基础构建的二次数据库(包括基因组二次数据库、蛋白质序列二次数据库、蛋白质结构二次数据库)和 生物信息学数据库的集成系统等几个方面,概述了发展中的生物信息学数据库的最近动态和有关信息, 同时对主 要的热门生物信息学数据库站点和资源进行了评价。此外,就国内生物信息学数据库存在的问题与前景进行了讨 论,指出生物信息学将是一次国际性的科学大协作,也是我国生命科学振兴的一个新契机。 关键词 生物信息学 网络信息资源 基因组数据库 结构数据库 核酸数据库 蛋白质数据库 序列数据库 Bioinformatics Database Resources on Internet Wan Yuehua and He Limin ( Library of Zhejiang University of Technology, Hangzhou 310032) Abstract Bioinformatics came from the requirement for vast data of protein and nucleic acids and analysis of the biological significance implying in these data. It is an intercross subject which integrates the newest reaching outcomes of biology, computer technology and other fields. The paper summarizes the newest developments and relative information of bioinformatics database from some respects such as genome database, first class database of protein and nucleic acids sequence, three-dimensional spatial struc- ture database of biomacromolecules ( protein is dominating) , sub-databases including genome database, protein sequence sub-data- base and protein structure sub-database, which are all constructed on the first class databases, references, and the integrated sys- tem of bioinformatics database . At the same time, evaluation about the main hot nets of bioinformatics database and resources is given out. Furthermore, the problems and prospects of domestic bioinformatics database are discussed. Bioinformatics will be an international collaborative venture of modern science. Bioinformatics also will be a chance to develop our life science. Keywords bioinformatics, network information resource, genome database, structure database, nucleic acids database, protein database, sequence database. 1 引 言 生物信息学( Bioinformatics)是近年来在生命科 学的研究中发展起来的一门由分子生物学和计算机 信息处理技术相结合的, 以计算机为工具对生物信 息进行储存、检索和分析的交叉学科,它的基本出发 点是利用数据库技术和软件技术对大量积累的生物 第 21 卷 第 4期 2002 年8 月 情 报 学 报 Vol. 21, l 4August, 2002 大分子序列数据和实验测定的序列进行结构比较和 统计分析,揭示出生物大分子的分子结构、功能和进 化关系。因此, 它是分子生物学研究的一个新领域, 同时也是生命科学和自然科学的重大前沿领域之 一,其研究重点主要体现在基因组学 ( Genomics)和 蛋白组学(Proteomics)两方面。具体说就是从核酸和 蛋白质序列出发,分析序列中表达的结构功能的生 物信息。 数据库是生物信息学的主要内容之一。生物信 息学数据库具有以下一些特点: ( 1)数据库种类的多 样性。生物信息学各类数据库几乎覆盖了生命科学 的各个领域, 如核酸序列数据库, 蛋白质序列数据 库,蛋白质、核酸、多糖的三维结构数据库,基因组数 据库, 文献数据库(如 Medline, Uncover )和其他杂类 数百种。( 2)数据库的更新和增长快。数据库的更 新周期越来越短, 有些数据库每天更新。数据的规 模以指数形式增长。( 3)数据库的复杂性增加、层次 加深。许多数据库具有相关的内容和信息, 数据库 之间相互引用, 如PDB就与文献库、酶学数据库、蛋 白质二级数据库、蛋白质结构分类数据库、蛋白折叠 库等十几种数据库直接交联。( 4)数据库使用高度 计算机化和网络化。越来越多的生物信息学数据库 与因特网联结, 从而为分子生物学家利用这些信息 资源提供了前所未有的机遇。绝大多数网上生物信 息学数据库中的信息资源可免费检索或下载。随着 网络信息检索工具搜索引擎的不断发展, 生物信息 学数据库的网上信息资源检索越来越方便、快速, 这 对我国开展生物信息学研究以及人类和水稻基因组 工程的DNA序列数据的分析提供了捷径。特别是 当前我国生物信息学自建数据库不丰富和引进数据 库又比较少的情况下, 探讨和研究如何充分开发和 利用网络上免费的生物信息学数据库信息资源显得 尤为重要。 2 生物信息学数据库种类 生物信息数据库种类繁多,归纳起来,大体可以 分为 4个大类:基因组数据库,核酸和蛋白质一级结 构序列数据库, 生物大分子(主要是蛋白质)三维空 间结构数据库, 以及以这 3类数据库和文献资料为 基础构建的二次数据库。基因组数据库来自基因组 作图, 序列数据库来自序列测定, 结构数据库来自 X-衍射和核磁共振结构测定。这些数据库是分子生 物信息学的基本数据资源, 通常称为基本数据库或 初始数据库, 也称一次数据库。根据生命科学不同 研究领域的实际需要, 对基因组图谱、核酸和蛋白质 序列、蛋白质结构以及文献等数据进行分析、整理、 归纳、注释, 构建具有特殊生物学意义和专门用途的 二次数据库,是数据库开发的有效途径。近年来,世 界各国的生物学家和计算机科学家合作, 已经开发 了几百个二次数据库和复合数据库, 也称专门数据 库或专业数据库、专用数据库。 一次数据库的数据量大、更新速度快、用户面 广,通常需要高性能的计算机硬件、大容量的磁盘空 间和专门的数据库管理系统支撑。例如, 欧洲生物 信息学研究所用 Oracle数据库软件管理、维护核酸 数据库 EMBL。而基因组数据库 GDB 的管理、运行 则基于 Sybase 数据库系统。Oracle 和 Sybase 均为流 行的数据库管理商业软件。而二次数据库的容量则 要小得多,更新速度也不像一次数据库那样快, 可以 不用大型商业数据库软件支撑。许多二次数据库的 开发基于Web浏览器, 使用超文本语言HTML 和 Ja- va程序编写的图形界面, 有的还带有搜索程序。这 类针对不同问题开发的二次数据库的最大特点是使 用方便, 特别适用于计算机使用经验并不丰富的生 物学家。 二次数据库种类繁多。以核酸数据库为基础构 建的二次数据库有基因调控转录因子数据库 Tr- ansFac [1~ 2] ( http:pptransfac. gbf . dePTRANSFACP) , 真核 生物启动子数据库 EPD[ 3~ 4] ( Eukaryotic Promoter Da- tabase) ( http:PPwww. epd. isb-sib. ch. ) , 克隆载体数据 库Vector[ 5] , 密码子使用表数据库 CUTG等。以蛋白 质序列数据库为基础构建的二次数据库有蛋白质功 能位点数据库 PROSITE [ 6~ 7] , 蛋白质功能位点序列 片段数据库 PRINTS[ 8~ 10] ( http:PPwww. bioinf. man. ac. ukPdbbrowserPPRINTSP) ,同源蛋白家族数据库 Pfam- [11~ 12] ( http:PPwww. sanger. ac. ukPSoftwarePPfamP) , 同源 蛋白结构域数据库 Blocks[ 13~ 15]。以具有特殊功能的 蛋白为基础构建的二次数据库有免疫球蛋白数据库 Kabat [ 16] ( http:PPimmuno. bme. nwu. edu) , 蛋白激酶数 据库 PKinase等。以三维结构原子坐标为基础构建 的数据库为结构分子生物学研究提供了有效的工 具,如蛋白质二级结构构象参数数据库 DSSP[ 17] , 已 知空间结构的蛋白质家族数据库 FSSP[ 18~ 19] ,已知空 间结构的蛋白质及其同源蛋白数据库 HSSP[ 20~ 21] 等。蛋白质回环分类数据库则是用于蛋白质结构、 功能和分子研究的专门数据库。此外,酶数据 库 Enzyme Database[ 22] ( http:PPwww. expasy. chPenz- 498 情 报 学 报 21 卷 ymeP) ,限制性核酸内切酶数据库 REBASE[ 23~ 24] ( ht- tp:PPrebase. neb. com) , 辐射杂交、氨基酸特性表、序 列分析文献等, 也属于二次数据库或专门数据库。 除了上面介绍的几种类型生物信息学数据库 外,还出现了专门收集现有生物信息学数据库目录 的数据库。法国生物信息研究中心 Infobiogen 生物 信息数据库目录 DBCAT ( http:PPwww. infobiogen. frP servicesPdbcatP)搜集了 513个主要数据库的名称、作 者、内容、数据格式、联系地址、网址等详细信息,能 使用户对目前生物信息数据库有一个详尽的了解。 DBCAT 本身也是一个具有一定数据格式的数据库, 它按 DNA、RNA、蛋白质、基因图谱、结构、文献等分 类,其中大部分数据库是可以免费下载的公用数据 库。表 1列出了常用的生物学信息数据库。 表 1 常用生物信息学数据库 名称 内容 名称 内容 EMBL 核酸序列 EMEST EMBL数据库中 EST部分 PIR 蛋白质序列 SWISS-PROT 蛋白质序列 OWL 非冗余蛋白质序列 TREMBL EMBL翻译所得蛋白质序列 PDB 蛋白质三维空间结构 DSSP 蛋白质二级结构参数 HSSP 同源蛋白家族 FSSP 已知空间结构蛋白质家族 PDBFINDER PDB数据库注释信息 SBASE 蛋白质结构域序列 SUBTILIST 枯草杆菌序列 HUMREP 人类基因组中重复序列 VECTOR 克隆载体 CPGISLE CpG岛序列 RDP 核糖体序列 TRANSFAC 转录因子 ECDC 大肠杆菌序列 YPD 酵母基因组 KABATN 免疫球蛋白核酸序列 KABATP 免疫球蛋白蛋白质序列 PROSITE 蛋白质功能位点 PROSITEDOC 蛋白质功能位点文献摘要 BLOCKS 同源蛋白序列模块 PRINTS 蛋白质指纹图谱 PRODOM 蛋白质结构域 PFAM 蛋白质家族序列 ENZYME 酶 REBASE 限制性内切酶 OMIM 人类遗传缺陷基因 UNIGENE 人类基因组中基因序列 SEQANALREF 序列分析文献目录 SEQANALRABS 序列分析文献摘要 MEDLINE 医学文献目录 VIRGIL GDB 和 GenBank 链接 FLYGENES 果蝇基因组 MITSNP 单核甘酸多态性 RHDB 放射杂交 GENDIAG 遗传疾病和遗传缺失 P53 P53 蛋白突变 CD40LBASE CD40 蛋白 PK 丙酮酸激酶 IMGT 免疫球蛋白 CUTG 遗传密码使用频度 GENETICCODE 遗传密码表 TAXONOMY 分类学 AAINDEX 氨基酸性质索引表 BIOCAT 生物信息学程序目录 DBCAT 生物信息学目录 3 基因组生物信息学数据库 基因组数据库是分子生物信息数据库的重要组 成部分。基因组数据库内容丰富、名目繁多、格式不 一,分布在世界各地的信息中心、测序中心以及和医 学、生物学、农业等有关的研究机构和大学。基因组 数据库的主体是模式生物基因组数据库, 其中最主 要的是由世界各国的人类基因组研究中心、测序中 心构建的各种人类基因组数据库。小鼠、河豚鱼、拟 南芥、水稻、线虫、果蝇、酵母、大肠杆菌等各种模式 生物基因组数据库或基因组信息资源都可以在网上 找到。随着资源基因组计划的普遍实施, 几十种动 物、植物基因组数据库也纷纷上网, 如英国 Roslin研 究所的ArkDB( http:PPwww. ri. bbsrc. ac. ukParkdbPsites. html)包括了猪、牛、绵羊、山羊、马等家畜以及鹿、 狗、鸡等基因组数据库;美国、英国、日本等国的基因 组中心的斑马鱼、罗非鱼(T ilapia)、青 鱼( Medaka)、 鲑鱼( Salmon)等鱼类基因组数据库; 英国谷物网络 组织( CropNet) [ 25]建立的玉米、大麦、高粱、菜豆农作 物以及苜蓿(Alfalfa)、牧草( Forage)、玫瑰等基因组数 据库。除了模式生物基因组数据库外, 基因组信息 资源还包括染色体、基因突变、遗传疾病、分类学、比 较基因组、基因调控和表达、放射杂交、基因图谱等 4994 期 网上生物信息学数据库资源 各种数据库。 3. 1 人类基因组数据库 GDB 人类基因组数据库 ( The Genome Database, GDB) [26] ( http:PPgdbwww. gdb. org; http:PPwww. gdb. orgP; http:PPgdb. pku. edu. cnP)于 1990年初建于美国 约翰斯# 霍普金斯大学( Johns Hopkins University) , 以 支持国际合作的人类基因组计划,是一个专门汇集 存储人类基因组数据的数据库, 其中包括了全球范 围内致力于人类 DNA结构和100 000种人类基因序 列研究的分析成果,对从事相关领域的研究人员具 有重要的参考作用,现由加拿大儿童医院生物信息 中心负责管理。目前,该库包括以下多种内容:人类 基因组, 包括基因、克隆、断裂点、细胞遗传标记物、 易断位点、重复片段等; 人类基因组示意图, 包括细 胞遗传图,关联图,辐射杂交图、综合图等;人类基因 组内的变异,包括基因突变和基因多态性;还有等位 基因发生频次等数据资料。可通过名字PGDB ID、关 键词、DNA序列 ID进行查询。 GDB数据库用表格方式给出基因组结构数据, 包括基因单位、PCR位点、细胞遗传标记、EST、连续 子( Contig)、重复片段等;并可显示基因组图谱,包括 细胞遗传图、连锁图、放射杂交图、连续子图、转录图 等;并给出等位基因等基因多态性数据库。此外, GDB数据库还包括了与核酸序列数据库 GenBank和 EMBL、遗传疾病数据库 OMIM、文献摘要数据库 MedLine等其他网络信息资源的超文本链接。 GDB数据库是用大型商业软件 Sybase 数据库 管理系统开发的,并用 Java语言编写基因图谱显示 程序,为用户提供了很好的界面,缺点是传输速度受 到一定限制。GDB数据库是国际合作的成果, 其宗 旨是为从事基因组研究的生物学家和医护人员提供 人类基因组信息资源。其数据来自于世界各国基因 组研究的成果, 经过注册的用户可以直接向 GDB 数 据库中添加和编辑数据。 3. 2 线虫基因组数据库 AceDB AceDB是线虫 ( Caenorhabditis elegans)基因组数 据库[ 27~ 28] ( http:PPwww. acedb. orgP)。需要说明的是, AceDB既是一个数据库,又是一个数据库管理系统, 可以从网上自由下载, 目前许多研究单位用它建立 自己的数据库。AceDB基于面向对象的程序设计技 术,是一个相当灵活和通用的数据库系统,可用于其 他基因组计划的数据分析。AceDB最初是基于 Unix 操作系统的 X 窗口系统, 适用于本地计算机系统。 AceDB提供很好的图形界面,用户能够从大到整个 基因组小到序列的各个层次观察和分析基因组数 据。新开发的WebAce 和 AceBrowser 则是基于网络 浏览器。Sanger 中心已经将其用于线虫和人类基因 组数据库的浏览和搜索。库内的资源包括限制性图 谱、基因结构信息、质粒图谱、序列数据、参考文献等 等。 3. 3 美国基因组研究所的数据库 TIGR 美国基因组研究所是一个非营利的研究单位, 研究重点放在病毒、真细菌、致病菌及真核细胞(植 物与动物) ,包括人类的基因组及基因产物的结构、 功能与比较分析。美国基因组研究所的数据库 TIGR [29] ( The Inst itute of Genomic Research) ( http:PP www. tigr. orgP)包括了微生物、植物及人类的 DNA及 蛋白质序列, 基因表达, 细胞的作用, 蛋白质系族 及分类数据。由该页面可进入以下数据库:微生物 库,人类基因索引,老鼠基因索引,水稻基因索引,人 类基因组排序项目,人类 cDNA 图项目,表达的基因 结构库等。其中基因组研究所的微生物数据库 (MDB) ( http:PPwww. t igr. orgPtdbPmdbPmdb. html)网页 列出了已完成的 14个和正在研究的 40个微生物基 因组,包括名称、信息量、研究单位、资金来源及发表 在何处等。已完成的基因组大部分可通过超链接进 入该数据库进行查询。 3. 4 美国国家基因组资源中心基因组序列库 美国国家基因组资源中心基因组序列库 [ 30] Ge- nome Sequence DataBase( GSDB) ( http:PPwww. ncgr. orgP researchPsequenceP) 是美国国家基因组资源中心 (NCGR)的基因组序列库( GSDB) ,收集了 DNA序列 数据和有关的信息。由该主页可进入: NCGR主页, 基因组序列库,几套完整的细菌基因组等。 3. 5 其他的基因数据库 美国国家农业图书馆的基因组数据库( Databas- es at the Nat ional Agricultural Library ) ( http:PPprobe. nalusda. gov: 8000Palldbs. html )。在美国植物基因组 计划等的基金支持下, 美国农业图书馆建立了一批 基于Web的植物基因组、牲畜基因组数据库, 世界 各地均能方便地免费访问和检索。该页面有如下数 据库的超链接:植物基因组(目前包括 19个数据库, 有浏览、查询和介绍)、牲畜基因组 (包括 2 个数据 500 情 报 学 报 21 卷 库)、其他生物体基因组(包括 5 个数据库)、植物( 9 个数据库)、昆虫( 5个数据库)等的参考信息等。 果蝇基因组数据库[ 31~ 32] ( FlyBase ) A Database of the Drosophila Genome ) ( http:PPflybase. bio. indiana. eduP)。FlyBase是一个提供果蝇遗传学与分子生物 信息的综合数据库。它提供了果蝇基因组项目的各 类基本数据(基因、畸变、克隆、基因图、果蝇文献目 录、数据查询等) , 文件与命名, 果蝇基因组计划以 及其他有关数据库及资源等。 酵母基因组数据库 ( YEASTS) ( http:PPgenome- www. stanford. eduP)这是美国斯坦福大学的基因资源 库,主要提供了各类酵母基因组数据以及斯坦福大 学基因组研究机构的信息。 美国生物技术信息中心基因数据库 ( National Center for Biotechnology Information) ( http:PPwww. ncbi. nlm. nih. govP)。美国生物技术信息中心( NCBI)提供 了18个数据库,可提供科研人员免费检索有关基因 工程和生物技术方面的资料。这些基因组数据库几 乎包括基因工程所有方面的数据库,如人类基因、老 鼠基因、生物基因、癌基因等信息资源。另外还提供 了分析基因组数据的各类工具软件。 英国农作物基因数据库[ 25] (UK CropNet ) ( http:PP synteny. nott . ac. ukPdb. html )。该数据库主要提供各 类有关农作物的基因数据,包括 Arabidopsis thaliana, Barley, Brassica spp, Forage Grasses,Millet and tef,Alfa-l fa, Chlamydomonas, Dictyostelium 等 18个物种基因数 据库。 美国农业基因组信息系统( Agricultural Genome Information System ) AGIS) ( http:PPars-genome. cornell. eduP)。AGIS是由美国马里兰大学植物生物系、美国 农业部等单位联合创建的农业基因组信息服务系 统。该系统目前主要包括农作物与牲畜品种的基因 信息, 也包括种质与植物命名数据库等与这些信息 有关的数据库。基因数据库主要有植物基因组、牲 畜基因组、Demeter. s 基因组等信息资源,另外还提 供了分析基因组数据的各类工具软件, 还链接了其 他基因数据库、会议、出版物等。 4 生物信息学序列数据库 序列数据库是生物信息数据库中最基本的数据 库,包括核酸和蛋白质两类,以核苷酸碱基顺序或氨 基酸残基顺序为基本内容,并附有注释信息。序列 数据库早期的数据主要由数据录入人员通过查阅文 献杂志搜集,或者由科研人员用磁盘、电子邮件方式 向国际生物信息数据库中心递交。数据中心对搜集 到的序列数据进行整理、维护, 并定期通过磁盘、磁 带和光盘方式向全世界发布。序列数据库的序列数 据来自核酸和蛋白质序列测定; 注释信息包括两部 分,一部分由计算机程序经过序列分析而生成, 另一 部分则依靠生物学家通过查阅文献资料而获得。随 着基因组大规模测序计划的迅速开展, 序列数据库 特别是核酸序列数据库的数据量迅速增长,数据来 源主要集中于国际上几大著名的测序中心,如位于 英国剑桥南郊基因组园区的 Sanger Center,华盛顿大 学基因组研究中心等。我国于 1999年参加国际人 类基因组研究项目, 已经于 2000年 4月按计划完成 人类基因组 1%序列的测定。 4. 1 核酸序列数据库 EMBL、GenBank 和 DDBJ 是国际上三大主要核 酸序列数据库。EMBL 是德国海德堡市的欧洲分子 生物学实验室( European Molecular Biology Laboratory) 1980年创建的, 其名称也由此而来。1994年 9月随 着欧洲生物信息学研究所 ( European Bioinformatics Institute ) EBI) ( http:PPwww. ebi. ac. uk)在英国剑桥建 成, EMBL 数据库由海德堡市迁移至剑桥 [ 33]。美国 国家健康研究院 ( Nat ional Institurte of Health, 简称 NIH)也于 1982年委托洛斯阿拉莫斯( Los Alamos)国 家实验室建立 GenBank [34~ 35] , 后移交给美国国立卫 生研究院国家生物技术中心( National Center for Bio- technology Information ) NCBI) ( http:PPwww. ncbi. nlm. nih. gov) , 隶属于 NIH 下设的国家医学图书馆( Na- t ional Liabraty of Medicine,简称 NLM)。DDBJ是日本 静冈市的日本国立遗传学研究所 ( http:PPwww. nig. ac. jp) 1986年创建的日本DNA数据库( DNA Database of Japan ) DDBJ) [ 36]。1988年, EMBL、GenBank与DD- BJ共同成立了国际核酸序列联合数据库中心,建立 了合作关系。根据, 这三个数据库分别收集所 在区域的有关实验室和测序机构所发布的核酸序列 信息,并共享收集到的数据,每天交换各自数据库新 建立的序列记录, 以保证这三个数据库序列信息的 完整性。 鉴于核酸序列数据库规模不断扩大, 数据来源 种类繁多,特别是大量的基因组序列片段迅速进入 数据库,有必要将其分成若干子库,这样既便于数据 库的维护和管理, 也便于用户使用。例如,在对数据 库进行查询或搜索时, 有时不需要进行整库操作,而 5014 期 网上生物信息学数据库资源 是将查询和搜索范围限定在一个或几个子库, 不仅 加快了速度,而且可以得到更加明确、可靠的结果。 分类的原则,一是按照种属来源,如哺乳类、啮齿类、 病毒等;二是根据序列来源,如将专利序列、人工合 成序列单独分类。此外, 基因组计划测序所得到的 序列已经占了数据库总容量的一半以上, 而且增长 速度远远超过其他各种子库, 有必要将其单独分类, 包括表达序列标记( Expressed Sequence Tags, 简称 EST)、高通量基因组测序( High Throughput Genomic sequencing, 简称 HTG )、序列标记位点 ( Sequence Tagged Sites, 简称 STS)、基因组概览序列 ( Genome Survey Sequence, 简称 GSS)。其中 EST 序列条目占 了整个核酸序列数据库的一半以上。由于历史的原 因, EMBL 和 GenBank对子库的分类方法略有不同, 见表2所示,使用时应该注意。 表 2 EMBL和 GenBank核酸序列数据库中各子库名称 EMBL GenBank 英文含义 中文含义 HUM PRI Primate 人类、灵长类 MAM MAM Other mammalian 其他哺乳动物 ROD ROD Rodent 啮齿类动物 VRT VRT Other vertebrate 其他脊椎动物 INV INV Invertebrate 无脊椎动物 PLN* PLN Plant , fungi, algi 植物、真菌、藻类 FUN PLN Fungal 真菌、藻类 PRO BCT Prokaryotes, bacterial 细菌、原核生物 VRL VRL Viral 病毒 PHG PHG Bacteriophage 噬菌体 ORG* * - Organelles 细胞器 SYN SYN Synthetic 合成产物 UNC UNA UnclassifiedPUnannotated 未分类P未注释 EST EST Expressed Sequence Tags 表达序列标记 PAT PAT Patent 专利序列 STS STS Sequence Tagged Sites 序列标记位点 GSS GSS Genome Survey Sequences 基因组测序序列 HTG HTG High Throughput Genomic Sequences 高通量基因组序列 * EMBL 将真菌单独分类,而GenBank将真菌和藻类归在植物中。 * * EMBL 将细胞器单独分类。 4. 2 EMBL和 GenBank数据库格式 了解序列数据库的格式, 有助于提高数据库检 索的效率和准确性。DDBJ数据库的内容和格式与 GenBank相同。EMBL 和 GenBank 数据库的基本单 位是序列条目, 包括核甘酸碱基排列顺序和注释两 部分。序列条目由字段组成, 每个字段由标识字起 始,后面为该字段的具体说明。有些字段又分若干 次子字段,以次标识字或特性表说明符开始。EMBL 序列条目以标识字/ ID0开始, 而 GenBank 序列条目 以标识字/ LOCUS0开始, 可理解为序列的代号或识 别符, 实际表示序列名称。标识字还包括说明、编 号、关键词、种属来源、学名、文献、特性表、碱基组 成,最后以双斜杠/PP0作本序列条目结束标记。EM- BL数据库的所有标识字以 2个字母的缩写表示, 如 表 3所示。如/ ID0表示 Identif ication, / AC0表示 Ac- cession,并都从第 1列开始。GenBank数据库的标识 字则以完整的英文单词表示,主标识字从第 1列开 始,次标识字从第 3列开始,特性表说明符从第 5列 开始,等等。无论是 EMBL 还是 GenBank, 每个字段 的字数不超过80个字符, 若该字段的内容一行中写 不下,可以在下一行继续。 需要说明的是, 序列代码/ AC0或/ Accession0具 有唯一性和永久性, 在文献中引用时, 应以代码为 准,而不是以序列名称为准。已经完成全序列测定 的细菌等基因组在数据库中分成几十个或几百个条 目存放,以便于管理和使用。例如,大肠杆菌基因组 的 4639221个碱基分成 400 个条目存放, 每个条目 都有一个唯一的编码。 除了上述通用的注释信息外, EMBL 和 GenBank 502 情 报 学 报 21 卷 还包括大量与序列直接相关的注释信息, 这些信息 为数据库的使用和二次开发提供了基础。这些注释 信息位于其他注释信息和序列之间,称为序列特征 表( Feature table)。EMBL序列特征以标识字/ FH0引 导, 不同的特征表具有不同的说明符, 以标识字 / FT0开始。而 GenBank 的特征表则以标识字/ FEA- TURE0引导。序列特征表详细描述该序列的各种特 性,包括蛋白质编码区以及翻译所得的氨基酸序列、 外显子和内含子位置、转录单位、突变单位、修饰单 位、重复序列等信息, 以及与蛋白质数据库 SWISS- PROT 和分类学数据库 Taxonomy 等其他数据库的交 叉索引编号。应该指出, EMBL和 GenBank序列数据 库中序列条目的大小相差极大, 有的只有几个或几 十个碱基,而有的则有几十万个碱基。 表 3 EMBL和 GenBank数据库格式 EMBL GenBank 含义 ID LOCUS 序列名称 DE DEFINITION 序列简单说明 AC ACCESSION 序列编号 SV VERSION 序列版本号 KW KEYWORDS 与序列相关的关键词 OS SOURCE 序列来源的物种名 OC ORGANISM 序列来源的物种学名和分类学位置 RN REFERENCE 相关文献编号, 或递交序列的注册信息 RA AUTHORS 相关文献作者, 或递交序列的作者 RT TITLE 相关文献题目 RL JOURNAL 相关文献所在杂志名, 或递交序列的作 者单位 RX MEDLINE 相关文献 Medline引文代码 RC REMARK 相关文献注释 RP 相关文献其他注释 CC COMMENT 关于序列的注释信息 DR 相关数据库交叉引用号 FH FEATURES 序列特征表起始 FT 序列特征表子项 SQ BASE COUNT 碱基种类统计数 空格 ORIGIN 序列 4. 3 主要蛋白质序列数据库 由于蛋白质序列测定技术先于 DNA 序列测定 技术问世, 蛋白质序列的搜集也早于 DNA序列。序 列数据库从一个侧面反映了信息资源的传播从印刷 品到电子媒体到网络的发展趋势。蛋白质序列数据 库的雏形可以追朔到 60年代。1966年美国国家生 物医学研究基金会 ( National Biomedical Research Foundation,简称 NBRF) Dayhoff 领导的研究组, 将搜 集到的蛋白质序列和结构信息以5蛋白质序列和结 构地图集6( Atlas of Protein Sequence and Structure)一 书的形式发表, 主要用来研究蛋白质的进化关系。 1984年, /蛋白质信息资源0 ( Protein Information Re- source, 简称 PIR)计划正式启动, 蛋白质序列数据库 PIR也因此而诞生。与核酸序列数据库的国际合作 相呼应, 1988年, 美国华盛顿的乔治城大学全国生 物医学研究基金会(NBRF)、日本东京理科大学的日 本国际蛋白质信息数据库( Japanese International Pro- tein Information Database,简称 JIPID)和德国的慕尼黑 蛋白质序列信息中心( Munich Information Center for Protein Sequences,简称MIPS)三家实验室合作成立了 国际蛋白质信息中心( PIR-Internat ional) ,共同收集和 维护蛋白质序列数据库 PIR[ 37~ 38] ( http:PPpir. george- town. edu)。PIR数据库按照数据的性质和注释层次 分四个不同部分,分别为 PIR1、PIR2、PIR3 和 PIR4。 PIR1中的序列已经验证, 注释最为详尽; PIR2中包 含尚未确定的冗余序列; PIR3中的序列尚未加以检 验,也未加注释; 而 PIR4中则包括了其他各种渠道 获得的序列,既未验证,也无注释。 除了 PIR外,另一个重要的蛋白质序列数据库 则是 SWISS-PROT [ 39~ 41] ( Protein Sequence Database) ( http:PPwww. expasy. chPsprotPspro-t top. html)。该数据 库由瑞士日内瓦大学生化系 A. Bairoch于 1986年创 建,目前由瑞士生物信息学研究所( Swiss Institute of Bioinformatics,简称 SIB) 和欧洲生物信息学研究所 ( EBI)共同维护和管理。瑞士生物信息学研究所下 属的蛋白质分析专家系统 ( Expert Protein Analysis System, , 简称 ExPASy) ( http:PPwww. expasy. chP) 的 Web服务器除了开发和维护 SWISS-PROT 数据库 外,也是国际上蛋白质组和蛋白质分子模型研究的 中心,为用户提供大量蛋白质信息资源。北京大学 生物信息中心设有 ExPASy 的镜象。现在 EBIPEMBL 也参与 SWISS-PROT 的开发,并随 EMBL 数据库一起 发行。 SWISS-PROT 蛋白质序列库是现在最为常用、注 释最全、包含独立项最多的数据库,它包括其他蛋白 质序列库中经过验证的全部序列、其注释及蛋白质 的功能、结构域和活性位点、二级结构、四级结构、翻 5034 期 网上生物信息学数据库资源 译后修饰、与其他蛋白质的相似性、相关的疾病、处 理的冲突等。数据库中的所有序列条目, 都经过有 经验的分子生物学家和蛋白质化学家通过计算机工 具并查阅有关文献资料仔细核实。SIB和 EBI 共有 70多人的研究队伍,专门从事蛋白质序列数据的搜 集、整理、分析、注释、发布, 力图提供高质量的蛋白 质序列和注释信息。SWISS-PROT 数据库的每个条 目都有详细的注释,包括结构域、功能位点、跨膜区 域、二硫键位置、翻译后修饰、突变体等。该数据库 中还包括了与核酸序列数据库 EMBLPGenBankPDD- BJ、蛋白质结构数据库 PDB以及 PROSITE、PRINTTS 等十多个二次数据库的交叉引用代码。特别值得一 提的是, ExPAsy 专门聘请了由 200多位国际知名生 物学家组成的网上专家评审团, 并将 SWISS-PROT 数据库中的蛋白质分成200多个类别,每个类别由1 位或 2位评审专家负责,通过计算机网络进行审核。 ExPASy网站上列出了这些评审专家的姓名、电子邮 箱地址和他们所负责评审的蛋白质种类。用户若对 某个蛋白质条目有疑问, 可以直接和相应的评审专 家取得联系。 SWISS-PROT 采用了和 EMBL 核酸序列数据库 相同的格式和双字母标识字。这种双字母的标识字 对于数据库的管理维护比较方便,但用户在使用时 却不很方便,特别对数据库格式不很熟悉的用户, 尤 为如此。近年来,随着计算机网络和信息技术的发 展, ExPASy开发了面向生物学家的、基于浏览器的 用户界面,特别是用可视化方式表示氨基酸特征表, 使用户对序列特性一目了然, 如二硫键、跨膜螺旋、 二级结构片段、活性位点等。 另一个常用的蛋白质序列数据库是已知三维结 构蛋白质的一级结构序列数据库 NRL- 3D[42] ( ht- tp:PPwww-nbrf. georgetown. eduPpirwwwPdbinfoPnrl3d. ht- ml)。该数据库的序列是从三维结构数据库 PDB 中 提取出来的。除了序列信息外,NRL-3D包括二级结 构、活性位点、结合位点、修饰位点等与蛋白质结构 直接有关的注释信息, 对研究蛋白质结构功能关系 和同源蛋白分子模型构建特别有用。 4. 4 其他蛋白质序列数据库 PIR和 SWISS-PROT 是创建最早、使用最为广泛 的两个蛋白质数据库。随着各种模式生物基因组计 划的进展,DNA序列特别是 EST 序列大量进入核酸 序列数据库。蛋白质序列数据库 TrEMBL 是从 EM- BL中的 cDNA 序列翻译得到的。TrEMBL 数据库创 建于1996年[ 39] , 意为Translation of EMBL。该数据库 采用SWISS-PROT 数据库格式,包含 EMBL 数据库中 所有编码序列的翻译。TrEMBL 数据库分两部分: SP-TrEMBL 和 REM-TrEMBL。SP-TrEMBL 中的条目 最终将归并到 SWISS-PROT 数据库中。而 REM- TrEMBL则包括其他剩余序列, 包括免疫球蛋白、T 细胞受体、少于 8个氨基酸残基的小肽、合成序列、 专利序列等。与 TrEMBL 类似, GenPept 是由 Gen- Bank翻译得到的蛋白质序列。由于 TrEMBL 和Gen- Pept均是由核酸序列通过计算机程序翻译生成, 这 两个数据库中的序列错误率较大, 均有较大的冗余 度。 上述几个蛋白质序列数据库可以称为蛋白质序 列一次数据库, 或基本数据库。它们各有特点。 NRL- 3D包含已知空间结构的序列, 但数据量十分 有限; SWISS-PROT 的序列经过严格的审核, 注释完 善,但数据量较小。PIR数据量较大,但包含未经验 证的序列,注释也不完善。TrEMBL 和 GenPept的数 据量最大,且随核酸序列数据库的更新而更新, 但它 们均是由核酸序列翻译得到的序列, 未经实验证实, 也没有详细的注释。将上述数据库整合起来,构建 复合数据库,或二次数据库,则有利于生物学家的使 用。OWL[43]混合蛋白质序列数据库( Composite pro- tein sequences databases, http:PPwww. biochem. ucl. ac. ukPbsmPdbbrowserPOWLPowlcontents. html )和 NRDB[ 44] 就是根据这一原则构建的非冗余蛋白质序列数据 库。这两个数据库均是由 GenPept、PIR、SWISS- PROT、NRL- 3D等数据库复合而成。为使二次序列 数据库中的序列具有较好的代表性, 在构建复合数 据库时,采取了某些序列取舍的,使用了一定的 算法,并增加了与其他数据库的交叉引用,在某些方 面具有一定的优点。 另外, NCBI 在重点发展 GenBank 的同时, 还于 1991年开发出 Entrez: Sequences( http:PPwww3. ncbi. nlm. nih. govPEntrezP)数据库。该库综合了 GenBank、 EMBL、PIR和 SWISS-PROT 等数据库的序列信息和 MEDLINE有关序列的文献信息, 因而是具有 PIR等 数据库所没有的分子序列的文献数据库。它的另一 个特点是对于每一个序列或文献,还给出了类似(或 同源)的序列或相关文献的信息, 因而该库较 Gen- Bank等数据库有更丰富的结构、功能和文献信息。 综上所述,蛋白质序列数据库种类繁多,各有特 色。表 4列出了有关蛋白质数据库的种类和特点。 显然,与核酸序列数据库不同,用户在使用蛋白质序 504 情 报 学 报 21 卷 列数据库时,不能只用其中一个,而必须根据实际情 况进行选择,如有可能,则应该尽量选择几个不同的 数据库,并对结果加以比较。 表 4 蛋白质数据库种类和特点 名称 维护单位 注释 冗余度 数据量 更新 PIR NCBI、JIPID、MIPS 部分完善 较大 较大 较慢 SWISS-PROT EBI、SIB 完善 小 不大 较慢 NRl3D NCBI 完善 小 小 较慢 TrEMBL EBI、SIB 不完善 大 大 快 GenPep NCBI 不完善 大 大 快 NRDB EBI 一般 小 大 较快 OWL HGMP 一般 小 大 较慢 本表列出国际上主要蛋白质数据库的种类和特点。表中各项 指标为相对数据。如 SWISS-PROT 几个月发布一个新版, 每周发布 新增加的数据。 5 生物信息学结构数据库 除了基因组数据库和序列数据库外,生物大分 子三维空间结构数据库则是另一类重要的分子生物 信息数据库。根据分子生物学中心法则, DNA 序列 是遗传信息的携带者, 而蛋白质分子则是主要的生 物大分子功能单元。蛋白质分子的各种功能, 是通 过不同的三维空间结构实现的。因此, 蛋白质空间 结构数据库是生物大分子结构数据库的主要组成部 分。蛋白质结构数据库是随 X 射线晶体衍射分子 结构测定技术的发展而出现的数据库, 其基本内容 为实验测定的蛋白质分子空间结构原子坐标。90 年代以来,越来越多的蛋白质分子结构被测定, 蛋白 质结构分类的研究不断深入,出现了蛋白质家族、折 叠模式、结构域、回环等数据库。表 5列出目前主要 的蛋白质结构数据库和信息资源的网址[ 45] 。 5. 1 蛋白质三维结构数据库 PDB 蛋白质结构数据库 ( Protein Data Bank, 简称 PDB)是美国纽约 Brookhaven国家实验室于 1971年 创建的。为适应结构基因组和生物信息学研究的需 要, 1998年 10月由美国国家科学基金委员会、能源 部和卫生研究院资助, 成立了结构生物学合作研究 协会( Research Collaboratory for Structural Bioinformat- ics,简称 RCSB)。PDB数据库改由 RCSB管理[ 46] ,目 前主要成员为拉特格斯大学( Rutgers University)、圣 地亚哥超级计算中心 ( San Diego Supercomputer Cen- ter,简称 SDSC)和国家标准化研究所( National Inst-i tutes of Standards and Technology,简称NIST)。和核酸 序列数据库一样, 可以通过网络直接向 PDB 数据库 递交数据。 表 5 蛋白质结构数据库资源 名称 网址 内容 PDBSum http:PPwww. biochem. ucl. ac. ukPbsmPpdbsumP PDB 数据库综合信息 SCOP http:PPscop. mrc- lmb. cam. ac. ukPscopP 蛋白质结构分类 CATH http:PPwww. biochem. ucl. ac. ukPbsmPcathP 蛋白质结构分类 TOPS http:PPwww3. ebi. ac. ukPtopsP 蛋白质拓扑结构 ComPASS http:PPwww- cryst. bioc. cam. ac. ukP~ campassP 同源蛋白质结构分类 HomSTRAD http:PPwww- cryst. bioc. cam. ac. ukPdataPalignP 蛋白结构相似性比较 DSMP http:PPsalarjung. embnet. org. inPdsmp. html 蛋白质结构模体 LPFC http:PPwww-smi. stanford. eduPprojectsPhelixPLPFCP 重要蛋白质家族 Culled PDB http:PPwww. fccc. eduPresearchPlabsPdunbrackPculledpdb. html 非冗余蛋白质 IMB http:PPwww. imb- jena. dePIMAGE. html 生物大分子图形 OLDERADO http:PPneon. chem. le. ac. ukPolderadoP 蛋白质结构域 Protein Sidechain http:PPwww. fccc. eduPresearchPlabsPdunbrackPsidechain. html 蛋白质侧链 SPIN-PP http:PPtrantor. bioc. columbia. eduPcg-i binPSPINP 蛋白质互作用 LPC http:PPbioinfo .weizmann. ac. il: 8500Poca-binPlpccsu 配体P蛋白质相互作用 HIC-Up http:PPalpha2. bmc. uu. sePhicupP PDB 中其他化合物 MOOSE http:PPdb2. sdsc. eduPmooseP 蛋白质结构检索服务器 DALI
/
本文档为【生物信息学数据库资源】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索