为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > GO数据库使用指南

GO数据库使用指南

2010-12-08 29页 pdf 1MB 503阅读

用户头像

is_227555

暂无简介

举报
GO数据库使用指南 GOGOGOGO数据库使用指南数据库使用指南数据库使用指南数据库使用指南 VersionVersionVersionVersion No.No.No.No. 2010.09.032010.09.032010.09.032010.09.03 (内部资料 仅供参考) 目 录 目 录 第一部分 GO是什么?············································································································...
GO数据库使用指南
GOGOGOGO数据库使用指南数据库使用指南数据库使用指南数据库使用指南 VersionVersionVersionVersion No.No.No.No. 2010.09.032010.09.032010.09.032010.09.03 (内部资料 仅供参考) 目 录 目 录 第一部分 GO是什么?················································································································ 2 1.1 基因本体论(gene ontology)的建立·················································································2 1.2 本体论(The ontologies)简介····························································································3 1.3 本体论语义之间的关系及其组织结构·········································································· 4 1.3.1 语义之间关系的基本理解··················································································· 4 1.3.2 关系之间的推导··································································································· 5 1.3.3 调节控制关系(the regulates relation)及其推导··················································· 6 1.3.4 本体论的组织结构······························································································· 7 1.4 GO的注释(Annotation)···································································································8 第二部分 GO怎么用?·············································································································· 10 2.1 下载本体论文件和注释文件························································································ 10 2.2 GO语义及其相关注释的浏览与搜索··········································································17 2.2.1 AmiGO的基本使用说明····················································································17 2.2.2 语义关系的图形化描述····················································································· 20 2.2.3 根据语义检索······································································································· 22 2.2.4 根据基因产物检索····························································································· 25 第一部分 GO是什么? - 1 - 第一部分 GOGOGOGO是什么? GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨 在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断 深入而更新的语义词汇。GO是多种生物本体语言中的一种,提供了三层结构的系统定 义方式,用于描述基因产物的功能. 1.11.11.11.1 基因本体论((((genegenegenegene ontologyontologyontologyontology))))的建立 现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。这种情况归结为生物学 上定义混乱的原因,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样。不 光是精确的计算机难以搜寻到这些 随时间和人为多重因素而随机改变的定义,即使是完全 由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你 可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人体中蛋白质合成组分 显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个数据库描述其为“蛋 白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上 相一致的定义。 Gene Ontology就是为了解决上述问题,使各种数据库中基因产物功能描述相一致而发 起的一个项目。这个项目最初是由 1988年对三个模式生物数据库的整合开始:the FlyBase (果 蝇数据库 Drosophila),the Saccharomyces Genome Database (酵母基因组数据库 SGD) 和 the Mouse Genome Informatics (小鼠基因组数据库 MGI)。从那开始,GO不断发展扩大,现在已 是包含数十个动物、植物、微生物的数据库(详见 GO Consortium Page )。 GO开发了具有三级结构的语义词汇标准(Ontologies),根据基因产物的相关生物学途 径、细胞学组件以及分子功能而分别给予定义,与具体物种无关。GO的工作大致可分为三 个部分:第一,给予并维持语义(terms);第二,将位于数据库当中的基因、基因产物与 GO 本体论语言当中的语义(terms)进行关联,形成网络;第三,开发相关工具,使本体论标准语 言的产生和维持更为便捷。 GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高 第一部分 GO是什么? - 2 - 的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举例来说,GO 可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物的 受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产物特性的认识。 1.21.21.21.2 本体论((((TheTheTheThe ontologiesontologiesontologiesontologies))))简介 GO提供了一系列的语义(terms)用来描述基因、基因产物的特性。这些语义分为三种 不同的种类:细胞学组件,用于描述亚细胞结构、位置和大分子复合物,如核仁、端粒和识 别起始的复合物等;分子功能,用于描述基因、基因产物个体的功能,如与碳水化合物结合 或 ATP水解酶活性等;生物学途径,指分子功能的有序组合,达成更广的生物功能,如有 丝分裂或嘌呤代谢等。 基因产物可能分别具有分子生物学上的功能、生物学途径和在细胞中的组件作用。当然, 它们也可能在某一个方面有多种性质。如细胞色素 C,在分子功能上体现为电子传递活性, 在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体质中和线粒体内膜 上。 注:基因产物和其生物功能常常被我们混淆。例如,“乙醇脱氢酶”既可以指放在 Eppendorf试管里的 基因产物,也明了它的功能。但是这之间其实是存在差别的:一个基因产物可以拥有多种分子功能,多 种基因产物也可以行使同一种分子功能。比如还是“乙醇脱氢酶”,其实多种基因产物都具有这种功能,而 并不是所有的这些酶都是由乙醇脱氢酶基因编码的。一个基因产物可以同时具有“乙醇脱氢酶”和“乙醛 歧化酶”两种功能,甚至更多。所以,在 GO中,很重要的一点在于,当使用“乙醇脱氢酶活性”这种术 语时,所指的是功能,并不是基因产物。 下面,将进一步的分别说明 GO的具体定义情况。 细胞组件 即细胞中的位置,指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核或核 糖体,蛋白酶体等)。 分子功能 分子功能描述在分子生物学上的活性,如催化活性或结合活性。GO分子功能用来定义 功能而不是整体分子,而且不特异性地指出这些功能具体的时空信息。分子功能大部分指的 第一部分 GO是什么? - 3 - 是单个基因产物的功能,还有一小部分是此基因产物形成的复合物的功能。定义功能的义项 包括催化活性、转运活性、结合活性等,更为狭窄的定义包括腺苷酸环化酶活性或钟形受体 结合活性等。 生物学途径 生物学途径是由分子功能有序地组成的,具有多个步骤的一个过程。举例来说,较为宽 泛的是细胞生长和维持、信号传导。一些更为具体的例子包括嘧啶代谢或α-配糖基的运输 等。一个生物学途径并不是完全和一条生物学通路相等。因此,GO并不涉及到通路中复杂 的机制和所依赖的因素。 1.31.31.31.3 本体论语义之间的关系及其组织结构 1.3.11.3.11.3.11.3.1 语义之间关系的基本理解 基因本体论组织类似于图,语义作为图的结点,语义之间的关系为图中的边。因此,一 旦产生新的语义,其与其它语义之间的关系也会同时被定义。语义之间的关系有四种:is a、 part of 和 regulates。 关系表示的几点约定 1. “语义”用图论的术语“结点”表示 2. 我们习惯于用父子结点来表示语义之间的关系,其中父结点离根结点较近,表示相 对宽泛的语义,而子结点离叶子结点较近,相对父结点其语义所代表的内容更为具体。 3. 图中的实线表示结点之间的关系 4. 虚线表示推理而并未证明的关系 上述可以用下图表示: A is a B;B is part of C 第一部分 GO是什么? - 4 - 从而可以得出:A is part of C,其形式化表示为:is a·part of → part of GO图具有树的性质,但与其不同的是,GO图中结点不但可能具有多个孩子结点,而 且可能具有多个父亲结点,且与不同的父结点具有不同的关系,如下图所示:线粒体 (mitochondrion)便有两个父亲结点,因为线粒体既是一种细胞器 (organelle),又是细胞质 (cytoplasm)的一部分。同样,细胞器(organelle)也有两个孩子结点,因为线粒体是一种细胞 器(organelle),细胞器膜(organelle membrane)是细胞器的一部分。 1.3.21.3.21.3.21.3.2 关系之间的推导 isisisis aaaa· isisisis aaaa → isisisis aaaa is a 具有传递性,即如果 A is a B,B is a C,那么 A is a C。形式化表示为 is a· is a → is a。如下图:线粒体(mitochondrion)是一种胞内细胞器(intracellular organelle),而胞内细胞 器是一种细胞器官(organelle),从而可以推出:线粒体是一种细胞器官。 partpartpartpart ofofofof·partpartpartpart ofofofof → partpartpartpart ofofofof part of 具有传递性,如果 A is part of B,B is part of C,那么 A is part of C。形式化表示 为 part of·part of → part of。同样如下图所示:线粒体(mitochondrion)是细胞质(cytoplasm) 的一部分,细胞质又是细胞(cell)的一部分,从而可得出:线粒体是细胞的一部分。 第一部分 GO是什么? - 5 - partpartpartpart ofofofof·isisisis aaaa → partpartpartpart ofofofof 与 isisisis aaaa·partpartpartpart ofofofof → partpartpartpart ofofofof 如果关系 is a与 part of 组合,则其关系均为 part of。分别如下图所示: 1.3.31.3.31.3.31.3.3 调节控制关系(the(the(the(the regulatesregulatesregulatesregulates relation)relation)relation)relation)及其推导 基因本体论语义中,如果某一过程直接影响另一过程或值 (quality)的表现形式,我 们称前者调节控制(regulates)后者。被调节的对象可以是一个过程,如生物通路、酶促反应 等,也可以是一个参数值,如细胞大小,pH值等。与 part of 类似,调节控制关系也是充分 非必要的,即:BBBB能且仅能调节控制 AAAA,而 AAAA并非只受 BBBB的调节控制。如下图所示: 例如:一旦 cell cycle checkpoint(细胞周期检查点)出现时,它总是调节控制 cell cycle(细 胞周期),然而细胞周期并不单独受细胞周期检查点调节控制,还受其它过程的调节控制。 线粒体膜 线粒体 胞内细胞器 线粒体 胞内细胞器 细胞 第一部分 GO是什么? - 6 - regulates·is a → regulates 、 is a· regulates → regulates 以及 regulates· part of → regulates 均为正确的推导关系,其示意图分别如下: 截至目前,尚不能确定 part of·regulates → ???、regulates·regulates → ??? 为何种关 系。 1.3.41.3.41.3.41.3.4 本体论的组织结构 GO委员会除了要定义语义(term)以外,还要定义该语义与其它语义之间的关系,使语 义总体构成有一定结构的语义词汇表。 本体论的图形化表示 本体论的结构可以用图表示,其中语义表示为结点,其间的关系表示为结点之间的边。 当然 GO语义之间的关系是单向的,例如:线粒体(mitochondrion)是一个细胞器(organelle), 可以表示为 a mitochondrion is an organelle,但反过来不成立,细胞器不是一个线粒体!在 这种意义上说,本体论的结构更像是有向非循环树,其中离根结点越近的结点越概括,离叶 第一部分 GO是什么? - 7 - 子结点越近的结点越具体,但与有向非循环树不同的是,本体论结构图中的结点可以有两个 及其以上的父结点。例如:生物过程当中的语义已糖合成(hexose biosynthetic process)就有两 个父结点,已糖代谢 (hexose metabolic process)和单糖合成 (monosaccharide biosynthetic process)。其并不难理解,因为已糖(hexose)是一种单糖(monosaccharide),生物合成过程 (biosyntheitc process)也是一种生物代谢过程(metabolic process) 。 本体论中部分语义结构的图形化表示: 1.41.41.41.4 GOGOGOGO的注释((((AnnotationAnnotationAnnotationAnnotation)))) 那么,GO中的术语如何和相对应的基因产物相联系的呢?这是由参与合作的数据库来 完成的,它们使用 GO的定义,对它们所包含的基因产物进行注解,并且提供支持这种 注解的参考和证据。每个基因或基因产物都会有一个列表,列出与之相关的 GO术语。每个 数据库都会给出所有这些基因产物和 GO术语的联系数据库,可以在 GO的站点查询到。 GO对基因和基因产物的注释阐明了基因产物和用于定义他们的 GO术语之间的关系。基因 产物指一个基因编码的 RNA或蛋白产物。因为一个基因可能编码多个具有很不相同性质的 产物,所以 GO推荐的注释是针对基因产物的而不是基因的。一个基因是和所有适用于它的 术语联系在一起的。 一个基因产物可以被一种本体论定义的多种分支或多种水平注释。注释需要反映在正常 情况下此基因产物的功能,生物途径,定位等,而并不包括其在突变或病理状态下的情况。 第一部分 GO是什么? - 8 - GO联合会的各个数据库成员采用手动或自动的方式生成注释,这两种方式共有的原理是: 1. 所有的注释都需要有来源,可以是文字、另一个数据库或是计算机分析结果; 2. 注释必须提供支持这种基因产物和 GO术语之间联系的证据。 第二部分 GO怎么用? - 9 - 第二部分 GOGOGOGO怎么用? 如上所述,GO是分别从三个不同的层面描述基因产物的语义集。基因产物数据库用 GO提供的语义去注释基因产物,并向 GO联合会提供注释文件,阐明了基因产物和用于定 义他们的 GO术语之间的关系。下面将详细介绍如何下载本体论文件、注释文件,以及如何 浏览 GO语义及其相关的注释。 2.12.12.12.1 下载本体论文件和注释文件 如果在研究中用到 GO数据库,你需要下载相关的本体论文件和注释文件,在使用 GO 之前,对于本体论文件和注释文件组织结构的了解尤为重要。 首先,打开浏览器,输入 www.geneontology.org ,进入 GO数据的起始页。 点击“Downloads”便进入 GO数据库相关文件的下载界面,如下图所示: 第二部分 GO怎么用? - 10 - 其中包括:tools工具栏中相关的工具软件、本体论文件、注释文件、数据库文件以及 其它相关的技术支持文件。本文主要介绍本体论文件、注释文件和教学资源文件。 点击“Ontology file downloads”进入如下界面: 如图所示的本体论语义的统计分析:截至 2010年 8月 27日下午 4时 41分,共有 32282 条语义,99.3%已被明确定义。其中描述生物学途径的有 19303条语义,描述细胞组件的有 2750条,描述分子功能的有 8784条。另有 1445为已被废弃的语义,因为随着语义集的不 第二部分 GO怎么用? - 11 - 断更新和发展,有些语义并不能被正确地定义,或者已不能用来描述生物学途径、细胞组件、 分子功能。 如果想要详细地了解本体论语义文件的信息,可以点击“format guide”。这些本体 论语义文件每天都会更新,GO的管理者会加入当天新增的语义及其关系,因此在下载使用 这些文件时一定要注意其版本和更新时间。 点击 Download列的“OBO v1.2”,可以在新打开的窗口中看到如下的文件内容信息: ******************************************************************************* format-version: 1.2 date: 27:08:2010 16:41 saved-by: tanyaberardini auto-generated-by: OBO-Edit 2.0 subsetdef: goslim_candida "Candida GO slim" subsetdef: goslim_generic "Generic GO slim" subsetdef: goslim_goa "GOA and proteome slim" subsetdef: goslim_pir "PIR GO slim" subsetdef: goslim_plant "Plant GO slim" subsetdef: goslim_pombe "Fission yeast GO slim" subsetdef: goslim_yeast "Yeast GO slim" subsetdef: gosubset_prok "Prokaryotic GO subset" subsetdef: unvetted "unvetted" synonymtypedef: systematic_synonym "Systematic synonym" EXACT default-namespace: gene_ontology remark: cvs version: $Revision: 1.1393 $ [Term] id: GO:0000001 name: mitochondrion inheritance namespace: biological_process def: "The distribution of mitochondria, including the mitochondrial genome, into daughter cells after mitosis or meiosis, mediated by interactions between mitochondria and the cytoskeleton." [GOC:mcc, PMID:10873824, PMID:11389764] synonym: "mitochondrial inheritance" EXACT [] is_a: GO:0048308 ! organelle inheritance is_a: GO:0048311 ! mitochondrion distribution [Term] id: GO:0000002 name: mitochondrial genome maintenance namespace: biological_process 第二部分 GO怎么用? - 12 - def: "The maintenance of the structure and integrity of the mitochondrial genome; includes replication and segregation of the mitochondrial chromosome." [GOC:ai, GOC:vw] is_a: GO:0007005 ! mitochondrion organization [Term] id: GO:0000003 name: reproduction namespace: biological_process alt_id: GO:0019952 alt_id: GO:0050876 def: "The production by an organism of new individuals that contain some portion of their genetic material inherited from that organism." [GOC:go_curators, GOC:isa_complete, ISBN:0198506732 "Oxford Dictionary of Biochemistry and Molecular Biology"] subset: goslim_generic subset: goslim_pir subset: goslim_plant subset: gosubset_prok synonym: "reproductive physiological process" EXACT [] xref: Wikipedia:Reproduction is_a: GO:0008150 ! biological_process …… ******************************************************************************* 可以看到,在一段文件格式信息之后,便依次列举了每一个语义(term):首先是语义的 ID号,紧接着是语义的名字,以及所属的范畴。接下来是该语义的定义,在定义最后的方 括号里说明了该定义的来源依据。最后列出了该语义与其它语义之间的关系。 点击 Downloads下的“Annotations”,如下图所示: 第二部分 GO怎么用? - 13 - 便进入到注释文件的介绍与下载界面: 点击“Annotation Details and Downloads”下面的“Filtered files”: 第二部分 GO怎么用? - 14 - 可以看到,这里列举了所有物种或数据库用 GO语义的注释情况,统计时间为 2010年 8月 28日。其中第一列为物种或数据库的名字,第二列为用 GO语义注释的基因产物数目, 第三列为注释的条目数,第四列为提交的时间,第五列为该物种或数据库注释文件的下载链 接。 仔细观察,不难得出:不同物种或数据库,其中用 GO语义注释的基因产物数目相差甚 远!例如: Anaplasma phagocytophilum HZ JCVI 的数目为 1289,而 Agrobacterium tumefaciensstr.C58 PAMGO的数目为 83。 这些差别之所以存在,不光是因为不同物种或数 据库本身所包含的基因产物数量不同,还与该数据库的注释水平有关,像酵母基因组几乎全 部被 GO语义注释,而斑马鱼基因组的注释工作还处于刚起始的阶段。 第二部分 GO怎么用? - 15 - 如图,在 GO的下载页面点击“Teaching resources”,进入关于 GO的教学文件的下载 页面: 该页面提供了关于 GO如何使用的一些演示文件以及相关的说明文档,具体为 GO联合 会的工作人员针对不同的情况,对 GO项目进行的介绍与讲解,其中有的讲解时间过早,已 与目前的 GO项目有所出入,参考时请注意检查时期,并以 GO项目当前网站信息为准。 第二部分 GO怎么用? - 16 - 2.22.22.22.2 GOGOGOGO语义及其相关注释的浏览与搜索 本节介绍如何使用由 GO联合会开发的 AmiGO浏览器搜索本体论语义及与其相关的注 释。 2.2.12.2.12.2.12.2.1 AmiGOAmiGOAmiGOAmiGO的基本使用说明 打开浏览器输入 amigo.geneontology.org ,如下所示: 点击“Borwse”,进入如下所示页面: 如上图所示,本体论语义可以归为三个独立的部分: biological_process、 cellular_component、molecular_function。语义之间有类似树的组织结构,点击每行前面的□+ 便展开包含于该项的所有语义,同时□+ 变为□- ,再次点击□- ,展开的项目收缩回原状。每一 条语义单独地占据一行,每行□+ /□- 后面的标志表示该语义与其父结点之间的关系,其中 表 示关系 is a, 表示关系 part of , 表示关系 regulates。 第二部分 GO怎么用? - 17 - 点击任一语义的名字,能够在新窗口中显示该语义详细的信息,包括其定义及用其注释 的基因产物的链接。例如:点击 carbohydrate utilization, 如图所示,为语义 carbohydrate utilization的详细信息,如果想知道用其注释的基因产物, 点击图中的“4 gene product associations”便得到如下所有用该语义注释过的基因产物: 第二部分 GO怎么用? - 18 - 除此之外,也可以直接点击任一语义最后面方括号里面的内容,其也说明了用该语义注 释的基因产物总数目。如下图所示: 某些语义后有标志 ,如上图所示,点击后便得到该语义所包含的所有子语义各自所占 的比例(注释的基因产物数目),如点击 all:all 后面的 : 第二部分 GO怎么用? - 19 - 2.2.22.2.22.2.22.2.2 语义关系的图形化描述 依次展开 biological process -> biological regulation -> regulation of biological process 点击 regulation of anti-apoptosis,便得到该语义的详细信息,其中 Term Lineage显示了 该语义与其它语义之间的关系,树形显示如下: 第二部分 GO怎么用? - 20 - 点击右边栏中的 Graphical View,便得到该关系的图形显示: 第二部分 GO怎么用? - 21 - 2.2.32.2.32.2.32.2.3 根据语义检索 在 AmiGO的浏览界面,在搜索栏输入想要搜索的语义,如 cytokine secretion,点击提 交按钮。 第二部分 GO怎么用? - 22 - 搜索到 8个语义,语义右边是用该语义注释的基因产物,如点击“167 gene products”, 便依次列出所有用语义 cytokine secretion注释的基因产物。 第二部分 GO怎么用? - 23 - 返回搜索结果页面,点击“cytokine secretion”,打开语义“cytokine secretion”的详细 信息页面: 点击“167 gene product associations”,也能在新窗口中依次列出用该语义注释的所有基 因产物,如下所示: 第二部分 GO怎么用? - 24 - 注意到红色框里的过滤器,在这里可以通过基因产物的类型、来源、所在物种等条件对 现存的基因产物进行过滤,从而更精确地搜索基因产物,提高研究结果的精确性。同时,在 “View associations”当中选择“Direct associations”,则结果为直接用该语义注释的所有基 因产物。 2.2.42.2.42.2.42.2.4 根据基因产物检索 在 AmiGO的首页,可以通过选择按钮选择所要搜索的是语义还是基因产物,如下所示, 选择“gene or proteins”,然后在搜索框中输入“grim”,点击提交按钮。 第二部分 GO怎么用? - 25 - 如图依次列出了所有与“grim”有关联的基因产物,以第一行为例,“grim”为该基因 产物的名字,名字右边“13 associations”为该基因注释的语义条目数,点击“grim”,在新 窗口中显示“grim”的详细信息,点击“13 associations”则在新窗口中依次列出用来注释该 基因产物的所有语义条目,分别如下图所示: 第二部分 GO怎么用? - 26 - 如上图所示,有的语义条目用 标注,如“nurse cell apoptosis”,其说明根据实验数 据,该基因产物并不在“nurse cell apoptosis”过程中起明显作用,因而该基因产物用该语义 注释只是研究者的一种推测与期望,此推测的根据是该基因产物与那些在“nurse cell apoptosis”起明显作用的基因产物有着非常相似的序列结构。 如果你想要搜索的基因产物不存在,你可以联系 GO联合会申请对该基因产物的注释。 首先点击“GO helpdesk”,如下图所示: 在下面的表格中填入相应的内容,其中 subject选为 annotation,并确定在 Comment or query栏中填入如下与基因产物相关的信息: Gene ID [from MOD, EntrezGene or UnitProt] Gene Symbol or Name 第二部分 GO怎么用? - 27 - Publication [PubMed ID] with experimental data Suggestions [GO:ID and/or GO term] for GO annotation Thank you. 最后,点击“Send message”按钮。
/
本文档为【GO数据库使用指南】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索