null真核生物核基因组中的重复DNA序列真核生物核基因组中的重复DNA序列两种类型的重复性DNA:
散布重复DNA
串联重复DNAnull(1)分散重复序列 绝大多数中度重复DNA一般分散在整个基因组中,因此又称散布重复DNA(dispersed repetitive DNA)。散布重复DNA分为两类:短散布元件(short interspersed elements, SINEs)和长散布元件(long interspersed elements, LINES)。 SINES的长度为150-300 bp;LINES的长度为5 000-7 000 bp。nullnull(2)串联基因簇 中度重复序列还包括几种串联基因簇(Tandem gene clusters)。基因簇是由一组相同或相关的基因串联在一起形成的。rDNA就是其中的一例。它是编码18S、5.8S和28S rRNA的基因。人类的rRNA基因呈簇排列,一个rRNA基因簇(rDNA簇)含有许多转录单位。在一个转录单位中编码18S、5.8S和28S rRNA的序列被称为转录间隔区的非编码序列隔开。转录单位之间为不转录的间隔区。人类的rRNA基因位于13,14,15,21和22号染色体的核仁组织区,每个核仁组织区平均含有50个rRNA基因的重复单位。null基因组学 基因组学 基因组学 基因组学 1 基因组学概述
2 基因组图谱的构建
3 基因组测序
4 功能基因组学1 基因组学概述1 基因组学概述基因组(genome),又称染色体组
一个物种单倍体的染色体数目,物种全部遗传信息的总和
物种遗传信息的“总词典”
控制发育的“总程序”
生物进化历史的“总档案”基因组学(genomics)基因组学(genomics)1986年提出,至今20年,已经发展成为遗传学中最重要的分支学科。
对物种的所有基因进行定位、作图、测序和功能
基因组学研究的最终目标基因组学研究的最终目标 获得生物体全部基因组序列
鉴定所有基因的功能
明确基因之间的相互作用关系
阐明基因组的进化规律 经典遗传学经典遗传学 在20世纪初,遗传学刚刚诞生的时候,遗传学家的工作主要是鉴别感兴趣的基因,确定这些基因在染色体上的位置。
第一个环节:寻找自发突变体,或者利用物理、化学因素诱发突变。
第二个环节:通过连锁分析确定新基因与已知基因的相互关系,绘制遗传连锁图。几个代表物种的基因组大小几个代表物种的基因组大小基因组学的研究内容基因组学的研究内容 结构基因组学
功能基因组学
蛋白质组学结构基因组学(structural genomics)结构基因组学(structural genomics) 基因定位
基因组作图
测定核苷酸序列功能基因组学(functional genomics)功能基因组学(functional genomics) 又称后基因组学(postgenomics)
基因的识别、鉴定、克隆
基因结构、功能及其相互关系
基因表达调控的研究蛋白质组学(proteomics)蛋白质组学(proteomics)鉴定蛋白质的产生过程、结构、功能和相互作用方式人类基因组
人类基因组计划1990,美国国立卫生研究所和能源部投资$30亿,启动了人类基因组计划,预计15年时间完成人类基因组全部序列的测定
1996,完成标记密度为0.6cM的人类基因组遗传图谱,100kb的物理图谱
2000,完成草图
2001年2月,公布人类基因组图谱的修订版
2002,完成测序工作§2 基因组图谱的构建§2 基因组图谱的构建基因组计划的主要任务是获得全基因组序列
但是,现在的测序方法每次只能测800~1000bp
大量的测序片段要拼接
要知道序列在Chr上的位置才能正确拼接
基因组计划的第一个环节:构建基因组图谱基因组图谱基因组图谱遗传图谱(genetic map)
物理图谱(physical map)
遗传图谱(genetic map)遗传图谱(genetic map) 采用遗传分析的方法将基因或其它
DNA序列标定在染色体上构建连锁图。遗传标记遗传标记有可以识别的标记,才能确定目标的方位及彼此之间的相对位置。
构建遗传图谱就是寻找基因组不同位置上的特征标记。
包括:
形态标记
细胞学标记
生化标记
DNA分子标记多态性(polymophism)多态性(polymophism)所有的标记都必须具有多态性!
花色:白色、红色
株高:高、矮
血型:A、B、O型
淀粉:糯、非糯
所有多态性都是基因突变的结果!形态标记形态标记形态性状:株高、颜色、白化症等
又称表型标记
数量少
很多突变是致死的
受环境、生育期等因素的影响null 最早建立的果蝇连锁图,就是利用控制果蝇眼睛的形状、颜色,躯体的颜色、翅膀的形状等形态性状作为标记,分析它们连锁关系及遗传距离,绘制而成的。
控制性状的其实是基因,所以形态标记实质上就是基因标记。果蝇连锁图果蝇连锁图细胞学标记细胞学标记明确显示遗传多态性的染色体结构特征和数量特征
染色体的核型
染色体的带型
染色体的结构变异
染色体的数目变异
优点:不受环境影响
缺点:数量少、费力、费时、对生物体的生长发育不利生化标记生化标记 又称蛋白质标记
就是利用蛋白质的多态性作为遗传标记。
如:同工酶、贮藏蛋白
优点:数量较多,受环境影响小
缺点:受发育时间的影响、有组织特异性、只反映基因编码区的信息DNA分子标记DNA分子标记简称分子标记
以DNA序列的多态性作为遗传标记
优点:
不受时间和环境的限制
遍布整个基因组,数量无限
不影响性状表达
自然存在的变异丰富,多态性好
共显性,能鉴别纯合体和杂合体限制性片段长度多态性
(restriction fragment length polymorphism,RFLP)限制性片段长度多态性
(restriction fragment length polymorphism,RFLP) DNA序列能或不能被某一酶酶切,相当于一对等位基因的差异。
如有两个DNA分子(一对染色体),一个具有某一种酶的酶切位点,而另一个没有这个位点,酶切后形成的DNA片段长度就有差异,即多态性。
可将RFLP作为标记,定位在基因组中某一位置上。
人类基因组中有105个RFLP位点,每一位点只有两个等位基因。RFLP分析RFLP分析RFLP标记位共显性标记RFLP标记位共显性标记微卫星(microsatellite)标记微卫星(microsatellite)标记微卫星又称为简单重复序列(simple sequence repeat,SSR)。
这种重复序列的重复单位很短,常常只有2个、3个或4个核苷酸
如一条染色体TCTGAGAGAGACGC
另一染色体TCTGAGAGAGAGAGAGAGACGC,就构成了多态性。遗传图谱的构建方法 遗传图谱的构建方法 理论基础: 连锁与交换
基本方法: 两点测验法和三点测验法植物遗传图谱的构建植物遗传图谱的构建选择亲本:
①. 选择亲本: 要求亲缘关系远,遗传差异性大, 亲本间分子标记具 有多态性。构建作图群体 ②. 产生构图群体:
配制杂交组合,建立分离群体:
单交组合产生的F2;
衍生的F3 F4家系 ;
由连续多代自交或姊妹交产生的 重组近交系 (recombinantinbred Lines,RIL) Lines,RIL);
通过单倍体加倍而成的双倍体(doubled haploids,DH);
利用回交或三交(复交)产生的后代群体。由单倍体加倍获得的双单倍体即为DH系,也称DH群体、重组自交系群体 构建作图群体 null ③. 遗传标记的染色体定位:
有单体、三体、代换系与附加系分析等方法,依据体剂量的差异→ 将遗传标记定位在特定染色体上。即当 供体材料总DNA等量时,DNA杂交带的信号强弱与该标记 位于的染色体剂量成正比。常用的方法:
单体分析
三体分析
代换系分析
附加系分析null④. 标记间的连锁分析:
标记间的连锁分析: 通过分析分离群体内双亲间有多态性的遗传标记间的连 锁交换情况和趋于协同分离的程度 →即可确定标记间的 连锁关系和遗传距离。
有计算机软件可以应用
水稻的基因组水稻的基因组 2002年我国科学家完成了水稻基因组定序和初步分析。出人意表的是,水稻的基因竟比人类基因还要多得多。人类基因大约有3-4万个,水稻有46022-55615个基因。因此水稻基因组可说是继人类基因组之后,完成定序的最大基因组,也是至今已知最大的植物基因组。由于水稻是全球半数以上人口的主食,对解决全球粮食问题具有重要意义。水稻遗传图水稻遗传图 1994年,水稻第一张高密度遗传图谱
927个位点, 1383个标记
1998年,1157个位点,2275个标记
2000年,3267个标记
高密度的遗传图谱为基因组测序和遗传研究奠定了坚实的基础。人类遗传图谱的构建人类遗传图谱的构建 不可能根据需要选择亲本,
杂交组合,构建分离群体!
只能检测现存家庭连续几代成员的基因型
家系分析法
资料有限、必须借助于统计学方法
现有的人类遗传图谱现有的人类遗传图谱 1~22号染色体
8个家系134个成员
X染色体,12个家系170个成员
5364个SSR标记
2335个位点
标记间的平均距离599kb人类基因组测序结果人类基因组测序结果基因数是3万、4万还是10万
人类遗传基因数量比原先估计的少很多。目前研究表明,人类基因组中约有3万至4万个蛋白编码基因,仅仅是果蝇基因数目的两倍,人有而鼠没有的基因只有300个。此结论是由两大科研小组的数据是从DNA水平上得出的;而“人类有10万多个基因”则是从RNA水平上得出的结论。所以,这些数据不能推翻“人类有10万个基因”的说法。人类基因组研究的惊人发现人类基因组研究的惊人发现• 19号染色体是含基因最丰富的染色体,而13号染色体含基因量最少
•目前已经发现和定位了26000多个功能基因,其中尚有42%的基因尚不知道功能
•人类基因组中存在“热点”和大片“荒漠”。在染色体上有基因成簇密集分布的区域,也有大片的区域只有“无用DNA” ——不包含或含有极少基因的成分。基因组上大约有1/4的区域没有基因的片段。
• 35.3%的基因包含重复的序列。这说明那些原来被认为是“垃圾”的DNA也起重要作用,应该被进一步研究。物理图谱的构建物理图谱的构建 用分子生物学方法直接检测DNA标记在染色体上的实际位置绘制成的图谱称为物理图谱。
有遗传图谱为什么还要构建物理图谱? 遗传图谱的缺陷遗传图谱的缺陷 分辩率有限
人类只能研究少数减数分裂事件,不能获得大量子代个体
测序要求每个标记的间隔小于100kb
实际是599kb遗传图谱的缺陷遗传图谱的缺陷精确性不够
经典遗传学认为,交换是随机发生的
基因组中有些区域是重组热点
倒位、重复等染色体结构变异会限制交换重组酵母遗传图与物理图比较酵母遗传图与物理图比较A 遗传图
B 物理图物理图谱的构建: 构建物理图谱的原因:
1. 遗传图谱的分辩率有限:
⑴. 遗传图谱的分辩率有限:
⑵. 遗传图谱的精确性不高。物理作图的方法物理作图的方法1、限制酶作图
2、依靠克隆的基因组作图
3、荧光原位杂交
4、序列标签位点作图限制酶作图(restriction mapping)限制酶作图(restriction mapping)⑴. 限制性酶图谱:
利用限制性内切酶绘制图谱,对于DNA分子长度<50Kb的片段,一般 没有什么困难。
而对于>50Kb的DNA分子 ,可选用稀有切点内切酶酶 DNA。 限制酶作图(restriction mapping)限制酶作图(restriction mapping)(2).荧光原位杂交
(fluorescent in situ hybridization,FISH)(2).荧光原位杂交
(fluorescent in situ hybridization,FISH)是另一物理图谱构建方法: 通过荧光标记的探针与DNA分子 杂交,使染色体上的杂交信号 (位置就是探针DNA在染色体 上的图谱位点)在显微镜下可直接观察。null 荧光原位杂交是在20世纪80年代末在放射性原位杂交技术的基础上发展的一种非放射性分子细胞遗传技术,以荧光标记取代同位素标记而形成的一种方法,探针首先与某种介导分子(reporter molecule)结合,杂交后再通过免疫细胞化学过程连接上荧光染料.
FISH的基本原理是将DNA(或RNA)探针用特殊的核苷酸分子标记,然后将探针直接杂交到染色体或DNA纤维切片上,再用与荧光素分子偶联的单克隆抗体与探针分子特异性结合来检测DNA序列在染色体或DNA纤维切片上的定性、定位、相对定量分析.FISH具有安全、快速、灵敏度高、探针能长期保存、能同时显示多种颜色等优点,不但能显示中期分裂相,还能显示于间期核.同时在荧光原位杂交基础上又发展了多彩色荧光原位杂交技术和染色质纤维荧光原位杂交技术.。荧光原位杂交(fluorescent in situ hybridization,FISH)荧光原位杂交(fluorescent in situ hybridization,FISH)荧光原位杂交
(fluorescent in situ hybridization,FISH)荧光原位杂交
(fluorescent in situ hybridization,FISH)⑶.序列标签位点: ⑶.序列标签位点: 利用某一已知序列为标签的位点 (sequence tagged sites, STS)作探针,与基因组DNA杂交,绘制物理图谱。人类基因组物理图人类基因组物理图 1987年,RFLP图谱,403个标记,10Mb
1994年,5800个标记,0.7Mb
1996年,17000多个标记,100kb
完全适应全基因组测序的要求null人类基因组序列开始测定时,已有45万个EST,其中 有一些重复序列,经计算机分析筛选后得到49625 个 ,各 代表一个基因。再从中筛选出3万个EST 、二个辐射杂交系 库(分别有83和93个细胞株)、一个有32000个克隆的YAC 文库用于构建图谱。
结果构建的物理图谱的密度为每个标记183kb,EST分布结 果表明,基因在染色体上的排列是不均匀的。
将上述遗传图谱及其它物理图谱 整合 ,构成更加完整的人类 其因组图谱,作为基因组序列测定的框架和分析的依据。遗传图与物理图的整合遗传图与物理图的整合有些标记既是遗传标记,又是物理标记
RFLP标记 SSR标记 某些基因序列
借助这些标记可以将遗传图和物理图整合起来3.基因组测序策略3.基因组测序策略有了高密度的基因组图谱,就可以开始全基因组测序了
测序的技术飞速发展,现在可以全自动化
测序的策略有两个:
鸟枪法
克隆重叠群法鸟枪法(Shotgun)测序鸟枪法(Shotgun)测序鸟枪法战略(Shotgun Strategy)又称随机测序战略,主要针对大片段的全长测序。此策略是将基因组DNA用机械方法随机打断成小片段,并连入合适的载体构建亚克隆文库,从中随机挑取克隆测序,再通过生物信息学方法对测得的序列进行拼接组装以获得大片段DNA的序列。
构建不同插入片段大小的Shotgun文库(1.5~3 Kb、4~6 Kb、6~8 Kb等),可减少因基因组中的重复序列造成的错误拼装,提供更多Contigs之间的关联信息。Shotgun策略已广泛应用于包括基因组、叶绿体、线粒体、野生质粒、噬菌体、病毒以及Fosmid/Cosmid/BAC克隆等的全长测序。鸟枪法(shotgun sequencing)鸟枪法(shotgun sequencing)鸟枪法的优缺点鸟枪法的优缺点优点:
不需要高密度的图谱
速度快、简单、成本低
缺点:
拼接组装困难,尤其在重复序列多的区域
主要用于重复序列少、相对简单的原核生物基因组
克隆重叠群法(clone contig)克隆重叠群法(clone contig) 将基因组DNA切割长度为0.1Mb-1Mb的大片段,克隆到YAC或BAC载体上
然后再进行亚克隆,分别测定单个亚克隆的序列
再装配、连接成连续的DNA分子。
这是一种自上而下(up to down)的测序策略
clone-by-clone method两种基因组测序策略两种基因组测序策略The E.coli genomeThe E.coli genomeA portion of the E.coli chromosome showing genes and operons.
A dot indicates the promoter for each gene or operon. Arrows and color indicate the direction of transcribtion: dark blue genes are transcribed left to right, light blue are transcribed right to left.Overlapping gene are shown in green.A portion of the E.coli chromosome showing genes and operons.
A dot indicates the promoter for each gene or operon. Arrows and color indicate the direction of transcribtion: dark blue genes are transcribed left to right, light blue are transcribed right to left.Overlapping gene are shown in green.4.功能基因组学4.功能基因组学 完成基因组测序,仅仅是基因组计划的第一步,更重要的工作在于弄清楚:
①基因组序列中所包含的全部遗传信息是什么;
②基因组作为一个整体如何行使功能。
就是对基因组序列进行诠释的过程,也就是功能基因组学的研究内容。 根据序列分析搜寻基因 根据序列分析搜寻基因 查找开放阅读框(open reading frame, ORF)
开放阅读框都有一个起始密码子,ATG,还要有终止密码子。
从ATG开始,然后向下游寻找终止密码子。
起始密码子和终止密码子之间的碱基数目要能够被3整除
每一条链都有3种可能的阅读框,2条连共计有6种可能的阅读框.
计算机可以很快给出结果。同源查询同源查询 利用已经存入数据库的基因序列与待查的基因组序列比对,从中查找可以与之匹配的碱基序列及其比例,用于界定基因。
同源查询可以部分弥补ORF扫描的不足。
同源查询的依据同源查询的依据 有亲缘关系的物种,基因组可能存在某种程度的相似性:
存在某些完全相同的序列;
ORF的排列相似,如等长的外显子;
ORF指令的氨基酸序列相似;
模拟的多肽链的高级结构相似,等。
基因功能研究 基因功能研究 1、计算机预测基因功能
依据仍然是同源性比较。同源基因拥有一个共同的祖先基因,它们之间有许多相似的序列。
种间同源基因
种内同源基因 基因功能研究基因功能研究实验确认基因功能
基因克隆
基因敲除(knock-out)
基因的超表达
反义RNA技术
RNAi
转座子插入突变