null第二章 基因组
Chapter 2 Genome第二章 基因组
Chapter 2 Genomenull基因组和蛋白质组是整体概念
基因组 全套遗传信息
蛋白质组 全套蛋白质 第一节 基因组概论
Genome outline第一节 基因组概论
Genome outlinenull基因(gene)
是含有生物信息的DNA功能片段,根据这些生物信息可以编码具有生物功能的产物,包括RNA和蛋白质(多数).
基因具有编码序列和非编码序列
nullnullnullnull 基因或组成部分发生异常的疾病称为基因病
三大类:
单基因病 单个基因突变引起
多基因病 多个基因突变综合作用引起
获得性基因病 外源性基因入侵引起null
基因组 仅指所有基因(转录单位)?? 一、基因组、基因组
和基因组学一、基因组、基因组计划和基因组学1、基因组(genome,
GENes + chromosOMEs):
指细胞或生物体一套完整的遗传物质,包括所有基因和基因间的区域(序列)。
null 真核生物基因组
(DNA)
核基因组(染色体DNA): 细胞器基因组(染色体外
DNA):
单倍体细胞(精、卵子) 线粒体或叶绿体中
细胞核中所有DNA分子 。 所有DNA分子。
二倍体细胞(体细胞)
细胞核中一套染色体上
的DNA分子。
nullnull 人类基因组(DNA)
核基因组(染色体DNA): 线粒体基因组:
单倍体细胞(精子或卵子) 线粒体中所有DNA
细胞核所有DNA分子
二倍体细胞核24条染色体
所有DNA分子,序列全长
3.3X109(约30多亿)碱基对null人的23对染色体nullnull 原核生物基因组
(DNA)
“染色体”全部DNA “染色体”外DNA
(质粒DNA) null
病毒基因组:全部DNA或RNA序列nullnull每一种生物及其个体都有特定的基因组,携带构成和维持该生物体生命现象及其特征的所有遗传信息,是物种及其个体之间区别和联系的本质生物学特性。null2、基因组计划:
以获得某物种基因组全序列(DNA或RNA全序列)为目标的科学计划。
null2000 年3 月用“全基因组鸟枪法”获得果蝇全基因组序列。
null3、基因组学(genomics)
以基因组为研究对象的一门学科,包括基因组作图、基因组测序、基因定位、基因功能分析等内容。
分类:
结构基因组学(structural genomics)
目标是全基因组测序。
功能基因组学(functional genomics)
目标是基因功能的系统分析。 三个概念比较三个概念比较基因组是遗传物质的整体概念。
基因组计划是全序列测定的科学实施计划。
基因组学是研究基因组结构和功能的一门学科。二、基因组大小与C值矛盾二、基因组大小与C值矛盾基因组、基因、核酸片段大小表示法:
1、 碱基(对)数目
单链核酸:碱基数 nucleotide, nt
双链核酸:
碱基对 base pair, bp
千碱基对 kilobase pair, Kb
兆碱基对 megabase pair, Mb
1Mb=1000Kb=1000000bp
null2、C值(C value)
C值 基因组DNA全部碱基(对)数。C值是物种的一个重要特性常数。
乙肝病毒基因组C值 3200bp或3.2Kb。
痘病毒基因组C值 300000bp或300Kb。
人类基因组C值 3.3X109 bp(约30多
亿碱基对)。null几种代表性生物基因组大小 nullC值(C-value):单倍体基因组中的全部DNA量(bp) null生物界C值大小规律:
病毒 细菌 真菌 高等真核生物
进化程度递增, C值递增
null 在高等生物中,存在C值与功能复杂程度不完全成比例的现象。
C值矛盾(C value paradox, C值悖论):生物体的进化程度与基因组大小( C值)之间不完全成比例的现象。null C值矛盾原因:?值得关注
推测与高等真核生物基因组有大量基因间的非编码序列如重复序列和内含子序列有关。
非编码序列多少,对基因组大小C值影响很大,而对功能的影响不大,或功能并不一定有明显变化。三、基因组的功能单位—基因三、基因组的功能单位—基因基因(gene)
是DNA(或RNA)的功能片段,编码有功能的蛋白质多肽链或RNA的核酸序列
基因的表达产物有的是RNA,有的是蛋白质(多数)(一)基因组与基因的关系(一)基因组与基因的关系位置关系:基因镶嵌在基因组核酸序列中,是基因组中的片段,因此是局部和整体的关系。
null功能关系:基因序列及其调控序列组成了基因组的遗传功能单位--转录单位(transcription unit)。(二)基因大小(二)基因大小影响基因大小的因素
1、进化程度
与基因组一样,大小基本上与进化程度一致。
低等生物 高等生物
基因 较小 较大
蛋白质 <500氨基酸 >500氨基酸
nullN值矛盾(N value paradox, N值悖论):基因组中的基因数目与生物进化程度或复杂程度的不对称性,称为N值矛盾。null2、内含子序列有无、大小和数量
内含子(intron):基因中的非编码序列。
外显子(exon):基因中的编码序列,被内含子间隔。
断裂基因(split gene):真核生物的结构基因,由若干个编码区和非编码区相间隔但又连续镶嵌而成,为一连续的氨基酸组成的完整的蛋白质编码,或为具有特殊功能的tRNA或rRNA编码,因此称为断裂基因。 。null
1、基因总数
生物体的复杂程度与基因组中基因数目成正相关,但也不完全成比例。
基因组 基因数
水稻 4.3亿bp 5万
人类 30多亿bp 3万
提示:功能的复杂不仅与基因数有关,还与基因功能、基因表达产物的加工和功能、分子间相互作用有关。这些基因后的功能往往不能由基因得到反映。 (三)基因总数与必需基因 null基因总数推算方法
1)基因总数=
基因组大小/(平均基因大小+平均间隔区大小)
酵母基因数=1.3×107bp/(1.4Kb+0.6Kb)=6500个
2)从DNA序列搜寻出开放读码框来估算基因数 。
开放读码框架(open reading frame, ORF)
从起始密码子到终止密码子。 null2、必需基因(致死基因):
必需基因 关系到生物体存活的基因。可通过基因突变实验确定必需基因。
大肠杆菌 1800(42%)
果蝇 3100(26%)
酵母 3600(60%)
提示:有相当一部分基因对生物体的存活没有影响。原因之一可能是冗余(也即多拷贝)基因的存在。null习题:
1、基因、基因组和基因组学的概念。
2、什么是C值矛盾? C值矛盾提示了什么?
3、什么是N值矛盾? 第二节 原核生物基因组
Prokaryote genome 第二节 原核生物基因组
Prokaryote genomeEscherichia coli. Scanning electron micrograph of E.coli(×14,000)基因图谱nullProkaryote
细菌、支原体、立克次体、衣原体、螺旋体、放线菌等真核和原核细胞的结构真核和原核细胞的结构 原核生物染色体基因组结构的特点 原核生物染色体基因组结构的特点1. 形成类核(nucleoid):
由环状双链 DNA 分子组成细菌的染色体,并相对聚集在一起,形成一个较为致密的区域-类核
类核无核膜与胞浆分开,类核的中央部分由RNA和支架蛋白组成,外围是双链闭环的DNA超螺旋null
大肠杆菌类核结构模型:花瓣状结构
中央部分(20%):RNA和支架蛋白(核心蛋白,主要HU)组成。核心蛋白有帮助DNA盘曲包装、启动DNA复制的功能。
外围部分(80%):dsDNA超螺旋结构扭结成约100个DNA环,每个环是一个独立的功能区,常与质膜结合。 null超螺旋
DNA环核心蛋白松弛DNA环null2. 染色体DNA通常与细胞膜相连:
连接点的数量随细菌生长状况和不
同的生活周期而异
在 DNA链上,与 DNA 复制、转录
有关的信号区域与细胞膜优先结合nullnull3. 具有操纵子结构:乳糖操纵子 lac operonß-galactosidase半乳糖苷酶 zß-galactoside permease透酶 y ß-galactoside transacetylase 半乳糖苷乙酰转移酶 a null
结构基因为多顺反子,若干个功能相关
的结构基因串联在一起,受同一个调节
区的调节
数个操纵子还可以由一个共同的调节基
因( regulatory gene )即调节子(regulon)所调控null结构基因大都是单拷贝
除rRNA基因及tRNA基因外,原核生物的结构基因大都是单拷贝;基因组DNA中非编码区所占比例比真核细胞基因组少得多,非编码区内主要是一些调控序列 nullnull5. 不出现基因重叠现象:
基因组中,编码顺序一般不会重叠.
重叠基因:是指两个或两个以上的基因共有一段DNA序列,或是指一段DNA序列为两个或两个以上基因的组成部分。 6、重复序列很少,重复片段为转座子null噬菌体 X174基因图null7.DNA分子中具有各种功能的识别区域
如:复制起始区(OriC)
复制终止区(TerC)
转录启动区
转录终止区
这些区域往往具有特殊的顺序,并且含有反向重复顺序nullE.coli的DNA复制起始点OriCnull 基因或操纵子终末的特殊顺序
可使转录终止、RNA聚合酶从DNA链上脱落
终止子有强、弱之分
强终止子含有反向重复顺序,可形成茎环结构,其后面为 polyT (信息链)结构,无需终止蛋白参与即可使转录终止
弱终止子也有反向重复序列,但无 polyT 结构,需要有终止蛋白参与才能使转录终止nullnull8.有编码同工酶的同基因(isogene)分支酸别构酶 ilvBN acetolactate synthase I
ilvIH acetolactate synthase III 乙酰乳酸合酶 entC isochorismate synthase
entB isochorismatasenull9.不同的原核生物基因组的GC含量 (GC content)变化很大(25%-75%)支原体二、质粒 Plasmid二、质粒 Plasmid概念:
质粒(广义)是一类独立于染色体外的、能自主复制的核酸分子(DNA或RNA)。
质粒(狭义)是存在于细菌“染色体”外的小型环状双链DNA分子。
null Plasmids are small circular DNA molecules that are found inside some prokaryotic cells.null大肠杆菌质粒
null细菌质粒核酸:多数是环状双链DNA(dsDNA)、共价闭合环状DNA (cccDNA)。
细菌质粒结构的三种状态
超螺旋环状双链DNA(多数)
带缺口的环状DNA
线性DNA
质粒DNA大小:1kb—200kb
细菌基因组DNA大小:1,000kb以上
(一)质粒的结构null
致育质粒(fertility plasmid、F质粒)编码性菌毛,介导细菌之间的接合传递;
耐药性质粒(resistance plasmid、R质粒) 编码细菌对抗菌药物或重金属盐类的耐药性;
毒力质粒(Vi质粒)编码与该菌致病性有关的毒力因子;
细菌素质粒 编码细菌产生细菌素;
代谢质粒 编码产生相关的代谢酶。 (二)质粒的分类 (三)质粒的复制 (三)质粒的复制质粒能够独立于细胞的染色质DNA而进行复制;
质粒的一个复制单位称为一个复制子,包括DNA复制起点及其相关的调控元件;
质粒的复制由复制子和调节因子的相互作用启动。null 严紧控制型(stringent contrd type)
拷贝数少,一般<10个,分子量大;
调节因子是蛋白质,复制受限,受染色体DNA复制系统的控制;
严谨控制机理(低拷贝原因),认为是该质粒可以产生阻遏蛋白,反馈抑制自身DNA合成。
松弛控制型(relaxed control type)
拷贝数多,10-200个,分子量小;
调节因子是RNA,复制不受染色体DNA复制系统限制
基因工程使用松弛型(高拷贝数) 质粒,以获得较多的基因产物。null(1).复制调控系统: 控制质粒的拷贝数 复制起始点(ori)
Rep基因: Rep蛋白结合于ori,
促进复制,过量可抑制复制
Cop基因: 抑制复制(2).分配系统: 使质粒在细菌分裂时精确分配到子细
胞中.(3).细胞分裂抑制系统:
控制细胞分裂,使细胞分裂与质粒复制协调(4).位点特异重组系统:
控制高拷贝质粒在菌体内易形成多聚体的倾向,保证在细胞分裂时质粒以单体形式向子细胞平均分配。 (四)质粒性质 (四)质粒性质 可以通过转化、转导或接合作用而由一个细菌细胞转移到另一个细菌细胞中,使两个细胞都成为带有质粒的细胞;质粒转移时,它可以单独转移,也可以携带着染色体(片段)一起进行转移,所以它可成为基因工程的载体。1、质粒的转移: 2、质粒具有选择性标记
质粒有抗药性基因、营养缺陷型基因、抗重金属盐基因等多种选择性标记null3、质粒的不相容性概念:利用相同复制和维持系统的质粒不能
共存于同一个细胞内。举例: pMB1和colEⅠ是两个密切相关的复制
调控系统,带有pMB1和colEⅠ复制调
控系统的质粒是不相容的。但它们与
带有SC101或P15A复制调控系统是完
全相容的,可以共存于一个细胞内。
不相容性使质粒能够很容易被克隆。 (五)质粒的应用 (五)质粒的应用 质粒已成为分子克隆的有用工具,是目的DNA的载体。载体质粒大多是在天然质粒基础上经人工构建而成,至少应具有以下特点:
有限制性核酸内切酶单一切口,可用以重组外源DNA;
有筛选标记,如抗药基因等;
插入外源DNA后,仍能转化宿主细胞,并能复制。三、基因转移 gene transfer三、基因转移 gene transfer(一)、基因转移的方式1.接合作用当细胞与细胞、或细菌通过菌毛相互接触时,质粒DNA从一个细胞(细菌)转移至另一细胞(细菌)的DNA转移称为接合作用(conjugation)。null可接合质粒如 F 因子(F factor) null2.转化作用通过自动获取或人为地供给外源DNA,使细胞或培养的受体细胞获得新的遗传表型,称为转化作用 (transformation)。 null例:溶菌时,裂解的DNA片段被另一细菌摄取。null3.转导作用当病毒从被感染的(供体)细胞释放出来、再次感染另一(供体)细胞时,发生在供体细胞与受体细胞之间的DNA转移及基因重组即为转导作用(transduction)。 null4.转染作用通过感染方式将外来 DNA 引入宿主细胞,并导致宿主细胞遗传性状改变的过程称为转染 (transfection) 。转染是转化的一种特殊形式。 null(二)、原核生物的转座因子是一类在细菌染色体、质粒或噬菌体之间自行移动并具有转位特性的独立的DNA序列。null1.转座因子的遗传效应基因突变
引入新的基因null引起插入突变null携带标志基因使受体增添新基因氨苄青霉素抗性 四环素抗性null2.转座因子的分类插入序列
转座子
可转座的噬菌体null插入序列组成:
二个反向重复序列(inverted repeats, IR)
侧翼的正向重复序列
一个转座酶(transposase)编码基因 插入序列nullnull转座子组成:
二反向重复序列
转座酶编码基因
抗生素抗性等有用的基因转座子原核生物基因组
原核生物基因组小结1、基因组存在于类核中,类核中央是支架蛋白与RNA,外围是放射状的DNA环;
2、基因组序列 几乎没有重复序列、没有基因间隔序列、没有内含子序列;
3、操纵子结构是转录单位,包括串联的结构基因和调控序列(启动子、操纵子、终止子等非编码序列);
4、质粒是染色体外的遗传物质,质粒携带抗性基因、毒性基因等,使这些性状在细菌之间转移传播。 第四节 病毒基因组
Virus Genome 第四节 病毒基因组
Virus Genome 病 毒Virus
病毒是一类体积微小、结构简单、只含一种类型核酸、专性细胞内寄生、以复制方式增殖的非细胞型微生物。病 毒病毒结构 病毒结构 完整的病毒颗粒包括:
衣壳
基因组(DNA或RNA)
被膜
病毒颗粒中的其他内容物nullSars 病毒颗粒(电镜片)Sars 病毒颗粒(电镜片)nullPIR * 因為在電子顯微鏡下可見此病毒外圍帶有冠狀的邊飾,所以用「冠狀病毒」命名。
冠狀病毒的遺傳物質是RNA,長度約在27-31 kb。 分离的sars 病毒颗粒 分离的sars 病毒颗粒一、病毒基因组的核酸类型双链DNA 乙肝病毒是双链环状DNA病毒,腺病毒为双链线性DNA;
双链RNA 呼肠孤病毒
单链DNA M13噬菌体
正链DNA(+ DNA ) 基因组序列与mRNA相同
负链DNA(- DNA ) 基因组序列与mRNA互补
单链RNA 逆转录病毒
正链RNA(+RNA) 基因组序列与mRNA相同
丙肝病毒
负链RNA(-RNA) 基因组序列与mRNA互补一、病毒基因组的核酸类型二、病毒基因组的大小PIR * 二、病毒基因组的大小大小范围:1.5×103~3.6×106bp(nt). 比原核生物小得多。
双链DNA病毒 4.5×103~3.6×106bp
双链RNA病毒 3.0×103~3.0×104bp
单链DNA病毒 1.3×103~1.1×104nt
单链RNA病毒 3.0×103 ~3.0×104nt
最大的病毒:痘病毒,双链DNA,1.3~3.6×106bp,编码蛋白质数百个。
最小的病毒:乙肝病毒,双链DNA,3.2Kb,编码6个蛋白质。三、病毒基因组的结构与功能三、病毒基因组的结构与功能(一)病毒基因组的末端结构
1、帽子和poly(A)尾结构
多数真核生物病毒的mRNA和 +RNA有帽子结构(m7GpppN)和多聚A尾结构( poly(A)n );而噬菌体没有这种结构。
帽子和尾结构作用:防止病毒的mRNA和 +RNA被宿主细胞的核酸酶水解;参与蛋白质的翻译;与感染活力有关。5′帽-R-U5-PB--DLS-Ψ-gag-pol-env-(onc)-C-PB+-U3-R-poly(A)n逆转录病毒(retroviruses)nullPIR * 2、粘性末端
双链DNA分子两端具有的可以互补的单链序列。在连接酶作用下,粘性末端互补连接成环状结构。
粘性末端
3 G ━━━━━ CTTAA-p 5
5 p-AATTC ━━━━━ G 3
null聚合
环化
聚合nullPIR * 3、末端反向重复序列(ITR)
DNA或RNA病毒基因组两端的反向互补序列。可形成锅柄样结构,与病毒的复制、转录及整合有关。
如腺病毒、痘病毒、细小病毒及布尼亚病毒等。
nullITRITR锅柄样结构 图2-14 含末端反向重复序列的病毒基因组形成的锅柄样结构 nullPIR * 4、末端正向重复序列
双链DNA分子两端的相同的序列,又称末端冗余。
如疱疹病毒、T4及T7噬菌体等。
nullPIR * 5、长末端重复序列(LTR)
逆转录病毒基因组逆转录生成的双链DNA两端的结构特征,包括重复序列和单一序列。
5`端的LTR有基因表达调控序列。3`端的LTR有转录终止信号。
null*逆转录病毒基因组结构(cDNA)转录
终止(二)基因结构特点(二)基因结构特点 重叠基因(overlapping gene)
重叠基因:同一段DNA片段能够编码两种或两种以上蛋白质多肽链。
基因重叠这种结构使较小的基因组能够携带较多的遗传信息,使病毒基因的利用率更高。
null 莲人在绿杨津
采 一
玉漱声歌新阙
采莲人在绿杨津,在绿杨津一阙新;
一阙新歌声漱玉,歌声漱玉采莲人。
null噬菌体 X174基因图null重叠基因有以下几种情况:
(1)完全重叠:一个基因完全在另一个基因里面。如基因A和B是两个不同基因,而B包含在基因A内。同样,基因E在基因D内。 (2)部分重叠:如基因K和基因A及C的一部分基因重叠。 (3)只有一个碱基重叠:如基因D的终止密码子的最后一个碱基是J基因起始密码子的第一个碱基(如TAATG)。 (三)分段基因组(三)分段基因组 病毒分段基因组(segmented genome ):
病毒的基因组由数条不同的核酸分子组成;
多见于RNA病毒;
分段基因组有的包装在同一病毒颗粒中,有的包装在不同的病毒颗粒中,后者见于植物病毒。 甲型流感病毒PIR * 甲型流感病毒基因组 流感病毒属分段RNA病毒( 8个负链的单链RNA片段)。
蛋白质 H和N都是指病毒的糖蛋白,一种糖蛋白叫血凝素(HA),另一种叫神经氨酸酶(NA)。
分型 这两种糖蛋白容易发生变异,HA分为H1—H16共16个不同的型别,NA分为N1—N9共9个不同的型别。不同组合成为高致病性、低致病性和不致病性亚型。null
病毒分段基因组的意义PIR *
病毒分段基因组的意义a)降低包装压力
b)降低了造成断裂的可能性,提高编码能力
c) 有分段基因组的病毒一般感染效率较低,只有全部基因组核酸片段存在时,病毒才具有感染能力。
d) 由于分段基因组易发生重组,故病毒容易变异。病毒基因组小结PIR * 病毒基因组小结1、核酸种类不单一,只能DNA或RNA;结构多样(4种);
2、有特殊的末端序列:粘性末段、反向互补序列、长末端重复序列、帽和尾结构等;
3、结构紧密,体现在不仅非编码序列少,而且有重叠基因的存在;
4、分段基因组
第三节 真核生物基因组
Eukaryote genome第三节 真核生物基因组
Eukaryote genomenull染色体结构是真核生物基因组的特点之一。
一、真核生物染色体基因组null 不同物种染色体数目不同,同一物种的染色体数目是恒定的。除生殖细胞外,真核生物的体细胞都是二倍体细胞(diploid),每个体细胞有二套染色体(同源染色体),二套基因组。
染色体的主要化学成分 染色体的主要化学成分 DNA
蛋白质
RNA 生化研究表明:上述三类组成染色体的化学成分中,蛋白质含量约为DNA的二倍,RNA含量很少,还不到DNA量的10%组蛋白
非组蛋白
组蛋白(histones)
组蛋白(histones)
富含二种碱性氨基酸(赖氨酸和精氨酸)
组蛋白的等电点(pI)在7.5-10.5之间,所含的强极性氨基酸使组蛋白带上大量电荷,成为组蛋白与DNA结合及蛋白质之间的相互作用的主要化学力之一
null碱基互补配对 TACGnull 非组蛋白
(non-histone protein,NHP) 非组蛋白
(non-histone protein,NHP)染色体中组蛋白以外的其它蛋白质
是一大类种类繁杂的各种蛋白质的总称。估计总数在 300-600 种之间
分子量范围为7-80kD
等电点为3.9-9.2. 非组蛋白的种类较多,如RNA聚合酶、包装蛋白、加工蛋白、与细胞分裂有关的收缩蛋白、骨架蛋白、核孔复合物蛋白以及与基因表达有关的蛋白等 非组蛋白的种类较多,如RNA聚合酶、包装蛋白、加工蛋白、与细胞分裂有关的收缩蛋白、骨架蛋白、核孔复合物蛋白以及与基因表达有关的蛋白等 (1)染色体的一级结构—核小体
核小体是由核小体核心加上一条含有H1组蛋白的联系者DNA所组成。
核小体核心由组蛋白H2A、H2B、H3、H4各两分子所组成的八聚体和在八聚体上缠绕1.75 圈的146bpDNA组成。两个核小体核心之间由H1及约60bp的DNA连接。
(1)染色体的一级结构—核小体
核小体是由核小体核心加上一条含有H1组蛋白的联系者DNA所组成。
核小体核心由组蛋白H2A、H2B、H3、H4各两分子所组成的八聚体和在八聚体上缠绕1.75 圈的146bpDNA组成。两个核小体核心之间由H1及约60bp的DNA连接。
染色体的包装 null核小体核心部连接部组蛋白:2H2A、2H2B、2H3、2H4DNA分子:约146bp组蛋白: H1DNA分子:约60bpnullnull(2)染色体的二级结构—螺线管
六个核小体缠绕一圈形成的中空性管,外径30nm,内径10nm,H1位于螺线管内侧。null(3)染色体的三级结构—超螺线管(4)染色体的四级结构—染色单体 在上述结构形成过程中,DNA长度被逐级压缩。从DNA到染色单体,DNA长度压缩了8000~10000倍。nullPIR * 核小体螺线管超螺线管染色单体压缩7倍压缩6倍压缩40倍压缩5倍意义:
将近2m长的DNA分子容纳于直径只有5微米的细胞核中。
影响解链,影响与蛋白质的相互作用,调控基因表达。双螺旋DNAnull(一)真核生物染色体基因组一般特征 (一)真核生物染色体基因组一般特征 1、真核生物的基因组比较庞大;
2、线性双链DNA和二倍体;
3、真核细胞基因转录产物为单顺反子。一个结构基因经过转录生成一个mRNA分子,再翻译生成一种蛋白质; null4. 存在重复序列,重复次数可达百万次
以上;
5. 基因组中非编码区域多于编码区;
6. 大部分基因含有内含子,因此,基因
是不连续的(断裂基因,split
gene)。
nullPIR *
真核生物基因组结构的重要特征之一
与原核生物(细菌)基因组结构的主要区别
断裂基因null①断裂基因的组成:
由外显子(编码序列)和内含子(非编码序列)两部分组成,编码序列不连续,为断裂基因( Splitting gene)
nullnull② 断裂基因的分布a)真核生物中:绝大部分结构基因 b)原核生物中:SV40 大T、小t抗原gene T4 噬菌体的胸苷合成酶 geneSplitting gene 并非真核生物所特有nullc) 并非真核生物所有的结构基因均为splitting gene null a) Intron 并非“含而不露” 酵母细胞色素b基因 Intron II 编码成熟酶③断裂基因概念的相对性 b) Exon 并非“表里如一” 人类尿激酶原基因 Exon I 不编码氨基酸序列nullnullnull 单一序列(unique sequence):又称单拷贝序列或非重复序列,指基因组中只有1个或少数几个(2~3个)拷贝的序列。多为编码蛋白质的结构基因。
(二)单一序列1、高度重复序列
high repeated sequence(三)重复序列1、高度重复序列
high repeated sequence高度重复序列在基因组中重复频率高,可达百万(106)以上
高度重复顺序又按其结构特点分为三种
反向重复序列
卫星DNA
较复杂的重复单位组成的重复顺序
(1)倒位(反向)重复序列
reverse repeated sequence (1)倒位(反向)重复序列
reverse repeated sequence 这种重复顺序约占人基因组的5%
反向重复序列由两个相同顺序的互补拷贝在同一DNA链上反向排列而成。
变性后再复性时,同一条链内的互补的拷贝可以形成链内碱基配对,形成发夹式或“+”字形结构倒位(反向)重复序列倒位(反向)重复序列null倒位重复(即两个互补拷贝)间可有一到几个核苷酸的间隔,也可以没有间隔。没有间隔的又称回文结构(palimdrome),回文结构约占所有倒位重复的三分之一。5`AAACCACCGCTGGTAGCGGTGGTTT3` 3`TTTGGTGGCGACCATCGCCACCAAA5`5`AAACCACCGCTAGCGGTGGTTT3`3`TTTGGTGGCGATCGCCACCAAA5`回文结构(2)卫星DNA(satellite DNA)(2)卫星DNA(satellite DNA)重复顺序:由2-100bp组成重复单位,重复单位成串排列而成 。由于这类序列的碱基组成不同于其他部份,可用等密度梯度离心法将其与主体DNA 分开,因而称为卫星DNA (或随体DNA)
在人基因组中,卫星 DNA约占 5-6%
根据卫星 DNA的长度可分为卫星DNA、小卫星DNA、微卫星DNA。 卫星DNA卫星DNAnull果蝇的卫星DNA顺序已经搞清楚,是由
7bp组成的高度重复顺序:
卫星Ⅰ为:5’ ACAACTT 3’
卫星Ⅱ为:5’ ACAAATT 3’
蟹的卫星DNA为只有AT两个碱基的重复
顺序组成 2、中度重复顺序 2、中度重复顺序 中度重复序列:在基因组中重复数十至数万(<105)次的重复顺序
中度重复序列复性速度快于单拷贝顺序,但慢于高度重复顺序
依据重复顺序的长度,中度重复顺序可分为:短散布元件和长散布元件null短散布元件 (Short Interspersed Nuclear Element ,SINE)
重复顺序的平均长度:约为300bp
在基因组中排列方式:与平均长度约为1000 bp 的单拷贝顺序间隔排列
拷贝数:10万左右
Alu家族
Hinf家族,等null长散布元件(Long Interspersed Nuclear Element ,LINE )
重复顺序的长度:大于1000bp,平均长度为3500-5000bp
在基因组中排列方式:与平均长度为13000 bp(个别长几万bp)的单拷贝顺序间隔排列
拷贝数:1万左右
KpnⅠ家族,等1、rRNA基因 1、rRNA基因 (1)真核生物rRNA基因的重复次数多
(2)真核生物有四种rRNA(18S、28S、5S、5.8S rRNA)
18S、28S和5.8S rRNA基因在同一转录单位
5S rRNA 是单独转录的,而且其在基因组中的重复次数高于18S和28S rRNA基因null2、Alu家族 2、Alu家族 (1)是哺乳动物基因组中含量最丰富的一种中度重复顺序家族(短分散元件),在单倍体人基因组中重复达30万-50万次;
(2)Alu家族每个成员的长度约300bp ,每个单位长度中有一个限制性内切酶AluⅠ的切点(AG↓CT),Alu可将其切成长130和170bp的两段,因而定名为Alu序列(或Alu家族)null(3)Alu顺序具有种特异性,人的Alu顺序制备的探针只能用于检测人的基因组中的Alu序列
(4)Alu家族在基因组中广泛分布的原因可能是:Alu 顺序可由 RNA聚合酶转录成RNA 分子,再经反转录酶的作用形成cDNA,然后重新插入基因组所致
(四)多基因家族
(multigene family) : 概念:多基因家族是指起源相同,序列相似,功能相关的一组基因,是由某一祖先基因经过重复和结构变异所产生的。
多基因家族是具有编码功能的重复序列(四)多基因家族
(multigene family) :null
分类:
串联重复 基因家族成员相对集中地存在于某一染色体特定区域,形成基因簇(gene cluster),同时发挥作用。
散在重复 家族成员在整个染色体上散在分布,甚至存在于不同染色体上。
nullrRNA基因家族的串联重复和散在重复null概念:某些多基因家族成员因突变而失活,不能表达有功能的基因产物,这些基因称为假基因。
可在相应基因名称之前加表示。
分类:分为常规假基因(表达截断蛋白)与加工假基因(cDNA整合形成)。 假基因(pseudogene)nullα珠蛋白基因 图2-5 人珠蛋白多基因家族 null(1)端粒
端粒:真核生物线性DNA分子末端的
特殊结构。
人类的端粒重复单位:TTAGGG,重复的次
数由几十到数千不等。
端粒的作用
保护染色体末端及决定细胞的寿命
染色体DNA末端复制的必需结构(五)端粒和端粒酶nullnull真核生物的染色体DNA都是线性分子, DNA复制过程不能"自始至终"完整地复制整个线性染色体,而是每次都在其5'末端留下一个空缺未能填补(即RNA引物降解),如果细胞没有办法添补这些空隙,染色体DNA将随着每一次的细胞分裂而不断缩短,直至这种缺隙侵蚀到染色体的结构基因而使细胞消亡。
(2)染色体末端复制端粒酶能使端粒延长,保证真核细胞线性染色体DNA复制得以完全。null53355335+5333355 线性DNA复制的末端null(3)端粒酶
参与端粒复制的酶称为端粒酶
端粒酶:一种核糖核蛋白,包括端粒酶RNA、端粒酶相关蛋白、端粒酶逆转录酶。null端粒酶延伸端粒的机制
末端重复序列:5' — TTGGGG—3'TTGGGGTTGGGGTTGGGGTTAACCCCAACCCCAACCCCAARNA引物5'5'3'3'TTGGGGTTGGGGTTGGGGTTAACCCC5'5'3'3'引物切除nullnullnullnull对人体正常组织、多种良性病变及恶性肿瘤组织端粒酶活性进行检测,发现细胞分裂能力较强,分裂较快的组织端粒酶活性较高。
胎儿时期的端粒酶有较高的活性,但在出生后不久,除生殖细胞和干细胞等少数细胞显弱端粒酶活性外,均无端粒酶活性。
但绝大多数恶性肿瘤组织均显示明显的端粒酶活性。二、真核生物细胞器基因组
的结构与功能特点二、真核生物细胞器基因组
的结构与功能特点null1、结构特性:
闭环双链--- 16569bp组成
外环—重链(H链)
富含嘌呤
内环—轻链(L链)
富含嘧啶
分子裸露----无组蛋白
容易损伤,不稳定null2、功能特性:
储存信息---编码参与氧化磷酸化蛋白质和RNA的基因
H 链:2个rRNA,14个tRNA,12条多肽链
L 链:8个tRNA,1条多肽链
自身复制---D-环(D-loop)复制
H链和L链各有一个复制起点,先复制L链,L链复制到达H链起始点后,H链开始复制
转录功能--两条链同时转录合成RNA--对称转录
nullD环复制(D-loop replication) 是线粒体DNA (mitochondrial DNA,mtDNA)的复制形式。 null3、遗传特性:
(1)母系遗传:
同一母系后代mtDNA序列,在排除突变情况下是一致的
原因:精子尾部线粒体不进入或少量进入卵细胞
null
(2)突变率高:
主要原因
mtDNA没有组蛋白的保护
DNA聚合酶γ缺乏3’-5’外切酶校正功能
缺乏DNA损伤的修复体系
mtDNA极少或不受来自选择压力的影响 null
(3)异质性:同一个体mtDNA出现两种或两种以上碱基序列的现象
形式:
同一个体的不同组织有不同的mtDNA序列
同一组织中含有一种以上的mtDNA序列
原因:
拷贝数目多、不对称复制、缺乏校正修复机制
null
(4)阈值效应:
mtDNA突变导致氧化磷酸化水平降低,当突变的mtDNA达到一定的比例时,使得线粒体总的能量供应降低到维持组织正常功能所需能量的最低值时,才可能引起某组织或器官的功能异常而出现临床症状,这就是阈值效应。
(5)半自主复制与协同效应:三、人类基因组计划
( Human Genome Project,HGP)三、人类基因组计划
( Human Genome Project,HGP)“认识你自己。”
铭刻在古希腊阿波罗神庙门楣
上的这句神谕,千百年来鼓舞
着人类对自我进行探索。null20世纪人类科技发展史上的三大创举 90年代人类基因组计划40年代第一颗原子弹爆炸60年代人类首次登上月球 (一)什么是人类基因组计划(一)什么是人类基因组计划HGP:是个国际性研究项目,旨在阐明人类基因组DNA的全部核苷酸序列,识别所有人类基因并进行染色体定位及功能分析,同时了解非编码区序列的位置和功能,即完成23对染色体的全序列测定,及遗传图谱、物理图谱、转录图谱和序列图谱的绘制。
同时对模式生物(大肠杆菌、酵母、线虫、果蝇和小鼠等)基因组进行研究。人类基因组计划的研究概况 1986年人类基因组计划的研究概况 1986年1988年1988年1988年美国能源部和国家卫生研究院率先在美国开展人类基因组计划,并经国会批准由政府给予资助。此后,成立了一个国际间的合作机构——人类基因组织 (Human Genome Organization),由多个国家筹集资金和科研力量,积极参加这一国际性研究计划。1989年1989年美国国家卫生研究院成立了人类基因组研究国家中心(NCHGR),沃森出任第一任主任。1990年1990年1990年,美国国会批准了“人类基因组计划”,并于10月1日正式启动,由多国科学家参加、被称为“生命科学阿波罗计划”的人类基因组计划正式启动。预计用15年时间,投资至少30亿美元,完成30亿对碱基的测序,并对所有基因进行绘图和排序。美国承担了全部任务的54%,英国33%,日本7%,法国2.8%,德国2.2%。
中国于1999年9月加入人类基因组计划并承担了1%的测序任务。1998年1998年1998年,生产DNA测序仪的最大厂家Perkin-Elmer(简称PE)公司与文特尔领导的基因研究所合作成立了塞莱拉(Celera)遗传信息公司,并宣布他们将利用最新“全基因组鸟枪法”在3年内完成人类基因组的测序工作,这使得该计划处于一种公私竞争的状态,从而加快了人类基因组的研究步伐。2000年2000年2000年6月26日,美国国家人类基因组研究所所长弗朗西斯·柯林斯、塞莱拉公司的董事长兼首席科学家克莱格·文特尔、美国总统克林顿、英国首相布莱尔联合宣布人类基因组工作草图绘制成功。此后,人类基因组研究进入绘制“完成图”的阶段。与“框架图”相比, “完成图”的覆盖率从90%扩展到100%,准确率从99%上升到99.99%。null二000年六月二十六日克林顿宣布
人类基因组草图绘制完成 2003年2001年2月16日
人类基因组“精细图”完成,准确率由90%上升到99%。
2003年4月14日,人类基因组序列图亦称“完成图”(99.99%),提前绘制成功。
2003年nullnull2000年6月公共领域测序计划工作框架图null(二)人类基因组计划的研究内容(二)人类基因组计划的研究内容nullnullnullnullnullnull(三)人类基因组概貌(三)人类基因组概貌1、由A,G,C,T组成的全序列 ,全长:3.13×109bp,即30多亿碱基对。
GC平均含量41%
CpG岛,5万余个nullHow many characters are in the “Heaven Book”?
3*109 10,000 books
1 book 100 pages
1 page 3,000 characters
CCGGTCTCCCCGCCCGCGCGCGAAGTAAAGGCCCAGCGCAGCCCGCGCTCCTGCCCTGGGGCCTCGTCTTTCTCCAGGAAAACGTGGACCGCTCTCCGCCGACAGTCTCTTCCACAGACCCCTGTCGCCTTCGCCCCCCGGTCTCTTCCGGTTCTGTCTTTTCGCTGGCTCGATACGAACAAGGAAGTCGCCCCCAGCGAGCCCCGGCTCCCCCAGGCAGAGGCGGCCCCGGGGGCGGAGTCAACGGCGGAGGCACGCCCTCTGTGAAAGGGCGGGGCATGCAAATTCGAAATGAAAGCCCGGGAACGCCGAAGAAGCACGGGTGTAAGATTTCCCTTTTCAAAGGCGGGAGAATAAGAAATCAGCCCGAGAGTGTAAGGGCGTCAATAGCGCTGTGGACGAGACAGAGGGAATGGGGCAAGGAGCGAGGCTGGGGCTCTCACCGCGACTTGAATGTGGATGAGAGTGGGACGGTGACGGCGGGCGCGAAGGCGAGCGCATCGCTTCTCGGCCTTTTGGCTAAGATCAAGTGTAGTATCTGTTCTTATCAGTTTAATATCTGATACGTCCTCTATCCGAGGACAATATATTAAATGGATTGATCAATCCGCTTCAGCCTCCCGAGTAGCTGGGACTACAGACGGTGCCATCACGCCCAGCTCATTGTTGATTCCCGCCCCCTTGGTAGAGACGGGATTCCGCTATATTGCCTGGGCTGGTGTCGAACTCATAGAACAAAGGATCCTCCCTCCTGGGCCTGGGCGTGGGCTCGCAAAACGCTGGGATTCCCGGATTACAGGCGGGCGCACCACACCAGGAGCAAACACTTCCGGTTTTAAAAATTCAGTTTGTGATTGGCTGTCATTCAGTATTATGCTAATTAAGCATGCCCGGTTTTAAACCTCTTAAAACAACTTTTAAAATTACCTTTCCACCTAAAACGTTAAAATTTGTCAAGTGATAATATTCGACAAGCTGTTATTGCCAAACTATTTTCCTATTTGTTTCCTAATGGCATCGGAACTAGCGAAAGTTTCTCGCCATCAGTTAAAAGTTTGCGGCAGATGTAGACCTAGCAGAGGTGTGCGAGGAGGCCGTTAAGACTATACTTTCAGGGATCATTTCTATAGTGTGTTACTAGAGAAGTTTCTCTGAACGTGTAGAGCACCGAAAACCACGAGGAAGAGAGGTAGCGTTTTCATCGGGTTACCTAAGTGCAGTGTCCCCCCTGGCGCGCAATTGGGAACCCCACACGCGGTGTAGAAATATATTTTAAGGGCGCG
(1250 characters)
关键是先要从一个个序列片段中得到这本天书null目前已建成的主要数据库:
NCBI:Genbank
EMBL(European Molecular Biology Laboratory)
DDBJ(DNA Data Bank of Japan)
可从因特网直接进入这些数据库获得或输送有关基因组序列的数据。2、重复序列的含量和类型2、重复序列的含量和类型含量:至少53%,分布不均一,如X染色体有的区域重复序列高达98%,有的区域几乎没有。
类型:
1)散在重复
短散布元件(SINE), 13%。重复顺序的平均长度约为300bp。如Alu家族,Hinf家族。
长散布元件(LINE),20%。 重复顺序的平均长度为3500-5000bp,如KpnⅠ家族。
其他
Alu 家族Alu 家族null2)串联重复
微卫星(microsatellite,MS