《基因组学课件高教课堂》由会员分享,可在线阅读,更多相关《基因组学课件高教课堂(39页珍藏版)》请在金锄头文库上搜索。
1、第1章 基因组1教育教学1.1 遗传的分子基础1.2 基因组序列的复杂性1.3 基因与基因家族1.4 基因组2教育教学1.1 遗传的分子基础1.2 基因组序列的复杂性1.2.1 C值和C值悖理或C值矛盾(C-value paradox)C值 一个单倍体基因组中DNA的总量,可以用bp或者pg表示,1pg=978MbC值悖理 生物基因组的大小与生物进化程度没有直接相关性的现象3教育教学4低等生物基因组大小与生物复杂性呈正相关,而高等生物中这种关系并不一致,why? 值 矛 盾C4教育教学1.2.2 序列复杂性(complexity)顺序复杂性:基因组中不同序列的DNA总长,用bp 表示复杂性代表
2、一个物种的基本特征,可以通过DNA复性动力学描述。基因组的复杂性通过计算变性基因组到复性所需要的时间来估计通常以C0t1/2表示特定DNA的序列复杂性。 C0t1/2代表单链DNA起始浓度X半数DNA复性所需时间tC0t1/2值越大,表示复性速率越慢,基因组的复杂程度越高5教育教学61.2.3 基因组的序列组成不重复序列/单拷贝序列(single copy sequence)(基因组中的缓慢复性组分)一般只有1个或几个拷贝不同生物基因组中单拷贝序列所占的比例是不同的 大多数编码蛋白质的基因都属于单拷贝基因 随着基因组大小的增加,单拷贝序列的长度也增加 两栖类和植物基因组C值的增加并非是单拷贝序
3、列的增加,而是重复序列DNA比例的增加6教育教学7中度重复序列 (moderately repetitive sequence)(基因组中的居间复性组分) 10105 /genome,100-几千bp/copy 占总DNA的10%40%,大多不编码蛋白质 哺乳类基因组包含两大类中度重复序列“ 1)短散在元件 2)长散在元件7教育教学81)短散在元件(short interspersed nuclear elements, SINEs)平均长度约为300bp,拷贝数可达10万左右;与平均长度约为1000bp的单拷贝顺序间隔排列;Alu家族、Hinf家族8教育教学2)长散在元件(long inte
4、rspersed nuclear elements,LINEs)长度约为3500-5000bp,拷贝数约为1万 ;含有长度不等的间隔序列; 人基因组中所有LINES之间的平均距离为2.2kb,拷贝数 约10000,如Kpn家族等。9教育教学高度重复序列(highly repetitive DNA)(基因组中基因组中的快速复性组分的快速复性组分) ) 重复序列在染色体上有两种组织形式:散布重复(interspersed repeat)和串联重复(tandem repeat) 高度重复序列都是串联重复DNA,都是由极其相似的重复拷贝首尾相接串联排列而成10教育教学11高度重复序列的分类 可分为:1
5、)卫星DNA(satellite DNA) 2)小卫星DNA(minisatellite DNA) 3)微卫星DNA(microsatellite DNA)11教育教学 1)卫星DNA(satellite DNA) DNA在CsCl密度梯度离心时,由于重复序列GC和 AT的比率差异,在DNA主峰旁形成卫星DNA峰卫星DNA重复单位大小为6-100bp,可重复高达106主要位于染色体的着丝粒,不转录,人类基因组卫星DNA12教育教学132)小卫星DNA(minisatellite DNA) 重复单位不超过25bp,可形成长达20kb的聚集区 通常位于染色体端粒或靠近染色体末端的区域 人类端粒含有
6、5TTAGGG3端粒DNA在DNA复制中具有重要功能13教育教学143)微卫星DNA(microsatellite DNA) 又叫SSR(simple sequence repeat)/STR(short tandem repeat)简单的重复单位组成的小序列 重复单位2-6bp,可重复3-100次, 常见(AC) n,(TG)n 遗传上可用作分子标记14教育教学15不同生物基因组的序列组成15教育教学161.3 基因与基因家族1.3.1 基因编码RNA的基因和编码蛋白质的基因 大多数编码RNA的基因是多拷贝的 why? 编码蛋白质的基因一般是单拷贝的编码RNA的基因有6种,包括rRNA 基因
7、,rRNA 基因,scRNA基因,snRNA基因,snoRNA基因以及miRNA基因16教育教学2024/8/27rRNA基因(rDNA)一般成簇排列在端粒区或者着丝粒区附近真核生物的rDNA形成18S-5.8S-28S的基因簇,5SrDNA是分开活跃转录的rRNA 基因簇17教育教学2024/8/27tRNA基因的基因拷贝数与与tRNA的丰度呈正相关tRNA 基因拷贝数与氨基酸出现频率呈线性相关18教育教学 miRNA 基因大多也为多拷贝的19教育教学1.3.2 编码蛋白质的基因N值悖理生物种属所具有的基因数目与其生物结构的复杂性不成比生物种属所具有的基因数目与其生物结构的复杂性不成比例的现
8、象被称为例的现象被称为N N值悖理值悖理(N-value paradox)(N-value paradox)20000-25000 450001950013600why?20教育教学2024/8/27真核基因是断裂基因(split gene)高等生物内含子较多,多数内含子比外显子长,低等生物内含子较少且内含子一般较短不同种属的同一基因外显子比较保守,内含子变异较大;不同种属的同一基因外显子比较保守,内含子变异较大;外显子的长度一般小于外显子的长度一般小于300bp,内含子长度较大,内含子长度较大断裂基因使交替剪接(alternative splicing )成为可能21教育教学2024/8/2
9、71.3.3 异常结构基因1)重叠基因(overlapping gene)是指两个或两个以上的基因共有一段DNA序列 在结构紧凑的病毒基因组,某些高等生物线粒体基因组和核基因组中发现22教育教学X174基因组中的重叠基因23教育教学人类核基因组重叠基因人类核基因组重叠基因人类人类INK4a/ARFINK4a/ARF基因座含两个重叠基因基因座含两个重叠基因:p14/ARF:p14/ARF和和p16/INK4a.p16/INK4a.这两个基因分别由两个独立的启动子调控这两个基因分别由两个独立的启动子调控, , 共享外显子共享外显子2 2和和3, 3, p14/ARFp14/ARF含外显子含外显子1
10、, p16/INK4a 1, p16/INK4a 含外显子含外显子.24教育教学2024/8/272)基因内基因 (genes-within-genes) 一个基因的内含子包含其他基因,在核基因组中很普遍25教育教学人类人类NF1NF1基因内含子中的基因内含子中的3 3个独立表达的基因个独立表达的基因 人类神经成纤维细胞瘤人类神经成纤维细胞瘤1(neurofubromatosis1)1(neurofubromatosis1)基因编码基因编码GTPase GTPase 的激酶的激酶, , 是致癌基因是致癌基因RASRAS的负调控因子的负调控因子, , 长长350kb350kb,6060个内含子个
11、内含子, , 蛋白质产物蛋白质产物2839 aa. 272839 aa. 27号内含子编码号内含子编码3 3个独立个独立表达的基因表达的基因. .26教育教学2024/8/273)反义基因(antisense gene)与已知基因编码序列互补的负链编码的基因 人类基因组大约有1600个反义基因27教育教学28教育教学29教育教学玉米自交不亲合玉米自交不亲合(S)(S)反义基因反义基因30教育教学2024/8/271.3.4 假基因 (pseudogene)假基因指来源于功能基因但已失去活性的DNA序列分为三类: 1)重复的假基因(duplicated pseudogene) 由基因复制产生,但
12、基因突变使失去功能 2)加工的假基因(processed pseudogene) 由RNA反转录为cDNA后再整合到基因组中 3)残缺基因(truncated gene) 缺失了基因片段,常位于基因家族内部,由不等交换及重排产生31教育教学2024/8/2732教育教学2024/8/27假基因是否有功能? 有些假基因是可以转录的有些假基因是可以转录的, , 特别是起源于重复基因的假特别是起源于重复基因的假基因和获得启动子的加工的假基因。基因和获得启动子的加工的假基因。转录的假基因产生残缺的蛋白,失去了原有的功能,但可转录的假基因产生残缺的蛋白,失去了原有的功能,但可能产生新的功能,例如能产生新
13、的功能,例如: A.A.产生反义产生反义RNA, RNA, 抑制靶基因功能抑制靶基因功能 B. B.在在RNARNA水平与正常基因的水平与正常基因的mRNAmRNA竞争竞争, , 起调控作用起调控作用, , 如软体动物如软体动物Lymnaea stagnalis Lymnaea stagnalis 的神经细胞的神经细胞NOSNOS合成酶假基因产物抑制合成酶假基因产物抑制NOSNOS酶的合酶的合成。成。 C C. .在在DNADNA水平与正常基因竞争转录因子水平与正常基因竞争转录因子, , 起抑制作用起抑制作用, , 如老鼠的如老鼠的Makorin1Makorin1基因的转录基因的转录33教育教
14、学34教育教学2024/8/271.3.5 基因家族(gene family) 真核生物基因组中有许多来源相同、结构相似、功能相关的基因,这样的一组基因称为基因家族。例如:组蛋白基因家族、珠蛋白基因家族、免疫 球蛋白基因家族等基因家族是由基因的复制然后趋异产生的,是增加基因组复杂性的途径之一比较基因家族各个成员间的序列差异,可追踪基因的演变轨迹35教育教学2024/8/271.4 基因组真核生物基因组特征 1)结构松弛,含有大量重复顺序; 2)基因大多为断裂基因,由内含子和外显子构成; 3) 由线性DNA与蛋白质组成染色体结构; 4) 含有细胞器基因组。36教育教学2024/8/2737教育教学2024/8/27原核生物基因组特征 1)结构紧凑,一般不存在内含子(古细菌除外) 2)大小在5Mb以下 3)缺少重复顺序 4)很少非编码顺序 38教育教学2024/8/2739教育教学