第二节 基因组(genome) 1. 基因组和DNA的C值的概念: •1922年:一个细胞或病毒所包含的全部基因 •在真核生物中,通常指一个物种的单倍体染 色体组所含有的一整套基因所以, genome被译作染色体组,指的是单倍体细 胞中所含的整套染色体,但现在基因组这个 名词逐渐替代了染色体组• 原核生物一般只有一个环状的DNA分子, 其上所含有的基因为一个基因组 • 真核生物细胞中的细胞器,如叶绿体、线 粒体中的DNA一般也为环状,构成叶绿体 基因组和线粒体基因组 • 基因组DNA测序的结果表明基因组中不仅 包含着整套基因的编码序列,同时还包含 着大量非编码序列,即基因之间的序列 这些序列同样包含着遗传指令(genetic instruction)因此,• 基因组(应该)是指整细胞所包含的DNA 分子以及DNA分子所携带的全部遗传指令 • 一个物种单倍体细胞基因组的DNA总含量 总是恒定的,我们称之为该物种DNA的C值 每种生物各有其特定的C值,不同物种之 间的C值差异非常大2. 基因组的大小与C值悖理• 基因组的大小一般用碱基对(bp)的数量 来表示 • 千碱基对表示103个碱基对,英文简写 kb. • 百万碱基对表示106个碱基对,英文简写 Mb。
生物基因组大小/Mb 原核生物生殖道支原体0.58 大肠杆菌 4.64 真菌酿酒酵母 12.1 构巢麴霉菌25.4 原生动物四膜虫 190无脊椎动物家 蚕490 海 胆845脊椎动物人 3,000 小鼠3,300植物玉米5,000 小麦17,000• 因此,从总体上说:生物基因组的大小与生 物在进化上所处的地位及复杂性之间并无 严格的对应关系,这种现象称为C值悖理(C —value paradox) • C-value paradox: the lack of direct relationship between the C value and phylogenetic complex. DNA的C值悖理的另一种表述: DNA的C值矛盾:人们无法用已知的功能来解释基因组的 如此之大的DNA含量,这就叫做C值矛盾物 种 基因平均 长度(kbp)平均内含子 /基因平均 mRNA 长度外显子( %)酿酒酵 母 1.5>95%不被 打断1.5100线虫43~4377果蝇113~4325人类166~72.5133. 序列复杂性(sequence complexity) • 同一类生物中基因组大小相差悬殊,其主 要差别在于“多余”(excess)DNA的量的差 别。
多余”DNA量多,则基因组大;反之 ,则小所谓“多余”DNA主要是重复序列 ,即这种DNA序列在基因组中可以有不止 一个拷贝 • 序列复杂性:指的是不同序列的总长度;或 者说:DNA分子中不重复碱基的总量(用bp 来表示);或者说:最长的没有重复序列的 核苷酸对的数值• 例如( )40;其总长为160bp,但不重复的碱基为AT;所以其序列复杂性为x= 2 (bp)而( )40的序列复杂性则为x=4(bp) 若一个DNA分子长度为106bp,完全不含重复顺序,则其序列复杂性为x=106(bp)ATAT TATAATCG TAGC• 由此可见,序列复杂性的高低反映了序列 包括的遗传信息量的多少 • 此外,生物体基因组的复杂程度还表现在 基因的外显子数目的多寡(见下图) • 外显子数目多表现在RNA剪接时可以有更 多种剪接方式,一个基因可以产生更多种 的RNA,编码更多种蛋白质分子,也就是 一个基因可以不止有一种功能从进化角 度看,更多的外显子有助于形成更多的外 显子组合,生成新的基因,对生物在多种 环境下生存是有利的 •因此,C值悖理可以用很多真核生物基因组 中主要是非编码DNA来解释。
•非编码DNA可能是重复DNA或单一顺序 DNA基因组内单一序列和重复序列的组成 情况,可通过DNA复性动力学研究来确定4. DNA复性动力学:DNA复性: 当变性DNA的两条互补单链 在除去变性因素后,可以重新或部分恢复 成双螺旋结构的过程 • 复性的必要条件:足够的盐浓度; 温度适中 (低于Tm20-25℃) • 复性过程缓慢: 成核作用→拉链作用当两条单链DNA接触时,如果某个区段可 以互补配对,就先形成一个双链核心区, 然后扩展其互补配对区段而复性形成双链 • 复性过程很复杂,单链DNA复性的速率可 用下列公式表示: dC/dt=-kC2 • 这里,C是在t时单链DNA的浓度,k是二级 反应常数上述公式可以重排为:-dC/C2=kdt • 对上式积分整理得:C/C0 = 1/(1+kC0t) 这里C0是 t=0 时DNA的初始浓度• 这个公式表明反应中单链DNA所占百分数 (C/C0)是DNA初始浓度(C0)同反应时间(t)乘 积的函数,通常用C0t来表示 • 在一个特定的实验中,C0是已知的,C是可 以测定的,如C/C0对C0t作图可以得到下图 的曲线,称为Cot曲线(见下图)。
• 当C/C0=0.5 即复性反应完成一半时(t1/2)的 Cot 值定义为 C0t1/2 • 当条件一定时, C0t1/2的大小与DNA的分子 量及复杂性有关,体现在:(1) C0t 1/2越大,表示复性速度越慢,DNA 的分子量越大DNA总量一定时,基因组越复杂,任何特 定顺序的 拷贝数就越少 •例如,DNA起始总量为12pg,一种细菌基 因组大小为0.004pg,则它的各种顺序有: 12/0.004=3000拷贝另一种真核生物基因组 大小3pg, 12/3=4拷贝尽管测得的 C0绝对 量相同12pg (核苷酸mol/L),而事实上后 者各顺序的浓度比前者低了3000/4=750倍 要使该真核生物基因的拷贝数也达到3000,则 要多加750倍的DNA.因此,该真核生物DNA复 性反应C0t 1/2是细菌DNA反应C0t ½的750倍 (2) 在不存在重复序列的情况下,C0t 1/2值与 基因组的大小成正比,也即与反应体系中的 复杂度成正比: X=K′C0t ½A. 在一般标准条件下(阳离子浓度为0.18 mol/L,片段大小为400bp),K′=5×105,则有: X= 5×105 C0t ½B. 在非标准条件下,通常用大肠杆菌的 DNA作为标准测定未知DNA的复杂度: C0t 1/2 (欲测基因组DNA)/ C0t 1/2(大肠杆菌DNA)= 复杂度(欲测基因组DNA)/ (4.2 ×106 )(3).在有重复顺序的复性中,在同一个复性曲线 上的各动力学组分的C0t1/2并不因基因组的大 小而增减,而是与DNA序列的重复频率成反比 : C0t ½ (1):C0t ½ (2)=f (2): f(1)式中(1)和(2)代表两个不同的动力学组分, f代表其重组频率(拷贝数)。
•复性动力学研究表明:原核生物基因组的 Cot曲线是单一的S形曲线;真核生物基因组 的Cot曲线是多S形曲线,由若干个(一般2 -3个)S形加合成的曲线 5. 基因组DNA序列的分类① 基因序列与非基因序列开放阅读框(open reading frame, ORF)② 编码序列与非编码序列(coding or non-coding sequence)③ 单一序列与重复序列(unique or repetitive sequence)短串联重复序列(short tandem repeat,STR)和序列标定位点(sequence tagged site,STS)重复序列的分类:① 轻度重复序列:组蛋白基因和酵母tRNA基因 ② 中度重复序列: 10-几百份拷贝的DNA序列 ③ 高度重复序列:基因组中有几百份甚至几百万份 拷贝的DNA序列既有重复几百份拷贝的基因, 如rRNA基因和某些tRNA基因,更多的则是很短 的非编码序列的重复这些序列往往是许多份拷 贝呈头尾衔接的串联形式,也就是串联重复序列 (tandem repeat)不同生物基因组中重复序列所占比例:• 原核生物基因组:基本上不含有重复序列 • 低等真核生物基因组:重复组成不超过20%,且多半是中度重复序列 • 动物细胞基因组:中度和高度重复序列约各占50%• 一些显花植物和两栖类动物基因组:中度和高度重 复序列几乎可以高达80%6. 重复顺序DNA:① 基因家族(gene family):由同一个祖先基因经过重复(duplication)与变异 进化而形成结构与功能相似的一组基因,组成了一 个基因家族。
基因家族中的各个成员可以聚集成簇 也可以分散在不同染色体上,或者两种情况兼而有 之结构基因家族中各个成员通常具有相关的甚至 相同的功能 ② 基因簇(gene cluster):由相同或相关的邻近基因组成的一个基因群或一 组基因③ 多基因家族(multigene family):是一个基因组中功能相似、进化上同源的一组基因 在这些基因中,拷贝数、顺序保守性、构成、分布 状态和功能相关性有很大差异例如:在一些多基因 家族中,家族成员可能非常相似或完全一样(如rRNA 基因)在其他一些例子中,保守性非常差,即使通 过序列比较也不能发现经典的多基因家族是结构相 似,在整个编码顺序中保守它们可以在特殊座位上 成簇排列(如人类—珠蛋白基因)、分散的(如人类肌 动蛋白基因)或者两者都有(玉米醇溶蛋白基因)孤独基因(orphon):成簇的多基因家族的偶尔分散的成员 孤儿基因(orphan):是在基因组测序计划中发现的,在其他有机 体中没有对应的基因,已确定它没有功能 ④ 超基因家族(supergene family):DNA序列相似,但功能不一定相关的若干 基因家族或单拷贝基因总称 ⑤ 假基因(pseudo-gene) :多基因家族一些结构保守的基因由于突变使 基因功能完全丧失,这样的无功能的基因拷贝 称为假基因。
a.未加工的假基因(nonprocess pseudo-gene) 常规假基因(conventional pseudo-gene) b.加工的假基因(processed pseudo-gene) 反转录假基因(retropseudo-gene) •未加工的假基因:是指通过基因组DNA复制产生,经常位于相 同基因有功能拷贝的附近它们与有功能的同 源基因有类似的结构,可以包括内含子和调节 元件这样的假基因在细菌和真核生物中都有 发现,因为它们是积累突变,包括使转录消失 的调节突变和产生截短编码产物的无义突变, 所以能够被识别偶尔未加工的假基因可以通 过一个有利的突变重新激活 •加工的假基因是指通过对mRNA的反转录和获得的cDNA 的随机整合而产生;它们经常是分散的加工 假基因是由反转录因子(参阅)编码的反转录酶 和整合酶的外来活性而产生的,只在真核生物 中被发现加工的假基因结构对应于起源基因 的转录单位,缺乏内含子和侧翼顺序因为缺 乏侧翼顺序,加工假基因一般不表达但在人 类中发现的高度重复序列Alu元件却是能表达 的一种假基因 ⑥ 结构和功能的冗余性: • 冗余(redumdant) 序列是在基因组中出现超过 一次的序列,也就是增加基因组大小,并不增 加复杂性的序列。
冗余基因并不必定是功能冗 余一些基因被发现有冗余拷贝,以产生足够 基因产物(rRNA基因属于这一类),另一些进化 以实现不同功能 • 功能冗余可以通过特定基因或元件的缺失造成 表型缺陷来建立完全或部分功能基因冗余在 多细胞有机体的很多定向突变中可以看到⑦ 重复DNA顺序的结构: •串联重复(tandem repeats) •不完善的重复(hyphenated repeats) •分散重复(dispersed repeats) 单个重复顺序间可以是相同方向重复或 者是相反方向重复排列 ⑧卫星DNA:是高等真。