基因家族的定义

上传人:桔**** 文档编号:487870748 上传时间:2024-01-04 格式:DOCX 页数:5 大小:19.50KB
返回 下载 相关 举报
基因家族的定义_第1页
第1页 / 共5页
基因家族的定义_第2页
第2页 / 共5页
基因家族的定义_第3页
第3页 / 共5页
基因家族的定义_第4页
第4页 / 共5页
基因家族的定义_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《基因家族的定义》由会员分享,可在线阅读,更多相关《基因家族的定义(5页珍藏版)》请在金锄头文库上搜索。

1、什么是一个基因家族呢?由一个共同的祖先基因经过重复(duplication闲突变(mutation)产生 的、外显子中具有相似的序列的一组相关基因被称为基因家族(gene family)。基因重复主要 有三种方式:片段复制、串联重复和逆转录转座或其他转座事件等,基因重复后可以彼此形 成基因簇(gene clusters),同一家族中的成员有时紧密的排列在一起,成为一个基因簇;更多 的时候,它们却分散在同一染色体的不同部位,甚至位于不同染色体上,具有各自不同的表 达调控模式。基因突变是基因分子进化的第一原因,由核苷酸替代、插入/缺失、重组和基 因转换等引发的突变基因或DNA序列,通过群体水平的遗

2、传漂变和/或自然选择进行扩散, 并最终在物种基因组中得以固定,这种方式产生的新基因一般拷贝数目不会增加,相对基因 重复是非常少的,主要是影响基因的序列以及其编码的蛋白。基因家族主要是指一组功能相 似且核苷酸序列具有同源性的基因,是具有显著相似性的一组基因,编码相似的蛋白质产物。有时定义基因家族,从结构域角度来刻画。如:一类基因,其编码蛋白都含有同一个结构域, 这一类基因是一个基因家族。比如MADS-box基因家族,这类基因都含有MADS-box结构域, 还有 SET 结构域基因家族。这个定义信息更偏向功能信息,一般来说结构域决定某种功能 因为结构域序列保守,易形成稳定的三维结构。这与共同祖先的

3、定义有些差别,很多结构域 难找得到其共同祖先。另外一个基因的共同祖先定义比较复杂的,越是历史久远的祖先,因 为物种的在进化过程中发生了很多丢失和增加事件。共同祖先是个相对的概念,比如植物的 共同祖先,一般包括藻类及其它绿色植物,而被子植物共同祖先,根据已经测序的基因组 一般指单双子叶之前就可以。如果从共同祖先定义基因家族,很多已知的基因家族就要被分 成很多个基因家族。有很多网站(数据库)专门收集结构域,比如Pfam和InterPro,这两 个数据库内容差不多。这些数据库以Hmmer算法为基础,根据Uniprot中包含的蛋白,进 行序列连配找到保守的片段(结构域),再以这些序列使用Hmmer构建

4、种子,保存这些种子。 一个蛋白拿过来后,与这些种子比对,根据打分能判断出这个蛋白是不是含有这个结构域 这也是判断一个基因编码蛋白是不是属于这个家族。基因家族定义基因组进化中,一个基因通过基因重复产生了两个或更多的拷贝,这些基因即构成一个 基因家族。是具有显著相似性的一组基因,编码相似的蛋白质产物。在真核细胞中许多相关的基因常按功能成套组合,被称为基因家族(gene family)。同 一家族中的成员有时紧密的排列在一起,成为一个基因簇;更多的时候,它们却分散在同一染色体的不同部位,甚至位于不同染色体上,具有各自 不同的表达调控模式。一组功能相似且核苷酸序列具有同源性的基因,可能由某一共同祖先基

5、因经重复和突变 产生。多基因家族真核基因组的特点之一就是存在多基因家族(multi gene family)。多基因家族是指由某 一祖先基因经过重复和变异所产生的一组基因。多基因家族大致可分为两类:一类是基因家 族成簇地分布在某一条染色体上,它们可同时发挥作用,合成某些蛋白质,如组蛋白基因家 族就成簇地集中在第7号染色体长臂3 区2 带到3区 6带区域内;另一类是一个基因家族的 不同成员成簇地分布不同染色体上,这些不同成员编码一组功能上紧密相关的蛋白质,如珠 蛋白基因家族。在多基因家族中,某些成员并不产生有功能的基因产物,这些基因称为假基 因(pseudo gene)。假基因与有功能的基因同源

6、,原来可能也是有功能的基因,但由于缺失, 倒位或点突变等,使这一基因失去活性,成为无功能基因。与相应的正常基因相比,假基因 往往缺少正常基因的内含子,两侧有顺向重复序列。人们推测,假基因的来源之一,可能是 基因经过转录后生成的RNA前体通过剪接失去内含子形成mRNA,如果mRNA经反复转录 产生CDNA,再整合到染色体DNA中去,便有可能成为假基因,因此该假基因是没有内含子 的,在这个过程中,可能同时会发生缺失,倒位或点突变等变化,从而使假基因不能表达。 多基因家族的进化在进化过程中,基因家族如编码rRNA的基因或编码组蛋白的基因都是从共同的祖先基因通 过重复(duplication)和歧化(

7、divergence)进化而来的,它们具有相同或相关的功能。虽然如此, 但它们在发育过程中并不总是同时表达的,不同的成员可能在不同的发育阶段和(或)不同的 组织中表达,如有些血红蛋白基因家族成员在成体中表达,而另一些则只在胎儿期表达,这 一事实说明在基因调控水平发生了进化歧化(evolutionary divergence)。在足够时间的进化过程中,基因家族中某些成员的 DNA 序列可能歧化为可编码一种具 有新功能的蛋白,例如,乳清蛋白(lactalbumin)基因与溶菌酶基因就属于同一个家族,前者 编码催化乳糖合成的酶的一个亚基,后者编码的溶菌酶能降解某些细菌细胞壁的多糖化合物, 但它们具有

8、一个共同的特点就是都作用于碳水化合物。我们也已经知道,基因家族中的某些成员并不转录或转录本不翻译成有功能的蛋白,即 成为基因家族中的假基因。研究发现,这些无功能的假基因缺乏必要的启动序列和缺乏一个 或多个具活性的成员中特有的内含子序列。DNA重复通常是指DNA片段数的增加,它可以是一个完整基因的重复(基因重复)、基因 的一部分重复、一个完整染色体的重复(非整倍体)、或整个基因组的重复(多倍体)。基因家 族是由于连续的基因重复所造成的。非整倍体常导致生物体的不育,而基因组重复只是使基因增加拷贝数,并不产生新的基 因,对基因组的复杂性并没有改变。从基因组进化的角度来看,更多的是考虑单个基因或一 些

9、基因的重复,而不是整个基因组的重复。珠蛋白是一个多基因家族,在人类的第16号染色体上发现了 7个类a珠蛋白基因,在 第 11 号染色体上发现了 6 个类 b 珠蛋白基因,在动物甚至植物中也发现了珠蛋白基因,表 明这是一个非常古老的基因家族。在多种动物中几乎所有有功能的珠蛋白基因结构都相同, 由 3个外显子组成,中间间隔着两个内含于。但珠蛋白基因的数量和次序在各种动物中是不 同的。由于所有的珠蛋白基因的结构和顺序都是相似的,因此它们存在着一个祖先珠蛋白基 因(多半和现在存在的肌红蛋白基因相关)。在约5亿年前,祖先珠蛋白基因经重复和歧化产 生了原始的 a 珠蛋白基因和 b 珠蛋白基因,再追溯至8亿

10、年前,这个祖先珠蛋白基因本身也 是通过基因重复而产生的,它的另一份拷贝进化为现今的肌红蛋白(myoglobin)基因,肌红蛋 白基因的组成和珠蛋白基因相似,其主要功能也同珠蛋白一样是贮存氧,因此我们可以将三 个外显子结构看成是它们共同的祖先。植物的豆血红蛋白(leghemoglobin)基因是和珠蛋白基 因相关的,植物豆血红蛋白基因存在着很多原始的类型,它比肌红蛋白基因多一个内含子, 但它与肌红蛋白很相似。某些原始的鱼类只有单个类型的珠蛋白链,因此它们必然是在珠蛋白基因尚未发生重复 前就歧化了出来。在某些两栖动物中含有a和b连锁的珠蛋白基因,这是由祖先珠蛋白基因 重复后经突变形成的。后来进一步

11、重复,在哺乳动物中形成了 a珠蛋白家族和b珠蛋白家族。重复在进化中是经常发生的,事实上,珠蛋白基因的拷贝数在某些人类群体中是有变化的, 例如大部分人在16号染色体上有2个a基因(al、a2,图12-9),但有些个体在此染色体上 只有1个,而另一些个体有3个甚至有4个a珠蛋白基因。此表明在多基因家族中基因的重 复和缺失是恒定的进行过程。重复也可以通过转座而产生。基因组中的基因家族(来源于首席医学网) 在人及高等有机体基因组中,有许多基因家族。有的基因家族成员多,有的基因家族成员少; 有的基因家族成员功能相似,有的基因家族成员功能各异1。所谓多基因家族是指一类具 有序列同源性及相似功能的基因;而基

12、因超家族是指一类具有序列同源性而不具相似功能的 基因。如果一类蛋白或基因具有共同起源的一个结构域,就属于一个基因超家族,同一个基 因可归属于两个或多个基因超家族。有关基因家族的研究起始于二十世纪七十年代,目的是 为阐明个体或群体遗传差异与基因冗余(gene redundancy)的关系。文献表明:免疫球蛋白基 因超家族与其它多基因家族进化的分子机制相似,染色体不等交换和基因转换 (gene conversion)导致了免疫球蛋白基因的进化。为阐明基因家族进化和变异的分子机制,应同时 考虑染色体不等交换、基因突变、自然选择及随机漂变等因素。同一基因家族中不同成员的 序列同源性取决于基因突变与染色

13、体不等交换的频率,也与自然选择及随机漂变有关1。基因超家族的一个重要特点是不同成员具有不同的表达模式(expression patterns),而同 一多基因家族的不同成员往往具有相同的表达调控机制。因此,有必要阐明基因超家族成员 其表达模式改变的诱因。一些大的基因超家族通常包括数个单基因和几个多基因家族,这些 基因家族的形成是有机体进化的分子基础。基因组中几乎所有的基因可归属于一个或更多的 基因超家族。同源性比较可用于分析不同基因间的进化关系;系统发生分析可剖析基因家族 不同成员的相关性;基因进化树可澄清基因拷贝数增加或基因重复(gene duplication)的历史, 同时,为识别不同种

14、属同源基因提供有益信息。1. 基因家族在基因组中的分布1.1 成簇存在的基因家族 许多重要的基因家族在基因组中成簇存在,也即同一基因家 族的不同成员在基因组中重复串联排列。这些成簇存在的基因是种系生殖细胞在减数分裂过 程中,通过染色体不等交换和基因转换形成的。一些多基因家族成员的拷贝数巨大,如核糖 体 RNA 或组蛋白基因家族,这是由于有机体需要其大量的基因表达产物。在真核生物中, rRNA 基因通常形成一个多基因家族。 rRNA 基因的一个重复单位包含一个转录区和一个非转 录间隔区,转录区包括18S、5.8S和28S rRNA基因,该重复单位在基因组中重复数百次rRNA 多基因家族不同成员进

15、化的分子机制一致,尽管不同种属rRNA基因重复单位的序列有所差 异,但同种属rRNA基因重复单位之间的同源性很高。在高等有机体基因组中,核小体的四 种核心组蛋白基因通常成簇存在,该基因簇在基因组中重复数十次,这些基因在细胞周期的 S期同步表达。也有几个组蛋白基因的表达与细胞周期无关,此类组蛋白基因的表达与一般 的组织特异性基因相似。一些成簇存在的基因超家族成员功能各异,最典型是珠蛋白基因超家族 (globin gene superfamily)。哺乳类珠蛋白基因超家族由a样珠蛋白基因家族、B样珠蛋白基因家族和肌 红蛋白家族三个基因家族组成。前两个基因家族由成簇存在的基因编码,而肌红蛋白由单个

16、基因编码。每个基因簇包括胚胎期、成人期a或B珠蛋白基因及假基因。一种珠蛋白的编码 基因不止一个,例如:有两个基因a1、a2编码成人期a-珠蛋白,这两个基因组成一个较 小的多基因家族,具有共同的进化途径2。1.2 含有成簇及散在存在成员的基因超家族 一些基因超家族通常含有成簇和散在存在 的成员,成簇存在的基因(通常组成多基因家族)具有相似功能的,而散在存在的基因往往具 有不同的功能。但也有例外,如成簇存在的Hox基因家族成员其功能可能完全不同3。在人体基因组中,免疫球蛋白基因超家族包含有成簇及散在存在的成员,是具有多个功 能各异的基因,该基因超家族的许多成员含有非免疫球蛋白的结构域,具有多种不同功能。 免疫球蛋白基因家族是最大的基因超家族之一,该家族基因所编码的多肽是血液中的不同抗 体。免疫球蛋白由可变区(varible, V)、恒定区(constant, C)、多样区(diversity, D)、结合区(joining, J)基因片段编码。V、D、J区基因片段存在多个拷

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号