物种碱基替换率的可视化与矫正 [摘 要]根据进化论,现存物种拥有一个共同祖先,在漫长的时间中,各种环境因素及其他因素的条件下,得到了不同的进化结果在这一过程中,生物细胞内的遗传物质在不断复制,分配给下一代这其中就会因为各种各样的错误,导致子代序列与亲本的序列出现差异这就是普遍存在的突变已知现存物种都共用同一个密码子表,即基因序列中每三个碱基,所对应的氨基酸在所有生物体中是统一的除此之外,密码子中存在多个密码子编码同一个氨基酸的现象,即密码子简并性这也导致了突变结果会出现,序列改变但是编码的蛋白质没有改变的情况,这就是同义突变突变普遍存在,但其具有低频性,两条序列经过一段时间的突变累积,我们可以推算得到他们的同义替换率(ks)和非同义替换率(ka),本研究采用核密度曲线将ks可视化,并探究ks推断的影响因素及矫正方法[关键词]: 碱基替换率; 进化分析; 可视化;ks矫正;突变一、前言突变是指在生物细胞中的遗传物质通常是DNA,在发生复制的时候,由于各种原因产生的错误,导致两条序列不同基因突变的种类繁多,生物对不同的突变的耐受能力是不同的。
从中性学说的角度来看,突变绝大多数都属于中性的,即对物种生存和繁衍不造成重大影响的,既没有向有利于生存的方向发展,也没有向不利于生存的方向发展除此之外,对于不利于生存的突变,往往在激烈的生存斗争中被淘汰掉,少有可以持续遗传的恶劣突变碱基替换是在突变的一种普遍形式通常碱基替换会造成三种结果,一是突变成终止密码子,导致转录提前终止,从而使蛋白质的合成受到影响;二是突变成为与原密码子所对应氨基酸相同的密码子,这类突变并没有造成氨基酸序列的改变,所以蛋白质合成不受影响,这类称之为同义突变;三是突变后的密码子与原密码子对应的氨基酸不同,使蛋白质序列发生改变,因此成为非同义突变通过密码子表,很容易的就能看出密码子第三位碱基变化不容易引起非同义突变同义替换率与非同义替换率分别是指同义突变位点数量与同义位点数的比值和非同义突变位点与非同义位点的比值,分别用ks与ka表示通常认为同义突变不受自然选择的作用,而非同义突变受自然选择的作用利用ka和ks可以判断物种进化历程本研究用到的数据均来自NCBI(https://www.ncbi.nlm.nih.gov/gene),经过下载及数据处理之后的物种列表如下:物种名拉丁名缩写染色体数提取基因数1雷公藤Tripterygium wilfordiitwi23374742大豆Glycine maxgma20555893川黔千金榆Carpinus_fangianacfa8209474杨桃Averrhoa carambolaaca11245315簸箕柳Salix suchowensisssu1931750表1 物种信息列表Fig 1 Species Information list二、正文现有的许多研究中利用ka和ks来计算物种进化历程中重要事件的时间点,比如常见的计算全基因组加倍的时间。
在物种发生全基因组加倍之后,出现了大量的重复基因,处于同一环境,历经相同的时间,那么可以推测序列之间发生的碱基替换也是相似的,我们用同义替换率来描述进化的距离,即此时期产生的大量重复基因的ks值相近,那么在我们的ks分布的图中就会出现非常明显的驼峰结构为了更加直观的体现ks的分布情况,我们用基因组的ks绘制核密度曲线图核密度曲线类似于概率分布图采用python脚本将几个物种之间的ks进行可视化由图的可视化结果,可以大致推测出部分物种的加倍事件次数与时间,但是对于局部的区域还存在一些问题,比如对于明确的同一次加倍事件来说,出现的峰值存在少许差异推测导致这种差异的原因主要有以下几种一是其不同的生存环境在不同的生活环境下,物种选择应对不同条件的方式不同,对基因的选择情况也不同,因此进化速率存在差异由于进化速率存在差异可以推测为碱基替换速率不同,因此会出现峰值偏差;二是基因家族爆发在转座子等结构的帮助下某些基因家族可能会爆炸式的增长,因此这些基因数量的变换也会拖动峰值的摇摆,除此之外,基因家族大爆发还会形成伪峰,干扰对峰的判断三是在数据处理时存在核心数据丢失,导致某些应该处于峰值的ks丢失,从而影响核心峰的形成与判断。
就上述ks可视化结果影响因素提出以下矫正方法:一,数据选取方面选取合适的数据来计算ks,保证每一个阶段的ks出现的概率只与加倍次数有关用来绘制的ks是来自共线性的结果,并且,共线性结果要去除串联重复二,数据处理方面尽可能在处理数据时保证数据的完整性,避免数据失真三,对于进化速率的干扰一方面进化速率的影响比较小,只会让峰值左右出现微小偏差,对大致推断影响不大另一方面如果是要对时间节点进行精确计算,则应当推算每个物种的进化速率,并从ks中消除三、总结与展望对于ks的使用有相当多的地方处于探索阶段本研究就ks的可视化与ks矫正问题进行探究,主要通过ks可视化展示物种的加倍与物种间的分歧时间的先后关系,以及通过ks推算相关事件的具体时间但这一过程中往往出现较多的误差来源我们采用三个方面的处理,以达到矫正ks的目的这一方法对于物种进化研究具有重要意义,可以使物种加倍及分歧时间推测的更加准确,有利于对植物系统发育的研究但是,对于进化速率矫正的问题还远不够完善,有待进一步研究参考文献[1] 胡冬贵. DMD 基因突变类型及其研究方法[D]. , 1994.[2] 牛克昌, 刘怿宁, 沈泽昊, 等. 群落构建的中性理论和生态位理论[J]. 生物多样性, 2009, 17(6): 579.[3] 吴学军, 柴建华. 单碱基突变的检测[J]. 生命的化学 (中国生物化学会通讯), 1995, 3.[4] Kunkel T A, Alexander P S. The base substitution fidelity of eucaryotic DNA polymerases. Mispairing frequencies, site preferences, insertion preferences, and base substitution by dislocation[J]. Journal of Biological Chemistry, 1986, 261(1): 160-166.[5] Coulondre C, Miller J H, Farabaugh P J, et al. Molecular basis of base substitution hotspots in Escherichia coli[J]. Nature, 1978, 274(5673): 775-780. -全文完-。