六生物信息学和进化与研究方法

资源描述

《六生物信息学和进化与研究方法》由会员分享，可在线阅读，更多相关《六生物信息学和进化与研究方法（9页珍藏版）》请在金锄头文库上搜索。

1、- 生物信息学和进化的研究方法蛋白质序列清楚地反映出生物的进化关系。Jane Goodall和一只黑猩猩互动提示人类与黑猩猩亲缘关系近。血红蛋白的氨基酸序列也证明人类与黑猩猩的亲缘关系。在血红蛋白153个氨基酸残基中，人血红蛋白（红色）与黑猩猩血红蛋白（蓝色）只有一个氨基酸残基不同。左边, Kennan Ward/Corbis.如同人类家族的成员一样，分子家族的成员有一些共同的特征。比较蛋白质的三维结构（即与蛋白功能关系最密切的参数），我们很容易鉴定蛋白家族成员。我们在蛋白质折叠章节介绍过的牛核酸酶，其三维结构与人核酸酶的三维结构颇为类似（图6.1）。虽然这种类似性在意料之中(因为这两个蛋白质

2、的功能是一样的），但是有些情况下这种比较却获得了我们意料之外的结果。例如血管生成素(angiogenin)是能够刺激血管生成的蛋白质。但是血管生成素的三维结构与核酸酶三维结构非常相似，说明血管生成素和核酸酶属于同一蛋白家族（图6.2）。因此它们肯定来自同一祖先分子。图6.1 牛和人核酸酶结构。功能类似性的蛋白质常常具有结构类似性。Drawn from 8RAT.pdb. and 2RNF.pdb图6.2 血管生成素的结构。该蛋白质能促进血管生长，具有与核酸酶非常相似的三维结构。遗憾的是，知道三维结构的蛋白质数量有限。我们知道很多蛋白质的编码基因序列或氨基酸序列（得益于DNA克隆和DNA序列测定

3、）。在蛋白质氨基酸序列水平就能观测到蛋白质的进化关系。例如牛核糖核酸酶和血管生成素的氨基酸序列有35%的氨基酸残基是一致的。那么这种相似性水平是否足以保证蛋白质的进化关系？如果不够，需要多高的相似性才能说明蛋白质有进化关系？本章介绍氨基酸序列比较的方法和推测蛋白质进化关联的方法。序列比较已经成为现代生物化学研究的最有力工具之一。最新鉴定的新序列与数据库比较，确定与该序列相关的分子。利用这些信息，能够研究具有这种新近测序分子功能和机制。如果三维结构也清楚，我们能比较三维结构、证实序列比较的结论，还能揭示那些序列比较没有发现的成员。考察现有蛋白序列的脚印，生化学家成了分子考古学家，能了解分子进化史

4、所发生的事件。序列比较能够确定进化途径、估计特定进化事件发生的时间。利用这些信息能够构建特定蛋白质或核酸从古生菌和细菌到真核生物（包括人类）的进化树。也可以用实验方法研究分子进化。有些化石的DNA分子也可以进行PCR扩增和测序，直接观察古代的分子序列。此外科研人员也可以进行一些核酸复制实验观察实验室的分子进化。这些研究的结果能揭示更多的分子进化机制。6.1 同源物来自同一祖先生物化学进化的研究主要是确定蛋白质、其它生物分子、以及生物化学途径如何随着时间发生的变化。来自同一祖先的两个物体就是同源关系。同源（homologus）分子或同源物（homologs）可以分为两类（图6.3）。侧向同源物(

5、paralogs)指同种生物的同源物。直向同源物(orthologs)指不同物种间具有非常相似甚至一致功能的同源物。了解分子间的同源性能够揭示分子的进化历史和它们的生物功能。如果新近测序的蛋白质与功能已知蛋白具有同源性，那么这个新近测序的蛋白质也可能具有这样的生物功能。如何确定人类两种蛋白质具有侧向同源？如何确定人类蛋白和酵母蛋白具有直向同源？我们在6.2节要介绍这方面的内容。核酸序列或氨基酸序列之间有显著的类似性常常表明这些物质之间有同源性。当然，三维结构比较更能揭示生物分子的同源性。图6.3 两类同源蛋白。不同生物体内执行类似甚至相同功能蛋白质属于垂直同源物 (ortholog)。而同一物

6、种内执行不同功能的相似蛋白叫侧向同源蛋白（paralog)。6.2 序列比对的统计分析检测同源性(homology)两个分子之间有显著的序列类似性提示这两个分子可能有共同的进化祖先，因此有同样的三维结构、生物功能和作用机制。虽然核酸序列和蛋白质序列都可用来进行序列比对，但是蛋白质氨基酸序列比对更好。最显著的原因是构建蛋白质的单体有20种，而构建核酸的单体只有4种。为了解释蛋白质比较的方法，我们先考察球蛋白。肌红蛋白是肌肉组织的氧结合蛋白，而血红蛋白是血液的载氧蛋白（第7章）。这两种蛋白质都有血红素辅基（一种有铁的有机分子，能结合氧）。人血红蛋白有4个多肽链，每个多肽链结合一个血红素辅基。这四个

7、多肽链分别是两个完全一样的?链和两个完全一致的?链。此处我们仅考察?链。研究人血红蛋白?链的氨基酸序列与人肌红蛋白氨基酸序列之间的类似性（图6.4）。为了确定这两个序列之间的类似性，建立了序列比对方法。图6.4 人血红蛋白?链和人肌球蛋白进行序列比对。?链血红蛋白有141个氨基酸，肌红蛋白有153个氨基酸。如何比对两个序列？最简单的方法是将一个蛋白质的氨基酸序列与另一个蛋白质的氨基酸序列进行所有可能的比对，记录各种比对所获得的一致残基的数目。这种比对不难，只需每次将一个序列沿着另一个序列滑行一位，计算匹配氨基酸残基的数量（图6.5）。图6.5 人血红蛋白?链和人肌球蛋白进行序列比对。（A）一条

8、序列沿另一条序列滑行，进行序列比对（每次滑行一个氨基酸位点），统计两条多肽链中氨基酸一致的位点数量。（B) 匹配数量最多的比对模式（上），将一致氨基酸位点数量(纵轴）与滑行位点（横轴）作图（下）。?链和肌红蛋白最佳比对只有23个位点是一致的，分散在多肽链中央区域。但是，相近的比对有22个一致位点，而且这些位点集中于蛋白质的N-端。如果在比对过程中引入缺口，就能将上述两种比对的大多数一致位点都囊括进来（图6.6）。在比对过程中需要添加这种缺口以补偿基因进化过程中出现的插入或缺失。图6.6 添加缺口的比对。人血红蛋白?链和肌红蛋白在加入缺口后的序列比对。但是用缺口的办法增加了序列比对的复杂性，因为

9、序列比对时所选择的缺口大小有人为因素。现在已建立了计算机自动进行序列比对时添加缺口的方案。这种方法采用打分系统评估各种比对方案，利用缺口惩罚来排除序列比对时出现的不合理缺口。例如一致位点加10分，一个缺口（无论缺口大小）扣25分。图6.6的比对方案得355分(38个一致位点和一个缺口， 38 x 10 - 1 x 25 = 355）。这样，这两个蛋白质之间氨基酸一致性就达到25.9% （两个蛋白质平均长度是147氨基酸残基，有38个一致位点）。下面的问题是，这样的一致性是否属于明显类似？用重排的方法估计比对的统计学意义图6.5展示的序列类似性似乎是显著的，但是不能排除偶然出现了这些一致性的可能

10、。如何评估这些偶然性？采用的策略是将某一蛋白质的氨基酸序列进行随机重排（shuffling)，然后将重排所得蛋白序列与目标序列比对（图6.7）。重复这一过程，构建出各种重排蛋白的得分。采用这种策略，肌红蛋白和血红蛋白?链之间权威比对就凸现出来（图6.8）。权威比对的数值远高于随机重排蛋白的平均值。随机重排1020次，才出现一次这种比对值。因此我们可以轻松地认为这两个序列确实是类似的。最简单的解释是这两种蛋白序列来自同一祖先，属于同源物。图6.7 重排产生的一个新序列。图6.8 比对计分的统计比较。计算重排序列比对的计分值，产生该计分值出现的次数。用出现次数对比对计分值作图。该图表示随机重排序列

11、比对的积分分布。?链和肌红蛋白序列比对计分（红色）远远高于随机重排的计分，强烈提示这两个蛋白序列相似性明显。采用替代矩阵确定进化关系上述打分方案只关心一致位点和缺口，没有考虑那些不一致的位点。但是，并不是所有不一致位点（即替代位点）都是等效的。有些替代是保守替代，即用性质和结构相似的氨基酸进行的替代。保守替代对蛋白质功能影响最小。有些替代用性质和结构完全不同的氨基酸进行替代。此外，有些替代只需更换一个核苷酸，有些替代要更换两个或三个核苷酸。保守替代或单核苷酸替代发生频率比非保守性替代的频率高。那么，当我们进行序列比对时，如何评价不同的替代？要解决这个问题，首先要考察有进化关系的蛋白质分子中已经

12、存在的氨基酸替代。基于序列适当比对的数据，人们提出了替代矩阵。在该矩阵中，那些发生频率高的替代，得分高；那些发生频率非常少的替代，失分就多。图6.9是Blosum-62替代矩阵。从该表可以看出半胱氨酸和色氨酸比丝氨酸和丙氨酸保守得多。而且结构上保守的替代，如赖氨酸替代精氨酸、异亮氨酸替代颉氨酸，得分就比较高。在进行两个序列比对时，要给每个替代打分。对缺口的打分也细化了。一个氨基酸残基缺口扣12分，在此基础上缺口每增加一个残基加扣2分。采用这种打分方式，图6.6比对就能够获得115分。大多数替代是保守替代(得分是正值），极少数替代是稀有替代（得分是负值）（图6.10）。图6.9 Blosum-6

13、2替代矩阵。考察同源蛋白各种替代发生的机会，制定该打分方案。氨基酸归为四类：带电氨基酸（红色）；极性氨基酸（绿色）；大的非极性氨基酸（蓝色）；其它氨基酸（黑色）。只需要改变一个核苷酸的替代用阴影标出。当你寻找一种替代应该给出的打分时，你在顶部寻找原来的氨基酸（在每列的顶部），然后向下寻找替代氨基酸，从表格左边查找相应的得分。图6.10 考虑保守替代的序列比对。?链和肌红蛋白序列比对，保守替代用黄色涂出，相同氨基酸用桔子颜色涂出（在框内）。这种打分系统在比对那些序列缺乏明显相关性的蛋白质方面，其灵敏度比仅仅依靠一致性位点打分系统高。例如豆血红蛋白(leghemoglobin)是一些植物根部的氧结

14、合蛋白，其氨基酸序列与人血红蛋白氨基酸序列进行比对。重复重排和打分的分布值见图6.11。基于一致性进行的打分，用重排打分评价是20次重排就有一次机会产生的得分与一致性打分系统得分相同，因此是一种偶然性类似。相反用替代矩阵打分系统打分，用重排打分评价是300次才有一次机会得分与替代矩阵打分系统相同的得分。因此用矩阵打分系统得出的蛋白进化关联性结论更可靠（图6.12）。基于序列分析的经验得到了一些简单的评估原则。对于长度超过100氨基酸的两个蛋白质，序列一致性超过25%就不可能是偶然的，很可能是同源物。相反，序列一致性低于15%的两个蛋白质仅仅依靠匹配比较显示的类似性没有显著的统计意义。而序列一致

15、性在15% 25%之间的蛋白质，需要进一步分析以确定比对的统计意义。必须指出，序列相似性在统计上不明显的蛋白质也有可能是同源物。从同一祖先进化而来的很多蛋白质差异化程度高至序列比对无法看出它们的同源性。这类同源蛋白的三维结构相似。图6.11 一致性比对和Blosum 62矩阵比对。重复重排打分对豆血红蛋白和人肌红蛋白序列比对进行评估，简单一致性比对(A)和Blosum 62矩阵打分比对(B)。红色显示真正序列的比对，说明Blosum矩阵打分的统计意义明显。图6.12 人肌红蛋白和豆血红蛋白进行的序列比对（采用Blosum 62替代矩阵打分系统）。保守替代用黄色涂出，相同氨基酸加框，用桔子颜色涂

16、出。搜寻数据库、确定同源序列确定一个蛋白序列后，首先要做的事情就是将这个蛋白质的氨基酸序列与所有已经鉴定的蛋白序列比较，从而了解这种蛋白质的进化、结构与功能。就是采用前面介绍的比对方案将这个蛋白质的氨基酸序列与序列已知蛋白数据库的所有成员进行比对。最常用的同源序列搜寻可以在国立生物技术信息中心网站(www.ncbi.nih.gov)完成。所用的方法是BLAST搜寻（基本局部比对搜寻工具，basic local alignment search tool)。氨基酸序列可以打印或粘贴到网站上，进行搜寻。最常用的是进行所有已知序列非冗余数据库搜寻。截至2004年，该数据库有300多万序列。BLAST搜寻产生一个序列比对表，每栏数据后标出了偶然发生这种相似性的几率（图6.

展开阅读全文

六生物信息学和进化与研究方法

最新文档