《多序列对位排列分析和系谱分析》由会员分享,可在线阅读,更多相关《多序列对位排列分析和系谱分析(3页珍藏版)》请在金锄头文库上搜索。
1、第五章第五章 多序列对位排列分析和系谱分析多序列对位排列分析和系谱分析双序列比对是序列分析的基础。与序列两两比对不一样,序列多重比对 (Multiple Alignment)的目标是发现多条序列的共性。如果说序列两两比对主 要用于建立两条序列的同源关系和推测它们的结构、功能,那么,同时比对一 组序列对于研究分子结构、功能及进化关系更为有用。例如,某些在生物学上 有重要意义的相似性只能通过将多个序列对比排列起来才能识别。同样,只有 在多序列比对之后,才能发现与结构域或功能相关的保守序列片段。对于一系 列同源蛋白质,人们希望研究隐含在蛋白质序列中的系统发育的关系,以便更 好地理解这些蛋白质的进化。
2、在实际研究中,生物学家并不是仅仅分析单个蛋 白质,而是更着重于研究蛋白质之间的关系,研究一个家族中的相关蛋白质, 研究相关蛋白质序列中的保守区域,进而分析蛋白质的结构和功能。序列两两 比对往往不能满足这样的需要,难以发现多个序列的共性,必须同时比对多条 同源序列。目前对多序列比对的研究还在不断前进中,现有的大多数算法都基 于渐进的比对的思想,在序列两两比对的基础上逐步优化多序列比对的结果。 通过序列的多重比对,可以得到一个序列家族的序列特征。当给定一个新序列 时,根据序列特征,可以判断这个序列是否属于该家族。对于多序列比对,现 有的大多数算法都基于渐进比对的思想,在序列两两比对的基础上逐步优化
3、多 序列比对的结果。进行多序列比对后,可以对比对结果进行进一步处理,例如 构建序列的特征模式,将序列聚类,构建分子进化树等。5.1 多序列比对的意义多序列比对的意义 多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之 间的相似性关系,以便对一个基因家族的特征有一个简明扼要的了解。与双序 列比对一样,多序列比对的方法建立在某个数学或生物学模型之上。因此,正 如我们不能对双序列比对的结果得出“正确或错误”的简单结论一样,多序列 比对的结果也没有绝对正确和绝对错误之分,而只能认为所使用的模型在多大 程度上反映了序列之间的相似性关系以及它们的生物学特征。显然,多序列比 对需要使用许多
4、专门的分析工具。除了一些已经广泛使用并仍在不但改进的多 序列计算机程序外,还需要有一个开发方便实用的多序列比对手工编辑工具。 可以从多个不同角度出发构建多序列比对模型。这里,主要指建立比对模型的 生物学基础,而不仅是具体的比对方法,如自动比对或手动比对等。目前,构 建多序列比对模型的方法大体可以分为两大类。第一类是基于氨基酸残基的相 似性,如物化性质、残基之间的可突变性等。另一类方法则主要利用蛋白质分 子的二级结构和三级结构信息,也就是说根据序列的高级结构特征确定比对结 果。显然,这两种方法所得结果可能有很大差别。一般说来,很难断定哪种方 法所得结果一定正确,应该说,它们从不同角度反映蛋白质序
5、列中所包含的生 物学信息。基于序列信息和基于结构信息的比对都是非常重要的比对模型,但 它们都有不可避免的局限性,因为这两种方法都不能完全反映蛋白质分子所携 带的全部信息。我们知道,蛋白质序列是经过 DNA 序列转录翻译得到的。从 信息论的角度看,它应该与 DNA 分子所携带的信息更为“接近”。而蛋白质结 构除了序列本身带来的信息外,还包括经过翻译后加工修饰所增加的结构信息, 包括残基的修饰,分子间的相互作用等,最终形成稳定的天然蛋白质结构。因 此,这也是对完全基于序列数据比对方法批评的主要原因。显然,如果能够利 用结构数据,对于序列比对无疑有很大帮助。不幸的是,与大量的序列数据相比,实验测得的
6、蛋白质三维结构数据实在少得可怜。在大多数情况下,并没有 结构数据可以利用,我们只能依靠序列的相似性和一些生物化学特性建立一个 比较满意的多序列比对模型。5.2 多序列比对的定义多序列比对的定义 顾名思义,多序列比对就是把两条以上可能有系统进化关系的序列进行比对的 方法。目前对多序列比对的研究还在不断前进中,现有的大多数算法都基于渐 进的比对的思想,在序列两两比对的基础上逐步优化多序列比对的结果。进行 多序列比对后可以对比对结果进行进一步处理,例如构建序列模式的 profile, 将序列聚类构建分子进化树等等。5.3 多序列比对的方法多序列比对的方法 目前使用最广泛的多序列比对程序是 Clust
7、al,它是由 Feng 和 Doolittle 于 1987 年提出的。Clustal 的基本思想是基于相似序列通常具有进化相关性这一假设。 作为程序的一部分,Clustal 可以输出用于构建进化树的数据。Clustal 程序有许 多版本,ClustalW(它的 PC 版本是 CLUSTALX)。CLUSTALW 是一种渐进的比 对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后 根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从 最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有 序列都被加入为止。CLUSTALW 的程序可以自由使用,在
8、 NCBI 的 FTP 服务 器上可以找到下载的软件包。CLUSTALW 程序用选项单逐步指导用户进行操 作,用户可根据需要选择打分矩阵、设置空位罚分等。EBI 的主页还提供了基 于 Web 的 CLUSTALW 服务,用户可以把序列和各种要求通过表单提交到服务 器上,服务器把计算的结果用 Email 返回用户。CLUSTALW 对输入序列的格式 比较灵活,可以是前面介绍过的 FASTA 格式,还可以是 PIR、SWISS- PROT、GDE、Clustal、GCG/MSF、RSF 等格式。输出格式也可以选择,有 ALN、GCG、PHYLIP 和 GDE 等,用户可以根据自己的需要选择合适的输
9、出格 式。用 CLUSTALW 得到的多序列比对结果中,所有序列排列在一起,并以特 定的符号代表各个位点上残基的保守性, “*”号表示保守性极高的残基位点;“.” 号代表保守性略低的残基位点。 EBI 的 CLUSTALW 网址是:http:/www.ebi.ac.uk/clustalw/。 下载 CLUSTALW 的网址是:ftp:/ftp.ebi.ac.uk/pub/software/。5.4 系统进化树系统进化树 系统发育学研究的是进化关系,系统发育分析就是要推断或者评估这些进化关 系。通过系统发育分析所推断出来的进化关系一般用分枝图表(进化树)来描 述,这个进化树就描述了同一谱系的进化
10、关系,包括了分子进化(基因树) 、物 种进化以及分子进化和物种进化的综合。因为”clade”这个词(拥有共同祖先的 同一谱系)在希腊文中的本意是分支,所以系统发育学有时被称为遗传分类学 (cladistics)。在现代系统发育学研究中,研究的重点已经不再是生物的形态学特 征或者其他特性,而是生物大分子尤其是序列。构建系统进化树的主要步骤是 比对序列,建立取代模型,建立进化树以及进化树评估。5.4.1 建立数据模型(比对)建立数据模型(比对) 建立一个比对模型的基本步骤包括:选择合适的比对程序;然后从比对结果中提取系统发育的数据集,至于如何提取有效数据,取决于所选择的建树程序如 何处理容易引起歧
11、义的比对区域和插入/删除序列(即所谓的 indel 状态或者空 位状态) 。 一个典型的比对过程包括:首先应用 ClustalW 程序,然后进行手工比对,最后 提交给一个建树程序。这个过程有如下特征选项:(1)部分依赖于计算机(也 就是说,需要手工调整) ;(2)需要一个先验的系统发育标准(即需要一个前 导树) ;(3)使用先验评估方法和动态评估方法(推荐)对比对参数进行评估; (4)对基本结构(序列)进行比对(对于亲水氨基酸,推荐引入部分二级结构 特征) ;(5)应用非统计数学优化。这些特征选项的取舍依赖于系统发育分析 方法。5.4.2 决定取代模型决定取代模型 取代模型既影响比对,也影响建
12、树;因此需要采用递归方法。对于核酸数据而 言,可以通过取代模型中的两个要素进行计算机评估,但是对于氨基酸和密码 子数据而言,没有什么评估方案。其中一个要素是碱基之间相互取代的模型; 另外一个要素是序列中不同位点的所有取代的相对速率。还没有一种简单的计 算机程序可以对较复杂的变量(比如,位点特异性或者系统特异性取代模型) 进行评估,同样,现有的建树软件也不可能理解这些复杂变量。5.4.3 建树方法建树方法 三种主要的建树方法分别是距离、最大节约(maximum parsimony, MP)和最大 似然(maximum likelihood,ML) 。最大似然方法考察数据组中序列的多重比对 结果,
13、优化出拥有一定拓扑结构和树枝长度的进化树,这个进化树能够以最大 的概率导致考察的多重比对结果。距离树考察数据组中所有序列的两两比对结 果,通过序列两两之间的差异决定进化树的拓扑结构和树枝长度。最大节约方 法考察数据组中序列的多重比对结果,优化出的进化树能够利用最少的离散步 骤去解释多重比对中的碱基差异。5.4.4 评估进化树和数据评估进化树和数据 现在已经有一些程序可以用来评估数据中的系统发育信号和进化树的健壮性。 对于前者,最流行的方法是用数据信号和随机数据作对比实验(偏斜和排列实 验) ;对于后者,可以对观察到的数据重新取样,进行进化树的支持实验(非参 数自引导和对折方法) 。似然比例实验可以对取代模型和进化树都进行评估。