《序列两两比对》PPT课件

资源描述

《《序列两两比对》PPT课件》由会员分享，可在线阅读，更多相关《《序列两两比对》PPT课件（51页珍藏版）》请在金锄头文库上搜索。

1、第三章第三章序列两两比对序列两两比对王红岩王红岩1 1主要内容序言序列比对的方法比对用到的得分矩阵序列比对的统计学显著性总结2 2序言序列比较是生物信息分析的基础。它是分析新测定序列结构与功序列比较是生物信息分析的基础。它是分析新测定序列结构与功能的第一阶段。随着生物序列以指数级速度被测定出来，通过对新测能的第一阶段。随着生物序列以指数级速度被测定出来，通过对新测定序列与数据库中已有的序列进行比较来推断新序列功能和进化关系定序列与数据库中已有的序列进行比较来推断新序列功能和进化关系变的方法变得越来越重要，这种比较最基本的方法是序列比对，也就变的方法变得越来越重要，这种比较最基本的方法是序

2、列比对，也就是比较序列来找出一种共同的字符模式以建立相关序列的残基残基是比较序列来找出一种共同的字符模式以建立相关序列的残基残基之间的一致性。序列两两比对就是对两条序列的比对，它是数据库相之间的一致性。序列两两比对就是对两条序列的比对，它是数据库相似性搜索的基础。似性搜索的基础。3 3序言进化基础 DNADNA和蛋白质是进化的产物。它们可以被认为是编码数百万年和蛋白质是进化的产物。它们可以被认为是编码数百万年进化史的分子化石。在进化史上，这些分子经历了随机变化过程，期进化史的分子化石。在进化史上，这些分子经历了随机变化过程，期中一些被进化所选择而保留了下来。这些被选择的序列逐渐积累突变中一些

3、被进化所选择而保留了下来。这些被选择的序列逐渐积累突变和交叉，进化的痕迹在序列的某些部分被保留下来从而可以识别它们和交叉，进化的痕迹在序列的某些部分被保留下来从而可以识别它们共同的祖先。进化痕迹的存在是由于一些对序列结构和功能起关键作共同的祖先。进化痕迹的存在是由于一些对序列结构和功能起关键作用的残基倾向于被自然选择所保留；而另一些不起关键作用的残基倾用的残基倾向于被自然选择所保留；而另一些不起关键作用的残基倾向于频繁的改变。例如，一个酵母家族的活性位点残基倾向于被保存向于频繁的改变。例如，一个酵母家族的活性位点残基倾向于被保存下来是由于它们对催化功能起作用。所以，通过序列比对，保守的和下来是

4、由于它们对催化功能起作用。所以，通过序列比对，保守的和改变了的序列模式就能被识别出来。在比对中序列的保守度体现了不改变了的序列模式就能被识别出来。在比对中序列的保守度体现了不同序列之间的进化关系。反之，序列之间的差别反映了在进化的过程同序列之间的进化关系。反之，序列之间的差别反映了在进化的过程中序列以替换、插入和删除残基的形式发生了变化。中序列以替换、插入和删除残基的形式发生了变化。4 4序言识别序列的进化关系能帮助我们描绘未知序列的功能。当一组序列识别序列的进化关系能帮助我们描绘未知序列的功能。当一组序列的比对显示出了显著的相似性，我们就认为它们属于同一个家族。如果的比对显示出了显著的相

5、似性，我们就认为它们属于同一个家族。如果这个家族中一个成员的结构或功能已知，那么它的这些信息就可以推广这个家族中一个成员的结构或功能已知，那么它的这些信息就可以推广到家族中其它没有通过实验验证的序列。所以序列比对可以用于预测未到家族中其它没有通过实验验证的序列。所以序列比对可以用于预测未知结构和功能的序列的结构和功能。知结构和功能的序列的结构和功能。序列比对可以用来推断两条序列是否是相关的。如果两条序列显著序列比对可以用来推断两条序列是否是相关的。如果两条序列显著相似，那么这种相似性是随机产生的可能性非常小，也就是说这两条序相似，那么这种相似性是随机产生的可能性非常小，也就是说这两条序列有共

6、同的进化起源。当一个序列比对被正确的做出来，它就反应了两列有共同的进化起源。当一个序列比对被正确的做出来，它就反应了两条序列的进化关系：相同位置出现不同残基的区域代表残基替换；一条条序列的进化关系：相同位置出现不同残基的区域代表残基替换；一条序列的残基对应另一条序列的空位的区域代表在进化的过程中一条序列序列的残基对应另一条序列的空位的区域代表在进化的过程中一条序列出现过残基插入或删除。有一种情况也是可能的，那就是来源于同一祖出现过残基插入或删除。有一种情况也是可能的，那就是来源于同一祖先的两条序列在某种程度上分离以至于它们有共同祖先的关系已经不能先的两条序列在某种程度上分离以至于它们有共同祖先

7、的关系已经不能从序列的水平上识别了。如果那样的话，它们的进化距离就必须通过其从序列的水平上识别了。如果那样的话，它们的进化距离就必须通过其它的方法识别了。它的方法识别了。5 5序言序列同源（序列同源（homologyhomology）与序列相似（）与序列相似（similaritysimilarity）序列同源是序列分析的一个重要概念。当两条序列来源于共同的进序列同源是序列分析的一个重要概念。当两条序列来源于共同的进化祖先我们就说它们是同源关系。一个相关但不同的术语是序列相似，化祖先我们就说它们是同源关系。一个相关但不同的术语是序列相似，它是指比对的残基在理化性质，如大小，带电，疏水性等方面

8、相似的程它是指比对的残基在理化性质，如大小，带电，疏水性等方面相似的程度。度。序列同源是根据序列比对时两条序列相似性高到一定程度推导出来序列同源是根据序列比对时两条序列相似性高到一定程度推导出来的两条序列具有共同祖先的一种关系。而序列相似通过观察序列比对结的两条序列具有共同祖先的一种关系。而序列相似通过观察序列比对结果直接得出的一种结论。序列相似可以用百分比来量化，而序列同源只果直接得出的一种结论。序列相似可以用百分比来量化，而序列同源只能取能取“ “是是“ “或或“ “不是不是“ “。大体说来，如果两条序列的相似性足够高，我们就可以认为它们是大体说来，如果两条序列的相似性足够高，我们就可

9、以认为它们是同源的。但是在实际问题中，到底多高的相似性才能认为是同源的是不同源的。但是在实际问题中，到底多高的相似性才能认为是同源的是不清除的。答案依赖于被处理的序列类型和序列的长度。清除的。答案依赖于被处理的序列类型和序列的长度。6 6序言序列同源（序列同源（homologyhomology）与序列相似（）与序列相似（similaritysimilarity）对于对于DNADNA序列，由于只存在四种碱基，两条不相关的序列同一位置序列，由于只存在四种碱基，两条不相关的序列同一位置至少有至少有25%25%的机会相同，而对于蛋白质序列，一共有的机会相同，而对于蛋白质序列，一共有2020中氨基酸

10、，所以中氨基酸，所以不相关的序列中出现同一氨基酸的概率为不相关的序列中出现同一氨基酸的概率为5%5%。序列长度也是一个关键因。序列长度也是一个关键因素。序列越短随机出现相同的残基的概率就高，序列越长随机相同的概素。序列越短随机出现相同的残基的概率就高，序列越长随机相同的概率就越小。率就越小。这就要求对短的序列给予高的阈值来判断它们同源。例如，对于有这就要求对短的序列给予高的阈值来判断它们同源。例如，对于有100100个氨基酸的蛋白质序列，如果全局比对有个氨基酸的蛋白质序列，如果全局比对有30%30%或更高的残基相同，就或更高的残基相同，就认为它们很有可能同源，这个范围被称为认为它们很有可能同

11、源，这个范围被称为“ “安全范围安全范围” ”；如果有；如果有20%20%30%30%的氨基酸相同，它们的同源关系就不那么肯定了，这个范围被称为的氨基酸相同，它们的同源关系就不那么肯定了，这个范围被称为“ “模糊范围模糊范围” ”；如果有低于；如果有低于20%20%的氨基酸相同，那么就很难认为它们具的氨基酸相同，那么就很难认为它们具有同源关系，这个范围被称为有同源关系，这个范围被称为“ “黑暗范围黑暗范围” ”（P33P33图图3.1)3.1)。这是一种不精。这是一种不精确的方法，尤其是对模糊范围很难判定是否同源，后面介绍的序列比对确的方法，尤其是对模糊范围很难判定是否同源，后面介绍的序列比对

12、的统计学上的显著性将会给出精确的方法判断序列是否同源。的统计学上的显著性将会给出精确的方法判断序列是否同源。7 7序言序列相似（序列相似（similaritysimilarity）与序列一致（）与序列一致（identityidentity）序列比对中用到的另一对相关术语是序列相似与序列一致。这两个序列比对中用到的另一对相关术语是序列相似与序列一致。这两个概念对于核苷酸序列是同义的。而对于蛋白质序列，这两个概念是非常概念对于核苷酸序列是同义的。而对于蛋白质序列，这两个概念是非常不同的。在蛋白质序列比对中，序列一致是指待比对的两条序列中相同不同的。在蛋白质序列比对中，序列一致是指待比对的两条序

13、列中相同残基匹配的比例；序列相似是指待比对的两条序列中很容易彼此替换具残基匹配的比例；序列相似是指待比对的两条序列中很容易彼此替换具有相似理化性质残基匹配的比例。有两种方法计算序列相似有相似理化性质残基匹配的比例。有两种方法计算序列相似/ /一致度。一致度。一种方法是用两条序列的全部长度，而另一种是利用较短的序列进一种方法是用两条序列的全部长度，而另一种是利用较短的序列进行标准化。第一种方法用如下公式计算序列相似度：行标准化。第一种方法用如下公式计算序列相似度： S=(L S=(Ls s*2)/(L*2)/(La a+L+Lb b)*100)*100其中其中S S是序列相似的百分比，是序列相

14、似的百分比，L Ls s是相似的残基数目，是相似的残基数目，L La a和和L Lb b分别是两条分别是两条序列的长度。序列的长度。8 8序言序列相似（序列相似（similaritysimilarity）与序列一致（）与序列一致（identityidentity）第一种方法用如下公式计算序列一致度：第一种方法用如下公式计算序列一致度： I=(L I=(Li i*2)/(L*2)/(La a+L+Lb b)*100)*100其中其中I I是序列一致的百分比，是序列一致的百分比，L Li i是一致的残基数目，是一致的残基数目，L La a和和L Lb b分别是两条序分别是两条序列的长度。列的长

15、度。第二种方法利用如下公式计算序列的一致第二种方法利用如下公式计算序列的一致/ /相似度：相似度： I(S)%=L I(S)%=Li i( (S S)/L)/La a% 其中其中L La a是较短序列的长度。是较短序列的长度。9 9序列比对的方法序列两两比对的最终目的是找到两条序列的最佳匹配，也就是找到序列两两比对的最终目的是找到两条序列的最佳匹配，也就是找到残基之间的最大相似。为了达到这个目标，一条序列需要相对于另一条残基之间的最大相似。为了达到这个目标，一条序列需要相对于另一条序列移动以找到具有最大相似程度的位置。有两种经常用到的不同的比序列移动以找到具有最大相似程度的位置。有两种经常

16、用到的不同的比对策略：全局比对和局部比对。对策略：全局比对和局部比对。全局比对和局部比对全局比对和局部比对在全局比对中，我们假定两条序列在整个长度上是相似的。全局比在全局比对中，我们假定两条序列在整个长度上是相似的。全局比对时我们从头到尾的比较两条序列以找到最佳匹配。这种方法很适用于对时我们从头到尾的比较两条序列以找到最佳匹配。这种方法很适用于比对两条大体上长度相同且极度相似的序列。对于发散的不同长度的序比对两条大体上长度相同且极度相似的序列。对于发散的不同长度的序列，这种方法不能产生最理想的结果因为它不能识别出两条序列中高度列，这种方法不能产生最理想的结果因为它不能识别出两条序列中高度相似的局部序列。相似的局部序列。在局部比对中，我们不假设两条序列全局相似，只是找两条序列中在局部比对中，我们不假设两条序列全局相似，只是找两条序列中高度相似的局部区域而不考虑其它区域。这种方法能比对比较分散的序高度相似的局部区域而不考虑其它区域。这种方法能比对比较分散的序列来找出列来找出DNADNA或蛋白质序列中的保守模式。被比对的两条序列可以不等或蛋白质序列中的保守模式。被比对的两条序列可以不等

展开阅读全文

《序列两两比对》PPT课件

最新文档