双序列比对的方法PPT课件

cl****1

实名认证

店铺

PPT

1.27MB

约71页

文档ID:590401672

1/71页

点击查看更多>>

文本预览下载提示常见问题

双序列比对郭志云1课程主线o序列比对基本概念o空位罚分o相似性与同源性o双序列比对方法n点阵序列比较(Dot Matrix Sequence Comparison)n动态规划算法(Dynamic Programming Algorithm)o记分矩阵2什么是序列比对？o序列比对(Sequence Alignment)是通过在序列中搜索一系列单个性状或性状模式来比较2个（双序列比对）或更多（多重序列比对）序列的方法o按比对序列条数分类n双序列比对：两条序列的比对n多序列比对：三条或以上序列的比对3我们为什么关注序列比对？o相似的序列可能具有相似的功能与结构o发现一个基因或蛋白哪些区域容易发生突变，哪些位点突变后对功能没有影响 o发现生物进化方面的信息4序列比对两种类型o全局序列比对全局序列比对l定义：在全局范围内对两条序列进行比对打分的方法l适合于非常相似且长度近似相等的序列o局部序列比对局部序列比对l定义：一种寻找匹配子序列的序列比对方法 l适合于一些片段相似而另一些片段相异的序列5序列比对两种类型6空位罚分(Gap Penalties)o空位为了获得两个序列最佳比对，必须使用空位和空位罚分o空位罚分分类：n空位开放罚分(Gap opening penalty)n空位扩展罚分(Gap extension penalty)o最优的序列比对通常具有以下两下特征：n尽可能多的匹配n尽可能少的空位o插入任意多的空位会产生较高的分数，但找到的并不一定是真正相似序列71 GTGATAGACAC ||| 1 GTGCATAGACAC　　空位罚分允许空位但不罚分不允许有空位 match = 5mismatch = -41 GTG-ATAGACAC ||| ||||||||1 GTGCATAGACAC　　1 GTG--ATAGACAC ||| ||||||||1 GTGC-ATAGACAC　　?Score: -21Score: 558空位罚分公式 A T G T T A T A CT A T G T G C G T A T A Score=4参数:匹配匹配= 1非匹配非匹配= 0g= 3r = 0.1x = 3score：Wx=g+r(x-1)Wx:空位总记分g:空位开放罚分r:空位扩展罚分x:空位长度T A T G T G C G T A T A insertion / deletionA T G T - - - T A T A CWx9双序列比对方法o点阵序列比较 (Dot Matrix Sequence Comparison)o动态规划算法 (Dynamic Programming Algorithm)o词或K串方法 (Word or K-tuple Methods)10点阵序列比较o点阵(Dot Matrix)分析是一种简单的图形显示序列相似性的方法o沿X轴上序列1中的每一个单元（核苷酸或氨基酸）与沿Y轴的第二个序列中的每一个单元进行比较，相同的区域在点阵图中显示为由点组成的对角线，对角线之外零散的点为背景噪音11IONIZATIONIONIZATION12IONIZATNOIIONIZATNOI13点阵分析的应用o自身比对n寻找序列中的正向或反向重复序列n蛋白质的重复结构域(domain)n相同残基重复出现的低复杂区(Low Complexity)nRNA二级结构中的互补区域等o对两条序列的相似性作整体的估计14点阵分析中的插入或删除TACTGTCAT T A C T G T T C A TSequence 1Sequence 2T A C T G - T C A T| | | | | | | | |T A C T G T T C A T插入空位插入空位15点阵分析的应用人类低脂受体(human low-density lipoprotein receptor)自身比对发现正向重复序列具有连续相似区域的两条DNA序列的简单点阵图正向重复16点阵分析实例o编码噬菌体λcⅠ（水平轴）和噬菌体P22 c2（垂直轴）的氨基酸序列间的点阵分析o相同的点打印全部打印，很难找到有用的信息17使用滑动窗口技术降低噪声T A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CT A C G G T A T G A C A G T A T CC T A T  G A C A T A C G G T A T GWindow=3 Word Size = 318ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size = 5Stringency = 3Match = 1 Mismatch = 019ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size = 5Stringency = 3Match = 1 Mismatch = 020ATACTACAAGACACGTACCGG C G A T G C A T T G A G T A T C A T AWindow size = 5Stringency = 3Match = 1 Mismatch = 021G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCGWindow size = 5Stringency = 3Match = 1 Mismatch = 022G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCG23G C G A T G C A T T G A G T A T C A T AATACTACAAGACACGTACCG24使用滑动窗口技术降低噪声（a）对人类（Homo sapiens）与黑猩猩（Pongo pygmaeus）的β球蛋白基因序列进行比较的完整点阵图（b）利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图，其中窗口大小为10个核苷酸，　　相似度阈值为8，即10个核苷酸中有8个相同时就打一个点ab25点阵分析的优缺点o优点n直观性，整体性n点阵分析不依赖空位(gap)参数，可寻找两序列间所有可能的残基匹配n不依赖任何先决条件，是一种可用于初步分析的理想工具n点阵分析允许随时动态地改变最高和最低界限值，可以用来摸索区分信号和背景标准的严格程度26点阵分析的优缺点o缺点n不能很好地兼容打分矩阵n滑动窗口和预值的选择过于经验化n信噪比低 n不适合进行高通量的数据分析27点阵分析程序oDNA Strider (Macintosh)n oDotter (Unix/Linux, X-Windows)oCOMPARE, DOTPLOT (GCG软件)oPLALIGN (FASTA)oDotlet2829动态规划算法o动态规划算法(Dynamic Programming Algorithm)是一种计算方法，它的主要思路是把一个问题分成若干个小问题来解决o在生物学中应用的两种动态规划算法：Needleman-Wunsch算法（全局比对）和Smith-Waterman算法（局部比对）30序列比对中某一位点匹配的三种可能性序列比对中某一位点匹配的三种可能性oEg. 匹配=1,非匹配=0, 空位罚分=-1nSequence1: CACGAnSequence2: CGA第一个位点得分剩余序列CC+1ACGAGA-C-1CACGAGAC--1ACGACGA31动态规划算法的正式表述Si,j这个位置的分数为图中箭头所示三个方向值中最大的一个i -xi -1j -1i -yji Si - x,j - wx Si –1, j- 1 + s(ai , bj)Si, j - y - wy Si, j 32动态规划算法的数学形式Sij=max{Si-1,j-1,+s(aibj),maxx≥1 (Si-x,j-wx),maxy ≥ 1 (Si,j-y-wy)}Sij=max{Si-1,j-1,+s(aibj),maxx≥1 (Si-1,j-wx),maxy ≥ 1 (Si,j-1-wy)}公式一的简化公式一公式二说明：Sij是序列a在位置i和序列b在位置j的分值， s(aibj)是位置i 和j上比对分值，wx是在序列a 中长度为x的间隔罚分，wy是序列b中长度为y的间隔罚分33动态规划算法实例ACTTCGACTAG匹配＝3错配＝-1空位＝-234ACTTCG0ACTAG动态规划算法实例匹配＝3错配＝-1空位＝-235ACTTCG0-2ACTAG动态规划算法实例匹配＝3错配＝-1空位＝-236ACTTCG0-2-4-6-8-10-12ACTAG动态规划算法实例匹配＝3错配＝-1空位＝-237ACTTCG0-2-4-6-8-10-12A-2CTAG动态规划算法实例匹配＝3错配＝-1空位＝-238ACTTCG0-2-4-6-8-10-12A-2C-4T-6A-8G-10动态规划算法实例?S(2,2)-2+(-2)-2+(-2)0+3匹配＝3错配＝-1空位＝-239ACTTCG0-2-4-6-8-10-12A-23C-4T-6A-8G-10动态规划算法实例?S(2,3)-4+(-2) 3+(-2)-2+(-1)匹配＝3错配＝-1空位＝-240动态规划算法实例ACTTCG0-2-4-6-8-10-12A-231C-4T-6A-8G-10匹配＝3错配＝-1空位＝-241动态规划算法实例ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-14?A-8-3 2G-10-50S(4,4) 4+(-2) 4+(-2) 6+3匹配＝3错配＝-1空位＝-242动态规划算法实例ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149A-8-3 2G-10-50匹配＝3错配＝-1空位＝-243ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGT-CATTCCAA回回溯溯44ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGT-CATTCCAA45ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-3 27864G-10-505679GGTAC-TTCCAA46比对结果1.ACTTCGAC-TAG2.ACTTCGACT-AG3.ACTTCGACTA-G哪一个是最优比对哪一个是最优比对(optimal alignment)呢呢?记分矩阵47Needleman-Wunsch算法Seq1: MPRCLCQRJNCBASeq2: PBRCKCRNJCJA匹配匹配=1，错配，错配=0，空，空位罚分位罚分=048Needleman-Wunsch算法Seq1: MPRCLCQRJNCBASeq2: PBRCKCRNJCJA求出阴影部分所能达到的最大值填入当前位置，并记下到达这一位置的路径49Needleman-Wunsch算法Seq1: MPRCLCQRJNCBASeq2: PBRCKCRNJCJA550Needleman-Wunsch算法　 MP–RCLCQR–JNCBA –PBRCKC–RNJ–CJAResult：51 F(i-1,j-1) + s(ai, bj), F(i,j)= max F(i,j-1)-wy, F(i-1,j)-wx.0动态规划算法Smith-Waterman 算法Smith-Waterman算法52Smith-Waterman 算法AACCTATAGCT000000000000G000000000100C000110000021G000000000101A011000101000T000001021001A011000203210T000001132212A011000224321匹配匹配=1非匹配非匹配=-1空位空位=-153Smith-Waterman 算法AACCTATAGCT000000000000G000000000100C000110000021G000000000101A011000101000T000001021001A011000203210T000001132212A011000224321A A C – C T A T A G C T- G C G A T A T A - - -匹配匹配=1非匹配非匹配=-1空位空位=-154oGenetics Computer Group (GCG) 程序 GAP (Needleman-Wunsch algorithm) and BESTFIT (Smith-Waterman algorithm)o最相似的比对表示为 ‘:’, 较相似的表示为 ‘.’ 无相关的表示为空格, ‘ ’carboxy-terminal55记分矩阵与空位罚分oDNA计分矩阵o蛋白质计分矩阵o广泛使用的两种矩阵n PAM n BLOSUMo空位罚分56记分矩阵(SCORING MATRICES)oDNA Scoring MatricesoAmino Acid Substitution MatricesnPAM (Point Accepted Mutation) nBLOSUM (Blocks Substitution Matrix)57DNA计分矩阵actaccagttcatttgatacttctcaaataccattaccgtgttaactgaaaggacttaaagactSequence 1Sequence 2AGCTA1000G0100C0010T0001匹配: 1错配: 0分值：558转换和颠换CTAG嘧啶嘌呤• 表示转换(transition)，表示颠换(transversions)•转换比颠换更容易发生59转换和颠换AGTCA0.99G0.0060.99T0.0020.0020.99C0.0020.0020.0060.99转换速率是颠换3倍时的模型60蛋白质计分矩阵PTHPLASKTQILPEDLASEDLTIPTHPLAGERAIGLARLAEEDFGMSequence 1Sequence 2记分矩阵T:G= -2 T:T = 5Score= 48 CSTPAGND..C 9S-1 4T-1 1 5P-3-1-1 7A 0 1 0-1 4G-3 0-2-2 0 6N-3 1 0-2-2 0 5D-3 0-1-1-2-1 1 6 .. CSTPAGND..C 9S-1 4T-1 1 5P-3-1-1 7A 0 1 0-1 4G-3 0-2-2 0 6N-3 1 0-2-2 0 5D-3 0-1-1-2-1 1 6 ..61PAM( Percent Accepted Mutation)矩阵o氨基酸容易被其它生化、物理特性相似的氨基酸替换oPAM1(1个PAM单位）被定义为每100个残基出现一个被接受的点突变(氨基酸的置换不引起蛋白质功能上的显著变化）oPAMn是PAM1自乘n次oPAM250、PAM120、PAM80和PAM60矩阵可用于相似性分别为20%、40%、50%和60%的序列比对62 A R N D C Q E G H I L K M F P S T W Y V B ZA 2 -2 0 0 -2 0 0 1 -1 -1 -2 -1 -1 -3 1 1 1 -6 -3 0 2 1 R -2 6 0 -1 -4 1 -1 -3 2 -2 -3 3 0 -4 0 0 -1 2 -4 -2 1 2 N 0 0 2 2 -4 1 1 0 2 -2 -3 1 -2 -3 0 1 0 -4 -2 -2 4 3 D 0 -1 2 4 -5 2 3 1 1 -2 -4 0 -3 -6 -1 0 0 -7 -4 -2 5 4 C -2 -4 -4 -5 12 -5 -5 -3 -3 -2 -6 -5 -5 -4 -3 0 -2 -8 0 -2 -3 -4 Q 0 1 1 2 -5 4 2 -1 3 -2 -2 1 -1 -5 0 -1 -1 -5 -4 -2 3 5 E 0 -1 1 3 -5 2 4 0 1 -2 -3 0 -2 -5 -1 0 0 -7 -4 -2 4 5 G 1 -3 0 1 -3 -1 0 5 -2 -3 -4 -2 -3 -5 0 1 0 -7 -5 -1 2 1 H -1 2 2 1 -3 3 1 -2 6 -2 -2 0 -2 -2 0 -1 -1 -3 0 -2 3 3 I -1 -2 -2 -2 -2 -2 -2 -3 -2 5 2 -2 2 1 -2 -1 0 -5 -1 4 -1 -1 L -2 -3 -3 -4 -6 -2 -3 -4 -2 2 6 -3 4 2 -3 -3 -2 -2 -1 2 -2 -1 K -1 3 1 0 -5 1 0 -2 0 -2 -3 5 0 -5 -1 0 0 -3 -4 -2 2 2 M -1 0 -2 -3 -5 -1 -2 -3 -2 2 4 0 6 0 -2 -2 -1 -4 -2 2 -1 0 F -3 -4 -3 -6 -4 -5 -5 -5 -2 1 2 -5 0 9 -5 -3 -3 0 7 -1 -3 -4 P 1 0 0 -1 -3 0 -1 0 0 -2 -3 -1 -2 -5 6 1 0 -6 -5 -1 1 1 S 1 0 1 0 0 -1 0 1 -1 -1 -3 0 -2 -3 1 2 1 -2 -3 -1 2 1 T 1 -1 0 0 -2 -1 0 0 -1 0 -2 0 -1 -3 0 1 3 -5 -3 0 2 1 W -6 2 -4 -7 -8 -5 -7 -7 -3 -5 -2 -3 -4 0 -6 -2 -5 17 0 -6 -4 -4 Y -3 -4 -2 -4 0 -4 -4 -5 0 -1 -1 -4 -2 7 -5 -3 -3 0 10 -2 -2 -3 V 0 -2 -2 -2 -2 -2 -2 -1 -2 4 2 -2 2 -1 -1 -1 0 -6 -2 4 0 0 B 2 1 4 5 -3 3 4 2 3 -1 -2 2 -1 -3 1 2 2 -4 -2 0 6 5 Z 1 2 3 4 -4 5 5 1 3 -1 -1 2 0 -4 1 1 1 -4 -3 0 5 6 PAM 25063 u模块替换矩阵BLOSUM以序列片段为基础,它是基于蛋白质模块(Block)数据库而建立起来的 u 在模块比对的每一列中，分别计算两两氨基酸的变化情况,来自所有模块的数值被用来计算BLOSUM矩阵u矩阵后面的数字表示构建此矩阵所用的序列的相似程度，如BLOSUM62表示由相似度为62%的序列构建AACECA - C = 0A - E = -1C - E = -4A - A = 4C - C = 9AACECBLOSUM矩阵 (Blocks Substitution Matrix)64BLOSUM62 65如何选择合适的评分矩阵？n 一般来说,在局部相似性搜索上， BLOSUM 矩阵较PAM要好n当比较距离相近的蛋白时，应选择低的PAM或高的BLOSUM矩阵；当比较距离较远的蛋白时，应选择高的PAM或低的BLOSUM矩阵　n 对于数据库搜索来说一般选择BLOSUM62矩阵nPAM矩阵可用于寻找蛋白质的进化起源，BLOSUM矩阵用于发现蛋白质的保守域66相似性与同源性n同源性(Homologous Genes) ：序列来自共同的祖先，相似的序列往往具有同源性n相似性(Similarity)：两序列根据某种参数设定而表现出来的相近性67相似性与同源性的区别o相似的序列并不一定同源o相似性是可以被量化的“计分表”，它是匹配的数量除以比对的长度，通常以百分比%表示o同源性一定是指序列来自共同的祖先o同源性是一个定性的概念，不能使用序列间具有百分之多少同源性来定义68同源性分类n直系同源(Orthologs)：具有共同祖先与相似功能的同源基因（无基因复制事件）n旁系同源(Paralogs)：两个物种A和B的同源基因，分别是共同祖先基因组中由复制事件而产生的不同拷贝的后代69So this means …70谢谢！71。

下载提示

点击查看常见问题

相似文档

正为您匹配相似的精品文档