2015-4 多重序列比对及Clustal应用

上传人:n**** 文档编号:50796604 上传时间:2018-08-11 格式:PPT 页数:87 大小:3.72MB
返回 下载 相关 举报
2015-4 多重序列比对及Clustal应用_第1页
第1页 / 共87页
2015-4 多重序列比对及Clustal应用_第2页
第2页 / 共87页
2015-4 多重序列比对及Clustal应用_第3页
第3页 / 共87页
2015-4 多重序列比对及Clustal应用_第4页
第4页 / 共87页
2015-4 多重序列比对及Clustal应用_第5页
第5页 / 共87页
点击查看更多>>
资源描述

《2015-4 多重序列比对及Clustal应用》由会员分享,可在线阅读,更多相关《2015-4 多重序列比对及Clustal应用(87页珍藏版)》请在金锄头文库上搜索。

1、*1第四章 多重序列比对及应用滕虎生物统计学与生物信息学大连理工大学生命科学与技术学院*2目录目录n多重序列方法基础nClastalX应用n序列拼接与Bioedit应用n附:引物设计Primer Premier 5.0 软件使用*3目的: 发现多个序列的共性 发现与结构和功能相关的保守序列片段计算目标: 通过对多个序列的编辑处理,得到一个得分 最高(或代价最小)的序列对比排列,从而 分析各序列之间的相似性和差异。计算思路:在两两比对的基础上逐步优化多序列比对第一节第一节 多重序列比对方法多重序列比对方法*4n有k个序列s1, s2, . ,sk,每个序列由同一个字母表中 的字符组成,k2。n通

2、过插入空位操作,使得各序列达到一样的长度。1、多重序列的编辑操作*5二重比对打分函数:p (a, a) = 1p (a, b) = 0 a bp (a, -) = p ( -, b) = -1 多重比对的打分函数:p(a1, a2, , ak) =?期望: 函数在形式上应该简单 具有统一的形式 不随序列的个数而发生形式变化2、多重序列比对的打分函数s = AGCACACA t = ACACACTA*6SP评价模型得分函数(Sum-of-Pairs 逐对加和)按照每个比对的列进行打分,然后加和*7按照每个比对的列进行打分,然后加和SP评价模型得分函数(Sum-of-Pairs 逐对加和)逐对计算

3、p(1,2),p (1,3),., p(1,8),p (2,3),p(2,4),., p (2,8),.,p (7,8) 的所有得 分-6-6-5-4-2-2-1= -26 p(a,a)=0;p(-,-)=0Others = -1得分函数:*8其中,c1,c2,ck是一列中的k个字符,p是关于一对字符相似性的打分函数。逐对加和SP(sum-of-pairs)函数 *9另一种计算方式:先处理每一个序列对 在处理序列对时,逐个计算字符对,最后加和则SP得分模型的计算公式如下: 是一个多重比对 ij是由推演出来的序列s i 和s j的两两比对 注意:并非序列s i 和s j的最优比对*103、多重比

4、对的动态规划算法回顾:二重比对动态规划算法 ts ACACACTA0-1-2-3-4-5-6-7-8A-110-1-2-3-4-5-6 G-2010-1-2-3-4-5 C-3-11110-1-2-3 A-4-2021210-1 C-5-3-1132321 A-6-4-2024333 C-7-5-3-113543 A-8-6-4-202455*11三重序列的比对VSN- S-SNA- - -AS*12Si,jSi,j-1Si-1,jSi-1,j-1二重序列比对的矩阵元素算法三个前趋点当前点*13前趋节点的个数等于2k - 1 当前点:(1,1,1)前趋点:(0,0,0)(0,0,1)(0,1,

5、0)(1,0,0)(0,1,1)(1,0,1)(1,1,0)*14对于k个序列的比对,则构成K维超晶格 假设以k维数组A存放超晶格,则计算过程如下:a 0, 0, ,0 = 0a i = max a i - b + SP-score(Column(s, i, b) if bj = 1if bj = 0其中:i表示当前点b表示与i的距离*15问题:计算量巨大时间复杂度为O(2ki=1,.,k si)O(2kNk) *164 4、多重序列比对的简化方法、多重序列比对的简化方法n星形比对n在给定的若干序列中,选择一个核 心序列,通过该序列与其它序列的 两两比对形成所有序列的多重比对 。n树形比对nk

6、个待比对的序列 具有k个叶节 点的树,每个叶节点对应一个序列n多重序列比对 两两序列比对 合并两个比对(比对的比对)nDo Complete Alignment (Clustal、Bioedit)*17n目前使用最广泛的多重序列比对程序是 ClustalW 、ClustalXCLUSTAL网址 http:/www.clustal.org/ ClustalW2 http:/www.ebi.ac.uk/Tools/msa/clustalw2/ (retired) Clustal Omega http:/www.ebi.ac.uk/Tools/msa/clustalo/Clustal计算步骤: 输入

7、多个序列快速的序列两两比对,计算序列间 的距离,获得一个距离矩阵。邻接法(NJ)构建一 个树(引导树)根据引导树,渐进比对多个序列EBI Multiple Sequence AlignmentEBI Multiple Sequence Alignment*18*19第二节第二节 ClustalX 2.0ClustalX 2.0使用使用*20可以输出为.ps格式 以便于后期编辑不支持中文路径*21比对菜单比对菜单完全比对:先两两比对,根据距 离生成向导树,然后合并比对选择部分序列进行比对*22完全比对结果完全比对结果一致性比例*23参数设置菜单参数设置菜单*24多重比对参数设置多重比对参数设置*

8、25输出设置输出设置*26比对质量信息比对质量信息显示低分值片段; 显示特殊残基;*27Clustal的Profile比对模式*28ProfileProfile比对结果比对结果*29Profile比对应用例:结构比对的保守模式与 序列比对的保守模式进 行比较*30基因组测序策略(1)鸟枪法直接从已测序的小片段中寻找彼此重叠的测直接从已测序的小片段中寻找彼此重叠的测 序克隆,然后依次向两侧邻接的序列延伸序克隆,然后依次向两侧邻接的序列延伸. .ABCABCABCABC小片段测序计算机拼装第三节 序列组装及Bioedit应用*31先将染色体打成比较大的片段(几十-几百 Kb), 利用分子标记将这些

9、大片段排成重叠的克 隆群(Contig), 分别测序后拼装. 这种策略叫基于 克隆群(contig-based)的策略.ABCABC大片段contig小片段测序拼装基因组测序策略(2)克隆法*32基因组测序的最终环节序列组装(Assembly)方法:含有相同序列的短序列能相互重叠,按重叠 序列将片段连接可以形成更大的叠连群(Contig) 。*33定义:定义: 给定一组取自特定字母表的字符串集合给定一组取自特定字母表的字符串集合F F,寻找一,寻找一 个最短的字符串个最短的字符串s s,使得,使得F F中的每一个字符串都是中的每一个字符串都是s s 的一个连续子串。这里,集合的一个连续子串。这

10、里,集合F F的字符串相当于待的字符串相当于待 组装的序列片段,而组装的序列片段,而s s则是序列片段组装的结果。则是序列片段组装的结果。 Input AnswerACCGT -ACCGT-CGTGC -CGTGCTTAC TTAC-TACCGT -TACCGT- TTACCGTGC多重比对1 1、片段组装问题实质多重序列比对、片段组装问题实质多重序列比对*34(1)碱基错误Input AnswerACCGT -ACCGT-CGTGC -CGTGCTTAC TTAC-TGCCGT -TGCCGT- TTACCGTGC2、片段组装需要考虑的问题*35(2)不知道片段的方向 *36(3)存在重复区

11、域*37(4)缺少覆盖连续叠连群目标DNA片段不连续区域连续叠连群*38如果一个多重比对的最弱连接的交叠长度至少为 t,称这个 多重序列比对是 t-contig。如果能够根据序列片段集合F构 造一个t-contig,称F允许一个t-contig。多重连续区模型:给定一个片段集合F和一个整数 t(0) ,将F分割为最小数目的子集Ci,1ik,每个Ci允许一个t- contig。 目标序列序列碎片不连续区域最小重叠区:t-contig*39设 F = GTAC,TAATG,TGTAA (a) t=3; (b) t=2; (c) t=1*40设 f=GCGATAG, g =CAGTCGCTGATCG

12、TACG, 则最佳的子序列比对如下-GC-GATAG-CAGTCGCTGATCGTACG 设 是一个介于0和1之间的数,称串f 是在误差下S 的近似子串 ,如果ds(f, S) f重建模型:给定一个字符串集合F,构造一个t-contig,并求一个 最短的字符串S,使得对于所有属于F的字符串f,下式成立:min (ds(f, S), ds(f, S) ) f其中 f 是 f 的反向互补串。3 3、序列组装的计算模型、序列组装的计算模型*41实例:利用实例:利用BioeditBioedit进行序列组装进行序列组装n nHomo sapiens chromosome 3 clone RP11-Hom

13、o sapiens chromosome 3 clone RP11- 588H7 map 3p, complete sequence588H7 map 3p, complete sequencen n原始序列原始序列1 cgcggaattc taatgccatc tgctggatac actggtacaa gacaggcccg tgtcacagta 1 cgcggaattc taatgccatc tgctggatac actggtacaa gacaggcccg tgtcacagta 61 agactgtgat ggtgtgtcaa tactcaaaga actggatctg aaacagaaa

14、a gggctcacaa61 agactgtgat ggtgtgtcaa tactcaaaga actggatctg aaacagaaaa gggctcacaa 121 aacactgaac taaattatac tgttaagagg121 aacactgaac taaattatac tgttaagagg*42假定测序结果(构造三个序列)假定测序结果(构造三个序列)seq1seq1 cgcggaattc taatgccatc tgctggatac actggtacaa gacaggcccg tgtcacagta cgcggaattc taatgccatc tgctggatac actggtac

15、aa gacaggcccg tgtcacagta agactgtgat ggtgtgtcaa tactcaaaga actggatctg aaacagaaaa gggctcacaaagactgtgat ggtgtgtcaa tactcaaaga actggatctg aaacagaaaa gggctcacaa seq2seq2 taatgccatc tgctggatac actggtacaa gacaggcccg tgtcacagtataatgccatc tgctggatac actggtacaa gacaggcccg tgtcacagta agactgtgat ggtgtgtcaa tact

16、caaaga actggatctg aaacagaaaa gggctcacaaagactgtgat ggtgtgtcaa tactcaaaga actggatctg aaacagaaaa gggctcacaa AacactgaacAacactgaac seq3seq3 actggtacaa gacaggcccg tgtcacagta actggtacaa gacaggcccg tgtcacagta agactgtgat ggtgtgtcaa tactcaaaga actggatctg aaacagaaaa gggctcacaaagactgtgat ggtgtgtcaa tactcaaaga actggatctg aaacagaaaa gggctcacaa aacactgaac taaattatac tg

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 电子/通信 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号