生物序列联配中的算法ppt课件

资源描述

《生物序列联配中的算法ppt课件》由会员分享，可在线阅读，更多相关《生物序列联配中的算法ppt课件（71页珍藏版）》请在金锄头文库上搜索。

1、生物序列联配中的算法张法提纲背景知识序列相似性的比较两条序列的联配问题多序列的联配问题一些启发式的算法生物序列联配中的并行算法 DNA 1 脱氧核糖核酸 DNA的分子组成核甘 nucleotides 磷酸盐 phosphate 糖 sugar 一种碱基腺嘌呤 Adenine 鸟嘌呤 Guanine 胞嘧啶 Cytosine 胸腺嘧啶 Thymine DNA 2 碱基的配对原则A 腺嘌呤 T 胸腺嘧啶 C 鸟嘌呤 G 胞嘧啶一个嘌呤基与一个嘧啶基通过氢键联结成一个碱基对 DNA分子的方向性5 3 DNA 3 DNA的双螺旋结构碱基对之间的互补能力 DNA 4 DNA的复制在DNA解旋酶的

2、作用下两条链分离开分别作为一个模板在聚合酶的作用下合成一条新链 RNA 转录和翻译 RNA 核糖核酸单链结构尿嘧啶U代替胸腺嘧啶T 位于细胞核和细胞质中转录 DNA链 RNA链信使RNA mRNA 启动子翻译 mRNA上携带遗传信息在核糖体中合成蛋白质的过程变异进化过程中由于不正确的复制使DNA内容发生局部的改变变异的种类主要有以下三种替代 substitution 插入或删除 insertionordeletion indel重排 rearrangement 蛋白质由氨基酸依次链接形成在生物体中总共有20种氨基酸蛋白有十分复杂的三维结构其三维机构决定了蛋白质的功能

3、基因什么是基因 DNA上具有特定功能的一个片断负责一种特定性状的表达一般来讲一个基因只编码一个蛋白质基因组任何一条染色体上都带有许多基因一条高等生物的染色体上可能带有成千上万个基因一个细胞中的全部基因序列及其间隔序列统称为genomes 基因组 DNA上的基因基因基因的编码基因编码是一个逻辑的映射表明存储在DNA和mRNA中的基因信息决定什么样的蛋白质序列每个碱基三元组称为一个密码子 codon 碱基组成的三元组的排列共有43 64种而氨基酸共有20种类型所以不同的密码子可能表示同一种氨基酸带来的问题序列排列问题基因组的重排问题蛋白质结构和功能的预测基因外

4、显子内含子查找问题序列装配 SequenceAssembly 问题生物序列相似性的比较动机在生物学的研究中将未知序列同已知序列进行比较分析已经成为一种强有力的研究手段生物学领域中绝大部分的问题在计算机科学领域中主要体现为序列或字符串的问题序列联配问题的分类如果两个序列具有足够的相似性则认为两者具有同源性序列相似性的比较两条序列的联配序列的分类序列的排列多序列的联配两条序列联配问题的分类全局联配 GlobalAlignment 局部联配 LocalAlignment 空位处罚 GapPenalty 全局联配 1 定义定义1 两个任意的字符x和y x y 表示表x和

5、y比较时的分值 x x 2 x y x y 1定义2 S s1 sn和T t1 tm 其全局联配A可以用序列S 和T 来表示其中 1 S T 2 将S 和T 中的空字符除去后所得到的序列分别为S和T 联配A的分值Score为全局联配 2 原始算法输入序列S和T 其中 S T n输出 S和T的最优联配fori 0tondofor S的所有的子序列A 其中 A i dofor T的所有的子序列B 其中 B i do 全局联配 3 动态规划DP DynamicProgramming Smith Waterman算法计算出两个序列的相似分值存于一个矩阵中相似度矩阵 DP矩阵根据此矩阵按

6、照动态规划的方法寻找最优的联配序列全局联配 4 前提条件递归关系全局联配 5 在得到相似度矩阵后通过动态规划回溯 Traceback 的方法可获得序列的最优联配序列例 S acgctg 和T catgt x x 2 x y x y 1 三种可能的最优联配序列 S acgctg T c atgtS acgctg T ca tgtS acgctgT catg t 局部联配 1 两条序列在一些局部的区域内具有很高的相似度在生物学中局部联配比全局联配更具有实际的意义两条DNA长序列可能只在很小的区域内密码区存在关系不同家族的蛋白质往往具有功能和结构上的相同的一些区域局部联配 2

7、前提条件 V i 0 0 V 0 j 0 递归关系找出i 和j 使得局部联配 3 对全局联配策略稍作修改可得到局部最优联配算法联配的路径不需要到达搜索图的尽头如果某种联配的分值不会因为增加联配的数量而增加时这种联配就是最佳的依赖于记分系统的性质因为某种路径的记分会在不匹配的序列段减少当分值降为零时路径的延展将会终止一个新的路径就会产生局部联配 4 S abcxdex T xxxcde 记分函数 x y x x 2 x y x y 1 S abcxdex T xxxcde 局部最优联配是 cxdec de或x dexcde 空位处罚 1 空位序列中任意连续的尽可能长的空格

8、空位的引入是为了补偿那些插入或缺失但是在序列的联配中引入的空位不能太多否则会使序列的排列变得面目全非每引入一个空位联配的分值都会有所扣除常见的罚分规则主要有两种空位权值恒定模型仿射空位处罚模型空位处罚 2 空位权值恒定模型在每个空位中的空格的分值为零即 x y 0联配的分值为其中 Wg为开放一个空位的罚分空位处罚 3 仿射空位处罚模型 AffineGapModel 用一个附加的罚分比例去乘空位的长度Wg q Ws联配的分值为空位处罚 4 初始条件 V 0 0 0 V i 0 E i 0 Wg iWs V 0 j F 0 j Wg jWs 递归条件 V i j max

9、G i j E i j F i j G i j V i 1 j 1 S i T j E i j max E i j 1 Ws V i j 1 Wg Ws F i j max F i 1 j Ws V i 1 j Wg Ws 利用动态规划计算序列最优联配的算法的复杂度分析时间复杂度 O nm 空间复杂度 O n m 最新的相关的研究在动态规划算法的基础上提出了一种新的方法解决在序列局部联配的最优排列中经常出现的马赛克问题在最优排列中间经常出现的相似度很低的保守区域把hash表方法引入到基因组序列的局部联配问题中同时提高了原有算法的效率和质量多序列联配 1 两条序列联配问题的一般化推

10、广动机携带更多的消息生物学家的一种重要手段 DNA或蛋白质数据库容量的指数级的增长即使使用很简单的记分函数也很难找到一种在有效时间内的解决方法而几乎所有的近似算法和许多的启发式算法实际上都是在算法的计算速度和获得最佳联配结果的敏感性之间寻找一种权衡 tradeoff 策略多序列联配 2 rigorous算法两条序列多条序列 NPhardtree based算法和iterative算法首先从序列中找出两条相似度最大的联配然后按照相似度递减的顺序连续添加一些序列到最优的联配序列中序列非常接近或属于一个同源的家族原始算法基础上的近似算法但是它们也是非常耗时的多序列联配 3 记分方

11、法用函数 x y 来计算字符x和y之间的距离两个序列的联配的距离分值我们用V来表示 k条序列联配的分值为k条序列中任意两条序列共有Ck2条的分值距离 V之和用SP Sum of Pairs 来表示多序列联配 4 中心星算法输入一组含有k条序列的集合找出序列St St 使得 i tD Si St 的值最小令A St 逐次地添加Si St 到A中并使Si与St的联配的值最小假设S1 S2 Si 1已添加到A中由于在分别和St进行联配的过程中需要加入一些空格故此时A为 A S1 S2 Si 1 S t 添加Si到A中按照两条序列联配的动态规划算法比较S t和Si 分别

12、产生新的序列St 和Si 再按照St 中添加空格的位置调节序列S1 S2 Si 1 为S1 S2 Si 1 并用St 替换St 借助硬件来完成动态规划的算法采用并行的固件把问题有效地分配到多个处理器上运行最后再把各处理器的运算结果收集起来借助于一些比最初的动态规划算法更快的启发式算法以降低运算结果的质量为代价来提高计算速度的启发式算法 FASTA 基本思想是一个能够揭示出真实的序列关系的联配至少包含一个两个序列都拥有的字片断把查询序列中的所用字编成索引然后在数据库搜索时查询这些索引以检索出可能的匹配这样那些命中的字很快被鉴定出来确定参数ktup 在两个序列中查找长度为kt

13、up的相匹配的片段增强点连续的增强点在动态规划矩阵中主对角线附近为了提高速度可以通过查询表格或hash表来完成然后在表格中搜索与另一条序列相匹配的长度为ktup的片段在同一条对角线中临近的增强点成为一个增强段每一个增强点都赋予一个正的分值一个增强段中相邻的两个增强点之间的不匹配区域赋予一定的负值一个增强段对应于一段相匹配的子序列分值最高的段被标记为init1 引入indel 把那些没有重叠 non overlap 的增强段拼接起来增强段的分值之和减去空位处罚分值最高的区域记为initn 对最有可能的匹配序列进一步评分以增强段init1所在的对角线为中心划分出一个

14、较狭窄的对角线带利用S W算法来获得分值最高的局部联配记作opt 按照initn和opt的分值对分值最高的序列再进行一次S W联配 FASTA对每一个检索到的联配都提供一个统计学显著性的评估以判断该联配的意义 FASTA对DNA序列搜索的结果要比对蛋白质序列搜索的结果更敏感因为它对数据库的每一次搜索都只有一个最佳的联配这样对于蛋白质序列而言一些有意义的联配可能被错过启发式算法 BLAST 基本思想是通过产生数量更少的但质量更好的增强点来提高速度 BALST算法是建立在严格的统计学的基础之上的它集中于发现具有较高的相似性的局部联配且局部联配中不能含有空位由于局部联配的限

15、制条件在大多数情况下联配会被分解为若干个明显的HSP High scoreSequencePairs 首先确定一个终止值S 步长参数w和一个阀值t S值通常是基于统计学的原理指明一个预期的终止E值然后软件会在考虑搜索背景性质的基础上计算出合适的S值使要联配的序列中包含一个分值不小于S的HSP 引入邻近字串的思想不需要字串确切地匹配当有一个字串的分值高于t时 BALST就宣称找到了一个选中的字串为了提高速度允许较长的字串长度W W值很少变化这样 t值就成为权衡速度和敏感度的参数一个字串选中后程序会进行没有空位的局部寻优联配的最低分值是S 当联配延伸时会遇到一些负的分值使得

16、联配的分值下降当下降的分值小于S时命中的延伸就会终止这样系统会减少消耗于毫无指望的选中延伸的时间使系统的性能得以改进 PSI BLAST PositionSpecificIteratedBLAST在1997年提出了对BLAST程序的改进算法在序列的联配中允许出现空位提高了搜索速度敏感度和实用性对一个选中字串长度标准的延伸利用profile 表头文件的数据结构来进行搜索在利用动态规划矩阵进行联配时以步长为2w来搜索每一条对角线这样可以找到一些长度为2w的选中的字改进的算法中允许位于不同的对角线的两个片段拼接在一起在拼接的过程中要涉及到indel操作与FASTA算法只产生一个最佳联配不同位于不同对角线的两个片段拼接在一起的前提条件是拼接后片段的分值不小于某一个终止值执行通常的BLAST算法使用一种不同的记分方式根据高度显著联配 HSPs 的最高分值建立一个最初的profile 根据该profile反复利用BLAST算法对数据库进行搜索这一步实际上是根据表头文件的统计结果扩展局部联配这一过程是反复进行的直到再没有发现新的有意义的匹配为止由于在每

展开阅读全文