第三章序列对比与数据库搜索(上).

资源描述

《第三章序列对比与数据库搜索(上).》由会员分享，可在线阅读，更多相关《第三章序列对比与数据库搜索(上).（78页珍藏版）》请在金锄头文库上搜索。

1、第三章序列对比和数据库搜索 (上),1 序列对比概述,概念与背景通过知识的比较分析,获取有用的信息是科学研究中一个最常用和最经典的研究手段,它可以将研究对象相互比较来寻找对象可能具备的特性。生物信息学中从核酸、氨基酸的一级结构分析序列的相同点和不同点, 能够推测它们的结构、功能以及进化上的联系。最常用的方法就是序列对比,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。通过比较两个序列之间的相似区域和保守位点,可寻找二者之间可能的分子进化关系。,概念与背景,进一步的对比是将多个蛋白质或核酸同时进行比较,来寻找这些有进化关系的序列之间的共同保守区域、位点和图谱,分析产生

2、共同功能的序列模式。把蛋白质序列与核酸序列相比较，来探索核酸序列可能的表达框架。把蛋白质序列与具有三维结构信息的蛋白质相比,从而获得蛋白质空间结构的信息，预测功能。,概念与背景,随着DNA测序方法的飞速发展,序列信息量急增, 使可供比较的序列数量呈现爆炸式增长。将未知序列同整个数据库中的已知序列进行比较分析已经成为一个强有力的研究手段。序列比较的各种算法发展得也越来越快,也越来越成熟。序列比较可快速地获得有关序列的大量有价值的参考信息,对于进一步分析其结构和功能有很大的帮助。对比是数据库搜索的基础，随着生物信息数据和生物学知识大量积累,通过对比方法可以有效地分析和预测一些新发现的基因

3、和蛋白质的功能。,2 序列对比和数据库技术,序列对比原理与理论来源：序列比对的理论基础是进化学说，如果两个序列之间具有足够的相似性，就推测二者可能有共同的进化祖先。它们是经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。生物物种之间存在进化关系, 对基因和蛋白质序列进行比较,从本质上来讲,是进行进化论一样的比较分析,只不过更加精细,更加详尽。如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,它们有可能经过序列内残基的替换、残基或序列片段的缺失以及序列重组等遗传变异过程演化而来。,序列对比原理与理论来源：,序列相似和序列同源是不同的概念,序列

4、之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。目前大多数对比方法能够在某种程度上建立分子进化的模型。通常假定同源序列是从某一共同祖先不断变化而来,祖先序列在进化过程中分子发生取代、插入以及缺失的变化。在序列比较中,对同源基因或蛋白质序列相互比较时,残基之间相互对应,可使取代情况很明显地表现出来。,残基一残基对比,在残基一残基对比中,某些氨基酸残基相对于其他位置的残基具有较高的保守性,这些残基对于一个蛋白质的结构和功能是极为重要的。处于活性位点的残基都是极为保守的,比如形成二硫键的半光氨酸,参与电子传递的氨基酸残基以及决定底物特异性的氨基酸残基。这些保守的残基对于保持

5、蛋白的结构与功能非常重要。,Alignment: GACGGATTAG GATCGGAATAG,残基一残基对比,要注意某些保守位置对蛋白功能无重要性，只是进化史的反映。处理非常相近的物种时要必须十分小心,因为相似性在某些情况下更多地是历史的反映,而不是功能的反映。例如：Mouse和Rat的某些序列具有高度的相似性,可能仅仅是因为没有足够的时间进行分化而已。,序列对比的误差与相似性标准,序列对比是从已知获得未知的一个十分有效的方法。如通过将一个新的蛋白同其他已知结构功能的蛋白比较,可推断新蛋白的结构与功能。例如，可得到酶的活性位点残基,形成二硫键的半脱氨酸残基,与配体结合部位的残基及与金

6、属离子结合的残基,形成特定结构motif的残基等。,序列对比的误差与相似性标准,有些保守的残基不一定是结构功能重要的残基，它们可能只是进化历史保留的结构。如果两个序列有显著的保守性,要确定二者具有共同的进化历史,可认为二者有近似的结构和功能。除此之外，还需要更多实验和信息的支持。通过大量实验和序列对比的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,如果序列之间的相似性超过30%，认为它们很可能同源。序列对比的结果只提供了序列进化的理论可能性，还需要实验验证。,3 序列对比的方法学,早期的序列对比是全局的序列比较,但由于蛋白质具有的模块性质,可能由于外显子的交换而产生新蛋白质,因此

7、局部对比会更加合理。常用打分矩阵描述序列两两对比,两条序列分别作为矩阵的两维,矩阵点是两维上对应两个残基的相似性分数,分数越高则说明两个残基越相似。因此,序列对比问题变成在矩阵里寻找最佳对比路径。,目前最有效的打分方法:,Needleman-Wunsch动态规划算法改良Smith-Waterman算法 SIM算法在FASTA程序包中可以找到用动态规划算法进行序列对比的工具LALIGN,它能给出多个不交叉的最佳对比结果。,序列对比的任务与目的,序列比较的根本任务是：发现序列之间的相似性辨别序列之间的差异目的：相似序列相似的结构，相似的功能判别序列之间的同源性推测序列之间的进化

8、关系,序列的相似性比较,同源（homology）- 具有共同的祖先直向同源（Orthologous ）共生同源（paralogous ）相似（similarity）同源序列一般是相似的相似序列不一定是同源的进化趋同（同功能）,直向同源（a1 in species I, a1 in species II) 共生同源（a1 and a2 in species I）,进化趋同,水平转移,基因复制,序列的相似性描述,定性的描述定量的数值相似度距离,序列比较的基本操作-比对（Alignment）,两个序列的比对是指这两个序列中各个字符的一种对应关系，或对比排列。,设有两个序列： GA

9、CGGATTAG，GATCGGAATAG,Alignment2: GA CGGATTAG GATCGGAATAG,Alignment1: GACGGATTAG GATCGGAATAG,序列表示与字母表,字母表 4字符DNA字母表：A, C, G, T 扩展的遗传学字母表或IUPAC编码单字母氨基酸编码,扩展的遗传学字母表或IUPAC编码,序列描述特定的表示符号, 代表字母 A* 代表由字母表A中字符所形成的一系列有限长度序列或字符串或序列的集合 a、b、c代表单独的字符 s、t、u、v代表A*中的序列 |s|代表序列s的长度,序列表示法,为了说明一个序列的s子序列和该子序列中的单个字符，在s

10、子序列中各字符之间用数字标明分割边界。例如，设s=ACCACGTA，则s可表示为 0A1C2C3A4C5G6T7A8 i:s:j 指明第i位或第j位之间的子序列, 当然，0 i j |s|。子序列0:s: i 称为前缀，即prefix(s,i) 子序列 i:s:|s|称为后缀，即suffix(s, |s|-i+1) i:s: i 为空序列 j-1:s:j 表示s 中的第j 个字符，简记为sj,子序列与子串表示法,子序列：选取s中的某些字符或删除s中的某些字符而形成的子序列例如： TTT 是 ATATAT的子序列。 s的子串：是由s中相继的字符所组成。例如： TAC是AGTACA的子

11、串但不是TTGAC的子串（是子序列）。注意：子串是子序列；子序列不一定是子串,序列比较的四种基本情况,（1）两条长度相近的序列相似，找出序列的差别（2）判断一条序列的前缀与另一条序列的后缀相似（3）判断一条序列是不是另一条序列的子序列（4）判断两条序列中是否有非常相似的子序列,相似性定量计算-编辑距离（Edit Distance),GCATGACGAATCAG TATGACAAACAGC,GCATGACGAATCAG TATGAC-AAACAGC,说明两条序列的相似程度,两条序列的相似程度计算,相似度：它是两个序列的函数，其值越大，表示两个序列越相似。距离：两个序列之间的距离

12、越大，则两个序列的相似度就越小。,序列转化与字符编辑操作（Edit Operation）,字符编辑操作可将一个序列转化为一个新序列匹配 Match（a，a）删除 Delete（a，-）替代 Replace（a，b）插入 Insert（-，b）,其他扩展的编辑操作,ACCGACAATATGCATA ATAGGTATAACAGTCA,ACCGACAATATGCATA ACTGACAATATGGATA,第二条序列头尾颠倒,首尾颠倒原理-反向互补序列,RNA发夹式二级结构,矩阵序列比较,矩阵序列比较也叫“矩阵作图法” 或 “对角线作图”。,子序列矩阵标记,序列1 ,序列2 ,两序列比较,序列1

13、 ,序列1 ,自我比较,滑动窗口技术,两条序列中有很多匹配的字符对，因而在矩阵中会形成很多点标记。使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。假设窗口大小为10，相似阈值为8，则每次比较取10个连续的字符，如相同的字符超过8个，则标记。基于滑动窗口的矩阵方法可以明显地降低点阵图的噪声，并能明确无误地标出了两条序列间具有显著相似性的区域。,滑动窗口技术与完整点矩阵图结果比较,(a) (b),(1) (2),（2）利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图，其中窗口大小为10个核苷酸，相似度阈值为8。,（1）对人类（Homo sapiens）与黑猩猩（Pongo p

14、ygmaeus）的球蛋白基因序列进行比较的完整点阵图。,相似区域连续的两条DNA序列的点阵图,序列的两两比对方法,序列的两两比对（Pairwise Sequence Alignment），按字符位置重组两个序列，使得两个序列达到一样的长度。然后进行对比。,s: AGCACACA AGCACACA t: ACACACTA ACACACTA Match(A, A) Match(A, A) Delete(G, - ) Replace(G, C) Match(C, C) Insert( -, A) Match(A, A) Match(C, C) Match(C, C) Match(A, A) Matc

15、h(A, A) Match(C, C) Match(C, C) Replace(A, T) Insert( -, T) Delete(C, -) Match(A, A) Match(A, A) 序列AGCACACA和ACACACTA的两种比对结果,Alignment-1 Alignment-2,编辑操作的代价与得分,代价: 不同编辑操作方法代价不同若代价（cost）或权重（weight）为编辑操作的函数,并以W表示。对字母表中的任意字符a、b，可以定义: w (a, a) = 0 w (a, b) = 1 ( a b) w (a, -) = w ( -, b) = 1,得分: 序列比对也可以使用得分（score）函数来评价编辑操作 p (a, a) = 1 p (a, b) = 0 a b p (a, -) = w ( -, b) = -1,得分与代价的评介原则,两条序列s 和 t 的比对的得分（或代价）等于将s 转化为t 所用的所有编辑操作的得分（或代价）的总和。 s 和t 的最优比对是所有可能的比对中得分最高（或代价最小）的一个比对。 s 和t 的真实距离应该是在得分函数p值（或代价函数w值）最优时的距离。,例： s: AGCACACA t: ACACACTA cost=2 s: AGCACACA t: ACACAC

展开阅读全文

第三章序列对比与数据库搜索(上).

最新文档