生物信息学基础——第三章

上传人:野鹰 文档编号:46154147 上传时间:2018-06-23 格式:PPT 页数:145 大小:3.10MB
返回 下载 相关 举报
生物信息学基础——第三章_第1页
第1页 / 共145页
生物信息学基础——第三章_第2页
第2页 / 共145页
生物信息学基础——第三章_第3页
第3页 / 共145页
生物信息学基础——第三章_第4页
第4页 / 共145页
生物信息学基础——第三章_第5页
第5页 / 共145页
点击查看更多>>
资源描述

《生物信息学基础——第三章》由会员分享,可在线阅读,更多相关《生物信息学基础——第三章(145页珍藏版)》请在金锄头文库上搜索。

1、第三章 序列比对主讲教师:丁彦蕊 单位:信息工程学院序列比对:寻找两条或者两条以上的序 列中各个字符的一一对应关系。序列比对的根本任务:发现序列之间的相似性寻找共同区域辨别序列之间的差异目的: 相似序列 相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 第一节 序列的相似性同源(homology)- 具有共同的祖先(P81)直向同源(Orthologous ):共同祖先的直接后代( 没有发生基因复制事件)之间的同源基因称为直向 同源。 共生同源(paralogous ):两个物种A和B的同源基因 ,分别是共同祖先基因组中由复制事件而产生的不 同拷贝的后代,这被称为共生同源基

2、因。相似(similarity)同源序列一般是相似的 相似序列不一定是同源的 进化趋同(同功能)序列比较的基本操作是比对(Alignment)两个序列的比对是指这两个序列中各个字符的一种 一一对应关系,或字符的对比排列 。设有两个序列: GACGGATTAG,GATCGGAATAGAlignment2: GA CGGATTAG GATCGGAATAGAlignment1: GACGGATTAGGATCGGAATAG1、字母表和序列字母表4字符DNA字母表:A, C, G, T扩展的遗传学字母表或IUPAC编码单字母氨基酸编码符 号含 义说 明 GGGuanine AAAdenine TTThy

3、mine CCCytosineRG or APurine YT or CPyrimidine MA or CAmino KG or TKeto SG or CStrong interaction (3 H bonds) WA or TWeak interaction (2 H bonds) HA or C or TNot-G BG or T or Cnot-A VG or C or Anot-T(not-U) DG or A or Tnot-C NG or A or T or CAny 扩展的遗传学字母表或IUPAC编码氨基酸名称简 写氨基酸名称简 写甘氨酸G丝氨酸S丙氨酸A苏氨酸T缬氨酸V天

4、冬酰胺N异亮氨酸I谷酰胺Q亮氨酸L酪氨酸Y苯丙氨酸F组氨酸H脯氨酸P天冬氨酸D甲硫氨酸M谷氨酸E色氨酸W赖氨酸K半胱氨酸C精氨酸R特定的符号 代表字母表 A* 代表由字母表A中字符所形成的一系列有限长 度序列或字符串的集合a、b、c代表单独的字符s、t、u、v代表A*中的序列|s|代表序列s的长度为了说明序列s的子序列和s中单个字符,在s 中各字符之间用数字标明分割边界例如,设s=ACCACGTA,则s可表示为 0A1C2C3A4C5G6T7A8 i:s:j 指明第i位或第j位之间的子序列,当然,0 i j |s|。 子序列0:s: i 称为前缀,即prefix(s,i)子序列 i:s:|s|

5、称为后缀,即suffix(s, |s|-i+1) i:s: i 为空序列j-1:s:j 表示s 中的第j 个字符,简记为sj子序列与子串(p82)子序列:选取s中的某些字符(或删除s中的某些 字符)而形成s的子序列 例如: TTT 是 ATATAT的子序列。 s的子串: 是由s中相继的字符所组成。例如: TAC是AGTACA的子串, 但不是TTGAC的子串(是子序列)。 子串是子序列子序列不一定是子串字符串操作字符串连接操作: 两个序列s和t的连接: s + + t 例如: ACC+CTA = ACCCTA 字符串k操作 删除字符串两端的字符 其定义如下: prefix(s,l) = sk|s

6、|-l suffix(s,l) = k|s|-ls i:s:j = ki-1sk|s|-j序列比较可以分为四种基本情况(P83)(1)两条长度相近的序列相似 找出序列的差别(2)判断一条序列的前缀与另一条序列的后缀相似(3)判断一条序列是否是另一条序列的子序列(4)判断两条序列中是否有非常相似的子序列2、编辑距离(Edit Distance)GCATGACGAATCAG TATGACAAACAGC GCATGACGAATCAG TATGAC-AAACAGC 说明两条序列的相似程度 定量计算 两条序列的相似程度的定量计算相似度,它是两个序列的函数,其值越大,表示 两个序列越相似 两个序列之间的距

7、离。距离越大,则两个序列的 相似度就越小 字符编辑操作(Edit Operation)字符编辑操作可将一个序列转化 为一个新序列 Match(a,a)Delete(a,-) Replace(a,b)Insert(-,b)直接距离计算的不足扩展的编辑操作ACCGACAATATGCATA ATAGGTATAACAGTCAACCGACAATATGCATA ACTGACAATATGGATA 第二条序列头尾颠倒CTAGTCGAGGCAATCT GAACAGCTTCGTTAGT ?反向互补序列RNA发夹式二级结构3、通过点矩阵进行序列比较“矩阵作图法” 或 “对角线作图” 序列1 序列2 实 例 序列1

8、序列1 自我比较滑动窗口技术两条序列中有很多匹配的字符对,因而在点矩阵中 会形成很多点标记。滑动窗口技术 使用滑动窗口代替一次一个位点的比较是解决这 个问题的有效方法。 假设窗口大小为10,相似度阈值为8,则每次比较 取10个连续的字符,如相同的字符超过8个,则标 记 基于滑动窗口的点矩阵方法可以明显地降低点阵 图的噪声,并且明确无误的指示出了两条序列间具 有显著相似性的区域。 (a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的球蛋白基因 序列进行比较的完整点阵图。(b)利用滑动窗口对以上的两种球蛋白基因序列进 行比较的点阵图,其中窗口大小为10个核苷酸,相似度

9、阈值为8。 (a) (b) 具有连续相似区域的两条DNA序列的简单点阵图4、 序列的两两比对序列的两两比对(Pairwise Sequence Alignment):通过字符匹配和替换,或者 插入和删除字符,使两条序列达到一样的 长度,并使两条序列中相同的字符尽可能 一一对应。 s:AGCACACAAGCACACAt:ACACACTAACACACTA Match(A, A)Match(A, A) Delete(G, - )Replace(G, C) Match(C, C)Insert( -, A) Match(A, A)Match(C, C) Match(C, C)Match(A, A) Ma

10、tch(A, A)Match(C, C) Match(C, C)Replace(A, T) Insert( -, T)Delete(C, -) Match(A, A)Match(A, A)图3.6 序列AGCACACA和ACACACTA的两种比对结果Alignment -1 Alignment -2不同编辑操作的代价不同 编辑操作定义函数w,它表示“代价(cost)”或“权重 (weight)”。对字母表中的任意字符a、b,定义w (a, a) = 0w (a, b) = 1 a bw (a, -) = w ( -, b) = 1 也可以使用得分(score)函数来评价编辑操作p (a, a)

11、 = 1p (a, b) = 0 a bp (a, -) = w ( -, b) = -1 概念两条序列s 和 t 的比对的得分(或代价)等于将s 转化为t 所用的所有编辑操作的得分(或代价)总 和;s 和t 的最优比对是所有可能的比对中得分最高 (或代价最小)的一个比对;s 和t 的真实距离应该是在得分函数p值(或代价 函数w值)最优时的距离。 例如: s:AGCACACA t:ACACACTA cost=2s:AGCACACAt:ACACACTA score (s,t)= 5序列比对的目的是寻找一个得分最大(或代价 最小)的比对。5、打分矩阵(Weight Matrices)(P87)(1

12、)核酸打分矩阵设DNA序列所用的字母表为 = A,C,G,T a. 等价矩阵(相同核苷酸得分为1,不同核苷酸替换得分为0) b. BLAST矩阵(相同核苷酸得分为+5,不同核苷酸得分为-4) c. 转移矩阵(transition,transversion)(嘌呤:腺嘌呤A,鸟嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T) ATCG A1000 T0100 C0010 G0001ATCG A5-4-4-4T-45-4-4C-4-45-4G-4-4-45ATCGA1-5-5-1T-51-1-5C-5-11-5G-1-5-51表3.1 等价矩阵表表3.3 转移矩阵表3.2 BLAST矩阵(2)蛋白质打分矩阵(

13、i)等价矩阵其中Rij代表打分矩阵元素 i、j分别代表字母表第i和第j个字符。(ii) 氨基酸突变代价矩阵GCM GCM矩阵通过计算一个氨基酸残基转变到另外一个氨基酸残基所需 的密码子变化数目而得到,矩阵元素的值对应于代价。如果变化一 个碱基就可以使一个氨基酸的密码子改变为另一个氨基酸的密码子 ,则这两个氨基酸的替换代价为1,如果需要两个碱基的改变,则替 换代价为2,以此类推。GCM矩阵常用于进化距离的计算,其优点是计算结果可以直接用于 绘制进化树,但在蛋白质序列比对尤其是相似程度较低的序列比对 中很少使用。(iii)疏水矩阵根据氨基酸残基替换前后疏水性的变化得到的矩阵。如果氨 基酸A被氨基酸

14、B替换后,疏水性变化不大则替换得分高, 否则替换得分低。(iv)PAM矩阵(Point Accepted Mutation)统计自然界中各种氨基酸残基的相互替换率。如果两种特定 的氨基酸之间替换发生得比较频繁,则这一对氨基酸在得分 矩阵中的互换得分就高。PAM矩阵基于进化原理,建立在进化的点接受突变模型基础 上,通过统计相似序列中的各种氨基酸替换发生率而得到的 矩阵。PAM矩阵(Point Accepted Mutation) 基于进化的点突变模型 一个PAM就是一个进化的变异单位, 即1%的氨基酸改变 这类矩阵里列出同源蛋白质在进化过程中氨基酸变化的可能性。 这类矩阵式基于进化原理的证据:编

15、码相同蛋白质的基因随着进化发生分歧,相似度降低。 科学 用得多 矩阵集合- PAM-N如,PAM120矩阵用于比较相距120个PAM单位的序列。一个PAM-N矩阵元素(i,j)的值:反应两个相距N个PAM单位的序列中第i种氨基酸替 换第j种氨基酸的频率。针对不同的进化距离采用PAM 矩阵序列相似度 = 40% 50% 60% | | | 打分矩阵 = PAM120 PAM80 PAM 60PAM250 14% - 27% (v) BLOSUM矩阵(Blocks Amino Acid Substitution Matrices) 通过统计相似蛋白质序列的替换率得到的。PAM矩阵是从蛋 白质序列的全局比对结果推

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号