山东大学生物信息学课件06序列比较

上传人:东*** 文档编号:295546162 上传时间:2022-05-20 格式:PPTX 页数:185 大小:19.51MB
返回 下载 相关 举报
山东大学生物信息学课件06序列比较_第1页
第1页 / 共185页
山东大学生物信息学课件06序列比较_第2页
第2页 / 共185页
山东大学生物信息学课件06序列比较_第3页
第3页 / 共185页
山东大学生物信息学课件06序列比较_第4页
第4页 / 共185页
山东大学生物信息学课件06序列比较_第5页
第5页 / 共185页
点击查看更多>>
资源描述

《山东大学生物信息学课件06序列比较》由会员分享,可在线阅读,更多相关《山东大学生物信息学课件06序列比较(185页珍藏版)》请在金锄头文库上搜索。

1、生生 物物 信信 息息 学学序列比较序列比较 1 1认识序列认识序列序列(序列(sequence)就是个字符串()就是个字符串(string)。)。s=abcdefghijklmnopqrstuvwxyzsi代表序列代表序列s的第的第i个字符,比如个字符,比如s4=ds=abcde,序列,序列s是序列是序列s的子序列(的子序列(substring)蛋白质序列:由蛋白质序列:由2020个不同的字母(氨基酸)排列组合而成。个不同的字母(氨基酸)排列组合而成。核酸序列:由核酸序列:由4 4个不同的字母(碱基)排列组合而成。个不同的字母(碱基)排列组合而成。 (DNADNA序列,序列,RNARNA序列

2、)序列)FASTAFASTA格式:格式: 第一行:大于号加名称或其它注释第一行:大于号加名称或其它注释 第二行以后:每行第二行以后:每行6060个字母(也有个字母(也有8080的,不一定)的,不一定)FASTAFASTA格式格式nameMHHHHHHSSGRENLYFQGKLPEPQFYAEPHTYEEPGRAGRSFTREIEASRIHIEKIIGSGDSGEVCYGRLRVPGQRDVPVAIKALKAGYTERQRRDFLSEASIMGQFDHPNIIRLEGVVTRGRLAMIVTEYMENGSLDTFLRTHDGQFTIMQLVGMLRGVGAGMRYLSDLGYVHRDLAARNV

3、LVDSNLVCKVSDFGLSRVLEDDPDAAXTTTGGKIPIRWTAPEAIAFRTFSSASDVWSFGVVMWEVLAYGERPYWNMTNRDVISSVEEGYRLPAPMGCPHALHQLMLDCWHKDRAQRPRFSQIVSVLDALIRSPESLRATATVSFASTAFASTA格式:格式:第一行:大于号加名称或其它注释第一行:大于号加名称或其它注释第二行以后:每行第二行以后:每行6060个字母(也有个字母(也有8080的,不一定)的,不一定)在在游戏麻将泰坦游戏麻将泰坦中,你需要用眼睛从一推麻将牌中找出一对相同的麻将牌。中,你需要用眼睛从一推麻将牌中找出一对相同的麻

4、将牌。序列相似性序列相似性 数据库中的序列相似性搜索数据库中的序列相似性搜索对于一个蛋白质或核酸序列,你需要从序列数据库中找到对于一个蛋白质或核酸序列,你需要从序列数据库中找到与它相同或相似的序列。不可能再用眼睛去比较每一对序与它相同或相似的序列。不可能再用眼睛去比较每一对序列,因为数据库中有太多序列,甚至用列,因为数据库中有太多序列,甚至用眼睛比较一对序列都是不可能做到的。眼睛比较一对序列都是不可能做到的。 BLAST序列相似性序列相似性 数据库中的序列相似性搜索数据库中的序列相似性搜索 序列相似性的重要性序列相似性的重要性相似的序列往往起源于一个共同的祖先序列。它们很可能有相似的相似的序列

5、往往起源于一个共同的祖先序列。它们很可能有相似的空间结构和生物学功能空间结构和生物学功能 ,因此对于一个已知序列但未知结构和功能,因此对于一个已知序列但未知结构和功能的蛋白质,如果与它序列相似的某些蛋白质的结构和功能已知,则的蛋白质,如果与它序列相似的某些蛋白质的结构和功能已知,则可以推测这个未知结构和功能的蛋白质的结构和功能。可以推测这个未知结构和功能的蛋白质的结构和功能。相似的序列相似的序列相似的结构相似的结构 相似的功能相似的功能序列相似性序列相似性结构相似?功能相似?结构相似?功能相似? 序列相似性的重要性序列相似性的重要性相似的序列往往起源于一个共同的祖先序列。它们很可能有相似的相似

6、的序列往往起源于一个共同的祖先序列。它们很可能有相似的空间结构和生物学功能空间结构和生物学功能 ,因此对于一个已知序列但未知结构和功能,因此对于一个已知序列但未知结构和功能的蛋白质,如果与它序列相似的某些蛋白质的结构和功能已知,则的蛋白质,如果与它序列相似的某些蛋白质的结构和功能已知,则可以推测这个未知结构和功能的蛋白质的结构和功能。可以推测这个未知结构和功能的蛋白质的结构和功能。序列相似性序列相似性一致度一致度:又称同一度,又称同一度,如果两个序列(蛋白质或核酸)长度相同,如果两个序列(蛋白质或核酸)长度相同,那么它们的一致度定义为他们对应位置上相同的残基(一个字母,那么它们的一致度定义为他

7、们对应位置上相同的残基(一个字母,氨基酸或碱基)的数目占总长度的百分数。氨基酸或碱基)的数目占总长度的百分数。相似度相似度:如果两个序列(蛋白质或核酸)长度相同,那么它们的相:如果两个序列(蛋白质或核酸)长度相同,那么它们的相似度定义为他们对应位置上相似的残基与相同的残基的数目和占总似度定义为他们对应位置上相似的残基与相同的残基的数目和占总长度的百分数。长度的百分数。问题:哪个残基与问题:哪个残基与哪个残基算作相似哪个残基算作相似答:残基两两相似的量化答:残基两两相似的量化关系被关系被替换记分矩阵替换记分矩阵所定所定义。义。 序列一致度(序列一致度(identityidentity)与相似度(

8、)与相似度(similaritysimilarity)序列相似性序列相似性序列序列 1 : CLHK序列序列 2 : CIHL替换记分矩阵替换记分矩阵替换记分矩阵(替换记分矩阵(Substitution MatrixSubstitution Matrix):反映残基之间相互替换率的矩反映残基之间相互替换率的矩阵,它描述了残基两两相似的量化关系。分为阵,它描述了残基两两相似的量化关系。分为DNADNA替换记分矩阵和替换记分矩阵和蛋白质替换记分矩阵。蛋白质替换记分矩阵。DNADNA替换记分矩阵替换记分矩阵蛋白质替换记分矩阵蛋白质替换记分矩阵序列序列 1 : CLHK序列序列 2 : CIHL1.

9、1. 等价矩阵(等价矩阵(unitary matrixunitary matrix):):最简单的替换记分矩阵,其中,相同核苷酸之间的匹配得分为1,不同核苷酸间的替换得分为0。由于不含有碱基的理化信息和不区别对待不同的替换,在实际的序列比较中较少使用。2. 2. 转换转换- -颠换矩阵(颠换矩阵(transition-transversion matrixtransition-transversion matrix):):核酸的碱基按照环结构特征被划分为两类,一类是嘌呤(腺嘌呤A、鸟嘌呤G),它们有两个环;另一类是嘧啶(胞嘧啶C、胸腺嘧啶T),它们只有一个环。如果DNA碱基的替换保持环数不变,

10、则称为转换,如A G、C T;如果环数发生变化,则称为颠换,如A C、T G等。在进化过程中,转换发生的频率远比颠换高。为了反映这一情况,通常该矩阵中转换的得分为-1,而颠换的得分为-5。3. BLAST3. BLAST矩阵:矩阵:经过大量实际比对发现,如果令被比对的两个核苷酸相同时得分为+5,反之为-4,则比对效果较好。这个矩阵广泛地被DNA序列比较所采用。 A T C G A T C GA T C GA 1 0 0 0 A 1 -5 -5 -1 A 5 -4 -4 -4 T 0 1 0 0 T -5 1 -1 -5 T -4 5 -4 -4C 0 0 1 0 C -5 -1 1 -5 C

11、-4 -4 5 -4G 0 0 0 1 G -1 -5 -5 1 G -4 -4 -4 5 DNADNA序列的替换记分矩阵序列的替换记分矩阵 3 3种种常见的常见的DNADNA序列的替换记分矩阵序列的替换记分矩阵1. 1. 等价矩阵(等价矩阵(unitary matrixunitary matrix):):与DNA等价矩阵道理相同,相同氨基酸之间的匹配得分为1,不同氨基酸间的替换得分为0。在实际的序列比对中较少使用。2. PAM2. PAM矩阵(矩阵(DayhoffDayhoff突变数据矩阵):突变数据矩阵):PAM矩阵基于进化原理。如果两种氨基酸替换频繁,说明自然界易接受这种替换,那么这对氨

12、基酸替换得分就应该高。PAM矩阵是目前蛋白质序列比较中最广泛使用的记分方法之一,基础的PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值(统计方法得到)。PAM-1自乘n次,可以得到PAM-n ,即发生了更多次突变。3. BLOSUM3. BLOSUM矩阵(矩阵(blocks substitution matrixblocks substitution matrix):):BLOSUM矩阵都是通过对大量符合特定要求的序列计算而来的。PAM-1矩阵是基于相似度大于85%的序列计算产生的,那些进化距离较远的矩阵,如PAM-250,是通过PAM-1自乘得到的。即,BLOSUM矩阵的

13、相似性是根据真实数据产生的,而PAM矩阵是通过矩阵自乘外推而来的。BLOSUM矩阵的编号,比如BLOSUM-80中的80,代表该矩阵是由一致度80%的序列计算而来的,同理, BLOSUM-62是指该矩阵由一致度62%的序列计算而来的。蛋白质序列的替换记分矩阵蛋白质序列的替换记分矩阵 3 3种常见的种常见的蛋白质序列的替换记分矩阵蛋白质序列的替换记分矩阵BLOSUM-62BLOSUM-62对角线上的数值为匹对角线上的数值为匹配氨基酸的得分;其配氨基酸的得分;其他位置上,他位置上,0 0的得分的得分代表对应氨基酸对为代表对应氨基酸对为相似氨基酸。相似氨基酸。 3 3种常见的种常见的蛋白质序列的替换

14、记分矩阵蛋白质序列的替换记分矩阵蛋白质序列的替换记分矩阵蛋白质序列的替换记分矩阵 选选 PAM-1 还是还是 PAM-250?氨基酸差异氨基酸差异 %PAMPAMBLOSUMBLOSUM-1 1PAM-1PAM-1BLOSUM -99BLOSUM -991010PAM-11PAM-11BLOSUM -90BLOSUM -902020PAM-23PAM-23BLOSUM -80BLOSUM -803030PAM-38PAM-38BLOSUM -70BLOSUM -704040PAM-56PAM-56BLOSUM -60BLOSUM -605050PAM-80PAM-80BLOSUM -50BLO

15、SUM -506060PAM-112PAM-112BLOSUM -40BLOSUM -407070PAM-159PAM-159BLOSUM -30BLOSUM -308080PAM-246PAM-246BLOSUM -20BLOSUM -20蛋白质序列的替换记分矩阵蛋白质序列的替换记分矩阵 选选 PAM-? 还是还是 BLOSUM-? BLOSUM-80 BLOSUM-62 BLOSUM-45 PAM-1 PAM-120 PAM-250亲缘关系较近的亲缘关系较近的 亲缘关系较远的亲缘关系较远的序列之间的比对序列之间的比对 序列之间的比对序列之间的比对对于关系较远的序列之间的比较,由于对于关系较

16、远的序列之间的比较,由于PAM-250是推算而来,所以其是推算而来,所以其准确度受到一定限制,准确度受到一定限制,BLOSUM-45更具优势。对于关系较近的序列之更具优势。对于关系较近的序列之间的比较,用间的比较,用PAM或或BLOSUM矩阵做出的比对结果,差别不大。矩阵做出的比对结果,差别不大。最常用的:最常用的:BLOSUM-62蛋白质序列的替换记分矩阵蛋白质序列的替换记分矩阵1. 1. 等价矩阵(等价矩阵(unitary matrixunitary matrix)2. PAM2. PAM矩阵(矩阵(DayhoffDayhoff突变数据矩阵)突变数据矩阵)3. BLOSUM3. BLOSUM矩阵(矩阵(blocks substitution matrixblocks substitution matrix)4. 4. 遗传密码矩阵(遗传密码矩阵(genetic code matrix, GCMgenetic code matrix, GCM):):遗传密码矩阵通过计算一个氨基酸转换成另一个氨基酸所需的密码子变化的数目而得到,矩阵的值对应为据此付出的代价。如果变化一个碱基就可以使一个

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 生物学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号