序列的同源性比较及分子系统学和分子进化分析ppt培训课件

上传人:aa****6 文档编号:54543941 上传时间:2018-09-14 格式:PPT 页数:81 大小:1.40MB
返回 下载 相关 举报
序列的同源性比较及分子系统学和分子进化分析ppt培训课件_第1页
第1页 / 共81页
序列的同源性比较及分子系统学和分子进化分析ppt培训课件_第2页
第2页 / 共81页
序列的同源性比较及分子系统学和分子进化分析ppt培训课件_第3页
第3页 / 共81页
序列的同源性比较及分子系统学和分子进化分析ppt培训课件_第4页
第4页 / 共81页
序列的同源性比较及分子系统学和分子进化分析ppt培训课件_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《序列的同源性比较及分子系统学和分子进化分析ppt培训课件》由会员分享,可在线阅读,更多相关《序列的同源性比较及分子系统学和分子进化分析ppt培训课件(81页珍藏版)》请在金锄头文库上搜索。

1、第五章 序列的同源性比较 及分子系统学和分子进化分析,相似性和同源性关系,序列的相似性和序列的同源性有一定的关系,一般来说序列间的相似性越高的话,它们是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80一说。,序列相似性比较和序列同源性分析,序列相似性比较:将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FAS

2、TA等,序列同源性分析:将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等,Blast程序,BLAST 是一个基于序列相似性的数据库搜索程序。是“局部相似性基本查询工具”(Basic Local Alignment Search Tool)的 缩写。 Blast 是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。,Blast程序的选择,Blast 是一个序列相似性搜索的程序包,其中

3、包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。,主要的blast程序,Blast资源,主站点:http:/www.ncbi.nlm.nih.gov/BLAST/(网络版)ftp:/ftp.ncbi.nlm.nih.gov/blast/ (单机版),其他站点:http:/ 相似性越高则Score值越大。E value:在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。,NCBI提供的Blast服务,登陆ncbi的blast主页,核酸序列,蛋白序列,翻译序列,还有其他

4、一些针对特殊数据库的和查看以往的比对结果等,Blast任务提交表单(一),1.序列信息部分,填入查询(query)的序列,序列范围 (默认全部),选择搜索数据库,如果接受其他参数默认设置,点击开始搜索,Blast任务提交表单(二),设置搜索的范围,entrez关键词,或者选择特定物种,2.设置各种参数部分,一些过滤选项,包括简单重复序列,人类基因组中的重复序列等,E值上限,窗口大小,如果你对blast的命令行选项熟悉的话,可以在这里加入更多的参数,Blast任务提交表单(三),3.设置结果输出显示格式,选择需要显示的选项以及显示的文件格式,显示数目,Alignment的显示方式,筛选结果,E值

5、范围,其他一些显示格式参数,点击开始搜索,提交任务,返回查询号(request id),可以修改显示结果格式,修改完显示格式后点击进入结果界面,结果页面(一),图形示意结果,结果页面(二),目标序列描述部分,带有genbank的链接,点击可以进入相应的genbank序列,匹配情况,分值,e值,结果页面(三),详细的比对上的序列的排列情况,一个具体的例子(blastp),假设以下为一未知蛋白序列 query_seqMSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRAT

6、RRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPT

7、VTLLPAADMDDFSRQLQNSMSGASADST QA我们通过blast搜索来获取一些这个序列的信息。,具体步骤,1.登陆blast主页 http:/www.ncbi.nlm.nih.gov/BLAST/ 2.根据数据类型,选择合适的程序 3.填写表单信息 4.提交任务 5.查看和分析结果,分析过程(一),1.登陆ncbi的blast主页,2.选择程序,因为查询序列是蛋白序列可以选择blastp,点击进入,也可以选择tblastn,作为演示, 我们这里选blastp,分析过程(二),3.填入序列(copypaste) Fasta格式,或者纯序列,4.选择搜索区域,这里我们要搜索整个序列

8、,不填,5.选择搜索数据库,这里我们选nr(非冗余的蛋白序列库)。,是否搜索保守区域数据库(cdd),蛋白序列搜索才有。 我们选上,分析过程(三),6.限制条件,我们限制在病毒里面找。,7.其他选项保持默认值,打分矩阵,分析过程(四),8.输出格式选项保持默认值,9.点击开始搜索,分析过程(五),10.查询序列的一些相关信息,在cdd库里面找到两个保守区域,点击可以进入,分析过程(六),图形结果,分析过程(七),匹配序列列表,分析过程(八),具体匹配情况,其他的序列相似性搜索工具 FastA,FastA算法是由Lipman和Pearson于1985年发表的(Lipman和Pearson,198

9、5)。FastA的基本思路是识别与代查序列相匹配的很短的序列片段,称为k-tuple。以下链接是EBI提供的fasta服务。http:/www.ebi.ac.uk/fasta,帮助信息,各个参数选项,填入搜索序列,多序列比对及Clustal的使用,多序列比对的意义用于描述一组序列之间的相似性关系,以便了解一个基因家族的基本特征,寻找motif,保守区域等。用于描述一个同源基因之间的亲缘关系的远近,应用到分子进化分析中。,多序列比对的方法,同源性分析中常常要通过多序列比对来找出序列之间的相互关系,和blast的局部匹配搜索不同,多序列比对大多都是采用全局比对的算法。这样对于采用计算机程序的自动多

10、序列比对是一个非常复杂且耗时的过程,特别是序列数目多,且序列长的情况下。,多序列比对的方法,1.手工比对(辅助编辑软件如bioedit,seaview,Genedoc等)通过辅助软件的不同颜色显示不同残基,靠分析者的观察来改变比对的状态。2.计算机程序自动比对通过特定的算法(如同步法,渐进法等),由计算机程序自动搜索最佳的多序列比对状态。,自动多序列比对的算法,1.同步法将序列两两比对时的二维动态规划矩阵扩展到三维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大,对于计算机系统的资源要求比较高,一般只有在进行少数的较短的序列的比对的时候才会用到这个方法。,2.步进法最常见的就是c

11、lustal所采用的方法。其基本思想就是基于相似序列通常具有进化相关性的这一假设。,多序列比对工具 clustalw,Clustalw是一个单机版的基于渐进比对的多序列比对工具,由Higgins D.G. 等开发。有应用于多种操作系统平台的版本,包括linux版,DOS版的clustlw,clustalx等。,CLUSTALW是一种渐进的比对方法,先将多个序列两两比对构建距离矩阵,反应序列之间两两关系;然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权;然后从最紧密的两条序列开始,逐步引入临近的序列并不断重新构建比对,直到所有序列都被加入为止。,Clustalx的工作界面 (多序

12、列比对模式),Clustalx的工作界面 (剖面(profile)比对模式),Clustalw的工作原理,Clustalw输入多个序列,快速的序列两两比对,计算序列间的距离,获得一个距离矩阵,邻接法(NJ)构建一个树(引导树),根据引导树,渐进比对多个序列。,Clustalw的应用,1.输入输出格式。 输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。,2.两种工作模式。a.多序列比对模式

13、。b.剖面(profile)比对模式。,GCG序列对比软件,GCG (Genetics Computer Group)是生物信息界最广为人知的分子序列分析软件包,最早是在美国的威斯康辛大学麦迪逊校区(University of Wisconsin-Madison)内发展起来的,后来独立成为一个商业公司,期间曾经是Oxford Molecular 的分支机构,在2000 年又由Pharmacopeia 所并构。,GCG 软件包包括了超过130个独立的序列分析程序,大致上可以分成以下12个类别:1. Sequence Comparison2. Database Searching and Retr

14、ieval 3.DNA/RNA Secondary Structure Prediction4.Editing and Publication5.Evolutionary Analysis6.Fragment Assembly7.Gene Finding and Pattern Recognition8.Importing and Exporting9.Mapping10.Primer Selection11.Protein Analysis12.Translation,除了分析程序以外, GCG 同时也提供多种生物学数据库。核酸相关的:GenBank(http:/www.ncbi.nlm.nih.gov/ ) EMBL (http:/www.ebi.ac.uk/) 蛋白质相关的:SWISS-PROT (http:/www.expasy.ch/sprot/)PIR (http:/www-nbrf.georgetown.edu/pir/)SP-TrEMBL (http:/www.expasy.ch/sprot/ ) 使用者可以输入自己实验获得的分子序列, 或者从这些数据库中来获取得到分子序列,再用到GCG的分析程序进行分析。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号