多序列比对与Clustal的使用以及各类常见的序列分析工具介绍

资源描述

《多序列比对与Clustal的使用以及各类常见的序列分析工具介绍》由会员分享，可在线阅读，更多相关《多序列比对与Clustal的使用以及各类常见的序列分析工具介绍（63页珍藏版）》请在金锄头文库上搜索。

1、多序列比对与多序列比对与ClustalClustal的使用，的使用，以及各类常见的序列分析工具以及各类常见的序列分析工具介绍介绍中山大学生科院2004年10月内容提要第一部分：多序列比对第一部分：多序列比对意义、方法、算法Clustal的使用 1.Clustalx 2.Clustalw第二部分：常见的序列分析软第二部分：常见的序列分析软件分类简介件分类简介第一部分：第一部分：多序列比对及多序列比对及Clustal的使用的使用序列相似性比较和序列相似性比较和序列序列同源性分析同源性分析序列相似性比较：序列相似性比较：就是将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就

2、是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等；序列同源性分析：序列同源性分析：是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等；多序列比对的意义用于描述一组序列之间的相似性关系，以便了解一个基因家族的基本特征，寻找motif，保守区域等。用于描述一个同源基因之间的亲缘关系的远近，应用到分子进化分析中。其他应用，如构建profile，打分矩阵等。同源性分析中常常要

3、通过多序列比对来找出序列之间的相互关系，和blast的局部匹配搜索不同，多序列比对大多都是采用全局比对的算法。这样对于采用计算机程序的自动多序列比对是一个非常复杂且耗时的过程，特别是序列数目多，且序列长的情况下。多序列比对的方法多序列比对的方法基本上多序列比对可以分为基本上多序列比对可以分为 1.手工比对（辅助编辑软件如手工比对（辅助编辑软件如bioedit，seaview，Genedoc等）等）通过辅助软件的不同颜色显示不同残基，靠分析者的观察来改变比对的状态。 2.计算机程序自动比对计算机程序自动比对通过特定的算法（如同步法，渐进法等），由计算机程序自动搜索最佳的多序列比对状态。自动多

4、序列比对的算法1.同步法将序列两两比对时的二维动态规划矩阵扩展到三维矩阵。即用矩阵的维数来反映比对的序列数目。这种方法的计算量很大，对于计算机系统的资源要求比较高，一般只有在进行少数的较短的序列的比对的时候才会用到这个方法。自动多序列比对的算法2.步进法步进法最常见的就是clustal所采用的方法。其基本思想就是基于相似序列通常具有相似序列通常具有进化相关性进化相关性的这一假设。 Clustal的渐进比对过程在比对过程中，先对所有的序列进行两两比对并计算它们相似性分值，然后根据相似性分值将它们分成若干组，并在每组之间进行比对，计算相似性分值。根据相似性分值继续分组比对，直到得到最终比对

5、结果。在比对过程中，相似性程度较高的序列先进行比对而距离较远的序列添加在后面。多序列比对工具多序列比对工具clustal Clustal是一个单机版的基于渐进比对的多序列比对工具，由Higgins D.G. 等开发。有应用于多种操作系统平台的版本，包括linux版，DOS版的clustlw，clustalx等。Clustal简介简介CLUSTAL是一种渐进的比对方法，先将多个序列两两比对构建距离矩阵，反应序列之间两两关系；然后根据距离矩阵计算产生系统进化指导树，对关系密切的序列进行加权；然后从最紧密的两条序列开始，逐步引入临近的序列并不断重新构建比对，直到所有序列都被加入为止。Clustalx

6、的工作界面（多序列比对模式多序列比对模式）Clustalx的工作界面（剖面剖面(profile)比对模式比对模式）Clustal的工作原理Clustal输入多个序列输入多个序列快速的序列两两比对，计算序列间的快速的序列两两比对，计算序列间的距离，获得一个距离矩阵。距离，获得一个距离矩阵。邻接法邻接法(NJ)构建一个树（引导树）构建一个树（引导树）根据引导树，渐进比对多个序列。根据引导树，渐进比对多个序列。Clustal的应用1.输入输出格式。输入输出格式。输入序列的格式比较灵活，可以是前面介绍过的FASTA格式，还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RS

7、F等格式。输出格式也可以选择，有ALN、GCG、PHYLIP和NEXUS等，用户可以根据自己的需要选择合适的输出格式。2.两种工作模式。两种工作模式。 a.多序列比对模式。多序列比对模式。 b.剖面剖面(profile)比对模式。比对模式。3.一个实际的例子。一个实际的例子。Clustal的应用多序列比对实例输入文件的格式(fasta)：KCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTNDMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK.KPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLENDAF

8、1_CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD1CSN HYKVGRRIGEGSFGVIFEGTNLLNN第一步：输入序列文件。第二步：设定比对的一些参数。参数设定窗口。第三步：开始序列比对。第四步：比对完成，选择保存结果文件的格式Clustalw的使用(一) Clustalw还提供了命令调用形式的使用方式，方便于批处理过程，下面是一个典型的执行多序列比对的clustalw命令：$ ./clustalw infile=dna.fa type=dna gapopen=10 gapext=2 output=gcg outfile=align.gcg -alig

9、nClustalw的使用(二)在线的clustalw分析EBI提供的在线提供的在线clustalw服务服务http:/www.ebi.ac.uk/clustalw/http:/www.ebi.ac.uk/clustalw/EBI提供提供的在线的在线Clustalw服务服务更为详细的教程可以在这里得到更多关于可以在这里得到更多关于clustal的帮助：的帮助：http:/www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html 实际操作实际操作(练习练习)使用clustalx程序，对给定的多序列，选择合适的参数，进行多序列比对，输出结果文件维phylip格

10、式。相同的文件，使用ebi和我们提供的在线服务，进行多序列比对。对上述计算机程序比对的结果进行手工改动（bioedit，seaview），使得多序列比对结果跟符合要求。SIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWHE

11、LLILTNSALVPPASSYVSIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVFVVPAASSAAISAAGGTGGQAGSDYAQSYEFVIVAVNNNIVRIENSLVRNRRRWSREGPMVMVCTIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFV

12、REIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWHELLILTNSALVPPASPYVPIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEP

13、TGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAIAAAGGTGGQAGSDYPQNYEFVILAVNNNIVRISGGETPQNYIAVCWIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPQVTLNPLLAATFSLRWTRNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRTGYDNMIGNVSSLINPVAPGGNLG

14、STGGTNLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWTELLVLQNSALVAPASPYVPIVVPTHLTVAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYTPLTNASPTFDIRFSHAIKALFFSVRNKTSASEWSNYATSSPVVTGATVNFEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAVNAASGAGGFPGSDYPQSYEFVIVAVNNNIVRISGGETPQNYLSGSFVTL

15、LNRRKWSREGPMIMVQCzIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPQVTLNAQLGPTFGLRWTRNFMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKKIGYDNMIGNISALTNPVAPGGSLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWPELLILTNTALVPPASPYVPIVVGTHLSAAPVLGAVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAP

16、RQNYTPLTNAMPTFDIRFSHAIKALFFSVRNKTSSAEWSNYATSSPVVTGQLVNYEPPGAFDPISNTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSSIGYHLYSYSLHFFDLDPMGSTNYGKLTNVSVVPQASPAAVTAAGGSGAAGSGADYAQSYEFVIIGVNNNIIRISGGALGFPVLCIV MSISSSNVTSGFIDIATKDEIEKYMYGGKTSTAYFVRETRKATWFTQVPVSLTRANGSANFGSEWSASISRAGDYLLYTWLRVRIPSVTLLSTNQFGANGRIRWCRNFMHNLI

17、RECSITFNDLVAARFDHYHLDFWAAFTTPASKAVGYDNMIGNVSALIQPQPVPVAPATVSLPEADLNLPLPFFFSRDSGVALPTAALPYNEMRINFQFHDWQRLLILDNIAAVASQTVVPVVGATSDIATAPVLHHGTVWGNYAIVSNEERRRMGCSVRDILVEQVQTAPRHVWNPTTNDAPNYDIRFSHAIKALFFAVRNTTFSNQPSNYTTASPVITSTTVILEPSTGAFDPIHHTTLIYENTNRLNHMGSDYFSLVNPWYHAPTIPGLTGFHEYSYSLAFNEIDPMGSTNYGKLTNI

18、SIVPTASPAAKVGAAGTGPAGSGQNFPQTFEFIVTALNNNIIRISGGALGFPVL练习序列第二部分：第二部分：常见的序列分析软件分类简介常见的序列分析软件分类简介GCGEMBOSS(免费)Vector NTIDNAstarBioedit(免费)其他1.综合序列分析软件包GCG(商业软件)GCG (Genetics Computer Group)是生物信息界最广为人知的分子序列分析软件包，最早是在美国的威斯康辛大学麦迪逊校区(University of Wisconsin-Madison)内发展起来的，后来独立成为一个商业公司，期间曾经是Oxford Molecular

19、的分支机构,在2000 年又由Pharmacopeia 所并构。GCG 软件包包括了超过软件包包括了超过130个独立的序列个独立的序列分析程序分析程序，大，大致上可以分成以下致上可以分成以下12个类别：个类别： 1. Sequence Comparison 2. Database Searching and Retrieval 3.DNA/RNA Secondary Structure Prediction 4.Editing and Publication 5.Evolutionary Analysis 6.Fragment Assembly 7.Gene Finding and Patt

20、ern Recognition 8.Importing and Exporting 9.Mapping 10.Primer Selection 11.Protein Analysis 12.Translation 除了分析程序以外，除了分析程序以外， GCG 同时也提供多种生物同时也提供多种生物学学数据库数据库。核酸相关的:GenBank(http:/www.ncbi.nlm.nih.gov/ ) EMBL (http:/www.ebi.ac.uk/) 蛋白质相关的： SWISS-PROT (http:/www.expasy.ch/sprot/) PIR (http:/www-nbrf.geo

21、rgetown.edu/pir/) SP-TrEMBL (http:/www.expasy.ch/sprot/ ) 使用者可以输入自己实验获得的分子序列，或者从这些数据库中来获取得到分子序列，再用到GCG的分析程序进行分析。 GCG的工作方式(S-C) 安装在基于Unix系统的服务器上，目前可以安装的平台(platform)有SGI 的IRIX 操作系统，SUN 的Solaris操作系统，及Compaq 的Tru64操作系统，用户可以通过网络连接的方法来使用GCG提供的分析程序以及数据库。1.传统的命令行形式，这种情况要求用户熟悉程序的命令。2.借助SeqLab的用户窗口界面，通过各类表单的

22、操作来实现分析任务。以上两个执行GCG的方法都是通过telnet来实现的。3. 借助于WWW服务的SeqWeb，是最为简单和方便的使用方式。虽然命令行的操作需要一些操作，但是对于熟悉GCG的用户来说，却是最为快捷和有效的方法，此外这种方法还可以扩展到批处理中。执行GCG程序的方法EMBOSS(免费软件) EMBOSS（European Molecular Biology Open Software Suite）源于1988年的EGCG（主流商业软件GCG的扩展），由于版权等原因，EGCG不再发行，开发人员在此基础上开发出来公开源代码的EMBOSS软件包。http:/www.sanger.ac

23、.uk/Software/EMBOSS Vector NTI由Informax公司（现在已经归入Invitrogen公司旗下）开发的一种高度集成、功能齐全的分子生物学应用软件，可以对DNA、蛋白质分子进行大量分析和操作。主要功能：1.DNA序列的ORF、Motif、功能区搜索，限制酶图谱，蛋白质翻译。2.PCR引物、测序引物、杂交探针的设计和评价。3.DNA测序片断的拼接4.同源比较和系统发育树构建5.蛋白质结构预测：三维结构、化学键、翻译后修饰位点、结构域等6.模拟电泳：琼脂糖、PAGEDNAstar DNASTAR有限公司开发了Lasergen程序组,可在计算机上进行DNA和蛋白分析。它们

24、是易于使用且对用户友好的软件,可进行分子生物学中的小规模序列分析和多序列比较。Lasergen有PC Windows和Macintosh两种版本。Lasergen的一个主要功能是它有针对不同应用的7种程序。用户可根据自己需要选择购买。主要功能：1. Editseq，可以从键盘、数据库或数字序列输入和编辑。2. PrimerSelect，PCR引物和探针设计。3. MapDraw，限制性位点分析和图谱绘制。 4. MegAlign，多个和成对蛋白或DNA序列比对。5. GeneMan，生物数据库和数据库检索。 6. Protean，蛋白结构分析。7. SeqMan，序列装配和毗连(序列)群管理。

25、Bioedit是一个性能优良的免费的分子生物学应用软件，可以对核酸序列和蛋白质序列进行常规的分析操作，并提供了很多网络程序的分析界面和接口。 http:/www.mbio.ncsu.edu/BioEdit/bioedit.html2.快速同源性数据库搜索工具BlastFastaHMMerHMMER HMMer 是一个采用隐马可夫模型 HMMs（Hidden Markov Models）来识别不同基因之间的结构相似性程度的工具。可以快速的在数据库中寻找与特定基因具有一定相似性的基因结构。http:/hmmer.wustl.edu/ 3.多序列比对工具Clustal基于渐进算法的多序列比对优化算法

26、，由Higgins D.G. 等开发。Clustlw，clustalx等。其他：T_coffeePHYLIPPAUP*其他：Mega2，MrBayes，tree-puzzle PAML，treeview4.分子进化分析工具PHYLIPPhylip是一个免费的系统发生(phylogenetics)分析软件包。由华盛顿大学遗传学系开发，1980年首次公布，目前的版本是3.6。包含了35个独立的程序，这些独立的程序都实现特定的功能，这些程序基本上包括了系统发生分析的所有方面。 Phylip有多种不同平台的版本（包括windows，Macintosh，DOS，Linux，Unix和OpenVMX）。

27、http:/evolution.genetics,washington.edu/phylip.htmlPAUP*最早是在苹果机上开发的具有菜单界面的进化分析软件，早先版本只有MP法，后续版本已经包括距离法和ML法，现今有mac，win，linux等多种版本，该软件不是免费软件，使用者需要向开发者购买。5.其他工具模式识别：Meme，signalscan， domainFinder等测序分析与序列拼接：Chromas，Phred+Phrap+cross_match+consed, contigExpress等引物设计：Oligo，Primer3，Primer Premier5.0等三维分子：PD

28、Bviewer，CN3D,RASMOL等序列分析工具的网络资源生物软件网http:/www.bio-NCBIhttp:/www.ncbi.nlm.nih.govExpasyhttp:/www.expasy.org/ 生物软件网由华北制药集团的谈杰创建，是一个具有丰富生物信息学资源的站点，提供了大量的生物信息学分析软件下载。http:/www.bio-NCBI 美国国立生物技术信息中心（NCBI）成立于1988年11月4日。是在NIH的国立医学图书馆（NLM）的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的，而且这可以建立一个内部的关于计算分子生物学的研究计划。NCB

29、I的任务是发展新的信息学技术来帮助对那些控制健康和疾病的基本分子和遗传过程的理解。主要资源包括：数据库和软件，以及相关的教育和培训资源http:/www.ncbi.nlm.nih.govExpasy 由位于瑞士日内瓦的 Swiss Institute of Bioinformatics 所建立的，是全世界最重要的蛋白质数据库之一，也是 GCG 最主要的蛋白质序列来源。 Expasy的主要有蛋白质序列、结构、2-D PAGE (Two-dimentional polyacrylamide gel electrophoresis ) 等多个数据库，还有大量的蛋白质序列与结构分析工具以及F

30、TP资源等。蛋白质分析工具主要有蛋白质的功能预测，序列搜索与比对，二级、三级和四级结构的预测等等。 http:/www.expasy.org/操作系统 Unix（Linux），Windows， Macintosh编程语言：perl，C，php，VB算法：动态规划，启发式，各类模型数据结构：表，栈，树，图数据库Mysql，Oracle，SQL server，Sybase网络局域网构架与管理，并行化，网络应用（http，ftp，telnet）计算机相关知识Linux：是一个免费的可以在PC机上运行的UNIX系统Linux系统具有最新UNIX的全部功能，包括真正的多任务，虚拟存储，共享库函数，即时

31、负载，优越的存储管理和TCP/IP，UUCP网络工具。Linux由于其系统软件的免费获取，硬件费用低廉的特点，近年来发展迅猛。常见的Linux发行版有RedHat，Debian，Mandrake，SuSe等 Perl强大的正则表达式(regular expression)以及字符串操作使这个工作变得简单而没有其它语言能相比。Perl 非常擅长于切割，扭转，绞，弄平，总结，以及其它的操作文字文件。生物资料大部分是以文字文件存在的，如物种名称，种属关系，基因或序列的注解，评住，目录查阅, 就连DNA和蛋白质序列本身也是以文字形式出现的。正是因为这样，在生物资料处理的时候最多涉及的也是字符操作问题

32、。各种不同格式的生物信息资料之间的相互转换是一个很难解决的问题，而perl由于具有方便和强大的字符操作功能，使得它在这方面具有特殊的用途。MySQL是一个免费的、多用户、多线程的小型SQL数据库，是一个客户机/服务器结构的应用，可以运行在多种平台上，它由一个服务器守护程序mysqld和很多不同的客户程序和库组成。MySQL具有快速、多线程、多用户和稳定等特点，对于中、小型应用系统是非常理想的数据库服务平台。动态规划（dynamic programming ）动态规划的实质是分治思想和解决冗余，将问题的实例分解为更小的、相似的子问题。动态规划的思想在于，如果各个子问题不是独立的，不同的子问题的个数只是多项式量级，如果我们能够保存已经解决的子问题的答案，而在需要的时候再找出已求得的答案，这样就可以避免大量的重复计算。由此而来的基本思路是，用一个表记录所有已解决的子问题的答案，不管该问题以后是否被用到，只要它被计算过，就将其结果填入表中。动态规划算法在生物序列分析中是一个比较常见也是比较有用的算法。网络应用：HTTP（超文本传输协议）：应用层网络协议之一，主要用于传输www网页。FTP（文件传输协议）：应用层网络传输协议之一，主要用于文件传输。其他应用协议：Telnet本章结束，如有问题，请联系yuansen_

展开阅读全文

多序列比对与Clustal的使用以及各类常见的序列分析工具介绍

最新文档