蛋白质数据库及蛋白质序列分析

资源描述

《蛋白质数据库及蛋白质序列分析》由会员分享，可在线阅读，更多相关《蛋白质数据库及蛋白质序列分析（9页珍藏版）》请在金锄头文库上搜索。

1、蛋白质数据库及蛋白质序列分析第一节、蛋白质数据库介绍一、蛋白质一级数据库1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据库，目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列，这些序列经过检验和注释。该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。SWISS-PROT的序列数量呈直线增长。2、TrEMBL数据库： SWISS-PROT的数据存在一个滞后问题，即把EMBL的DNA序列准确地翻译成蛋白质序列并进行注释需要

2、时间。一大批含有开放阅读框(ORF) 的DNA序列尚未列入SWISS-PROT。为了解决这一问题，TrEMBL (Tran- slated EMBL) 数据库被建立了起来。TrEMBL也是一个蛋白质数据库，它包括了所有EMBL库中的蛋白质编码区序列，提供了一个非常全面的蛋白质序列数据源，但这势必导致其注释质量的下降。3、PIR数据库： PIR数据库的数据最初是由美国国家生物医学研究基金会（National Biomedical Research Foundation, NBRF）收集的蛋白质序列，主要翻译自GenBank的DNA序列。1988年，美国的NBRF、日本的JIPID（the Jap

3、anese International Protein Sequence Database日本国家蛋白质信息数据库）、德国的MIPS（Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息中心）合作，共同收集和维护PIR数据库。PIR根据注释程度(质量)分为4个等级。4、 ExPASy数据库：网址：http:/www.expasy.org目前，瑞士生物信息学研究所（Swiss Institute of Bioinformatics, SIB）创建了蛋白质分析专家系统（Expert protein analysis system, Ex

4、PASy ）。涵盖了上述所有的数据库。我国的北京大学生物信息中心() 设立了ExPASy的镜像（Mirror）。主要蛋白质序列数据库的网址SWISS-PROT http:/www.expasy.org/sprot 或 http:/www.expasy.org/expasy_urls.html TrEMBL http:/www.expasy.org/sprotPIR http:/www-nbrf.georgetown.edu/pirwwwMIPSMunich Information Centre for Protein Sequences http:/mips.gsf.de/JIPIDthe J

5、apanese International Protein Sequence Database 已经和PIR合并 ExPASy http:/www.expasy.org二、蛋白质结构数据库 1、PDB数据库：实验获得的三维蛋白质结构均贮存在蛋白质数据库PDB(Protein Data Bank)中。PDB是国际上主要的蛋白质结构数据库，虽然它没有蛋白质序列数据库那么庞大，但其增长速度很快。PDB贮存有由X射线和核磁共振(NMR)确定的结构数据。2、NRL-3D 数据库： NRL-3D（Naval Research Laboratory-3D）数据库提供了贮存在PDB库中蛋白质的序列，它可以进

6、行与已知结构的蛋白质序列的比较。3、HSSP数据库：对来自PDB中每个已知三维结构的蛋白质序列进行多序列列线(multiple sequence alignment)同源性比较的结果，被贮存在HSSP(homology-derived second structures of proteins)数据库中。被列为同源的蛋白质序列很有可能具有相同的三维结构，HSSP因此根据同源性给出了SWISS-PROT数据库中所有蛋白质序列最有可能的三维结构。4、 SCOP数据库：要想了解对已知结构蛋白质进行等级分类的情况可利用SCOP(Structural classification of prot-

7、eins)数据库，在该库中可以比较某一蛋白质与已知结构蛋白的结构相似性。5、 CATH 数据库： CATH(Class, Architecture, Topology and Homologous superfamily)是与SCOP类似的一个数据库。蛋白质结构数据库网址PDB http:/www.rcsb.org/pdb (美国)http:/www.ebi.ac.uk/pdb (欧洲) NRL-3D http:/pir.georgetown.edu/pirwww/dbinfo/nrl3d.htmlHSSP http:/www.sander.ebi.ac.uk/hssphttp:/www.cm

8、bi.kun.nl/gv/hsspSCOP http:/scop.mrc-lmb.cam.ac.uk/scopCATH hppt:/www.biochem.ucl.ac.uk/bsm/cath hppt:/cathwww.biochem.ucl.ac.uk/latest/index.html三、蛋白质二级结构预测网站（数据库）4、Prosite(蛋白质序列功能位点数据库) http:/cn.expasy.org/prosite始建于1990年代初，由瑞典生物信息学研究所SIB负责维护。基于对蛋白质家族中同源序列多重序列比对得到的保守区域，这些区域通常与生物学功能相关。数据库包括两个数据库文

9、件：数据文件Prosite；说明文件PrositeDoc。 5、DSSP (Definition of Secondary Structure of Proteins) http:/www.cmbi.kun.nl/gv/dssp蛋白质二级结构构象参数数据库 6、FSSP (Families of Structural Similar Proteins) http:/www.embl-ebi.ac.uk/dall/fssp蛋白质家族数据库 7、HSSP(Homology Derived Secondary Structure of Proteins) http:/www.cmbi.kun.nl/

10、gv/hssp同源蛋白质数据库在前面已经述说过了。第二节、蛋白质序列分析方法一、多序列比对双序列比对是序列分析的基础。然而，对于构成基因家族的成组的序列来说，我们要建立多个序列之间的关系，这样才能揭示整个基因家族的特征。多序列比对在阐明一组相关序列的重要生物学模式方面起着相当重要的作用。多序列比对有时用来区分一组序列之间的差异，但其主要用于描述一组序列之间的相似性关系，以便对一个基因家族的特征有一个简明扼要的了解。与双序列比对一样，多序列比对的方法建立在某个数学或生物学模型之上。因此，正如我们不能对双序列比对的结果得出“正确或错误”的简单结论一样，多序列比对的结果也没有绝对正确和绝对错误之

11、分，而只能认为所使用的模型在多大程度上反映了序列之间的相似性关系以及它们的生物学特征。目前，构建多序列比对模型的方法大体可以分为两大类:第一类是基于氨基酸残基的相似性，如物化性质、残基之间的可突变性等；另一类方法则主要利用蛋白质分子的二级结构和三级结构信息，也就是说根据序列的高级结构特征确定比对结果。这两种方法所得结果可能有很大差别。一般说来，很难断定哪种方法所得结果一定正确，应该说，它们从不同角度反映蛋白质序列中所包含的生物学信息。基于序列信息和基于结构信息的比对都是非常重要的比对模型，但它们都有不可避免的局限性，因为这两种方法都不能完全反映蛋白质分子所携带的全部信息。蛋白质序列是经过DNA

12、序列转录翻译得到的。从信息论的角度看，它应该与DNA分子所携带的信息更为“接近”。而蛋白质结构除了序列本身带来的信息外，还包括经过翻译后加工修饰所增加的结构信息，包括残基的修饰，分子间的相互作用等，最终形成稳定的天然蛋白质结构。因此，这也是对完全基于序列数据比对方法批评的主要原因。如果能够利用结构数据，对于序列比对无疑有很大帮助。不幸的是，与大量的序列数据相比，实验测得的蛋白质三维结构数据实在少得可怜。在大多数情况下，并没有结构数据可以利用，我们只能依靠序列的相似性和一些生物化学特性建立一个比较满意的多序列比对模型。多序列比对的定义为了便于描述，对多序列比对过程给出下面的定义。把多序列比对看

13、作一张二维表，表中每一行代表一个序列，每一列代表一个残基的位置。将序列依照下列规则填入表中：（a）一个序列所有残基的相对位置保持不变；（b）将不同序列间相同或相似的残基放入同一列，即尽可能将序列间相同或相似残基上下对齐（如表）。我们称比对前序列中残基的位置为绝对位置。如序列的第3位的残基是甘氨酸G，则绝对位置3就是甘氨酸，而不能变成任何其它氨基酸。相应地，我们称比对后序列中残基的位置为相对位置。显然，同一列中所有残基的相对位置相同，而每个残基的绝对位置不同，因为它们来自不同的序列。绝对位置是序列本身固有的属性，或者说是比对前的位置，而相对位置则是经过比对后的位置，也就比对过程赋予它的属性。算法

14、复杂性多序列比对的计算量相当可观，因此有必要分析以下技术的复杂性。双序列比对所需要的计算时间和内存空间与这两个序列的长度有关，或者说正比于这两个序列长度的乘积，用O（m1m2）表示。其中m1、m2是指两条序列的长度。三序列比对则可以理解为将双序列比对的两维空间扩展到三维，即在原有二维平面上增加一条坐标轴。这样算法复杂性就变成了O（m1m2m3），其中m3表示第三条序列的长度。随着序列数量的增加，算法复杂性也不断增加。我们用O（m1m2m3mn）表示对n个序列进行比对时的算法复杂性，其中mn是最后一条序列的长度。若序列长度相差不大，则可简化成O（mn），其中n表示序列的数目，m表示序列的长度。

15、显然，随着序列数量的增加，序列比对的算法复杂性按指数规律增长。降低算法复杂性，是研究多序列比对的一个重要方面。为此，产生了不少很有实用意义的多序列比对算法。这些方法的特点是利用启发式（heuristics）算法降低算法复杂性，以获得一个较为满意但并不一定是最优的比对结果，用来找出子序列、构建进化树、查找保守序列或序列模板，以及进行聚类分析（clustering analysis）等。有的算法将动态规划和启发性算法结合起来。例如，对所有的序列进行两两比对，将所有的序列与某个特定的序列进行比对，根据某种给定的亲源树进行分组比对，等等。必须指出，上述方法求得的结果通常不是最优解，至少需要经过n-1次双序列比对，其中n为参与比对的序列个数。比对方法 1）手工比对方法手工比对方法在文献中经常看到。因为难免加入一些主观因素，手工比对通常被认为有很大的随意性。其实，即使用计算机程序进行自动比对，所得结果中的片面性也不能予以忽视。在运行经过测试并具有比较高的可信度的计算机程序基础上，结合实验结果或文献资料，对多序列比对结果进行手工修饰，应该说是非常必要的多序列比对的软件已经有许多，其中一些带有编辑程序。最好的办法是将自动比对程序和编辑器整合在一起。为了便于进行交互式手工比对，通常使用

展开阅读全文