《蛋白数据库汇总》由会员分享,可在线阅读,更多相关《蛋白数据库汇总(9页珍藏版)》请在金锄头文库上搜索。
1、3.1 蛋白质数据库及蛋白质序列分析生物信息学 2010-12-21 11:09:05 阅读 29 评论 0 字号:大中小 订阅 http:/ 蛋白质数据库及蛋白质序列分析第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT 和 PIR 是国际上二个主要的蛋白质序列数据库,目前这二个数据库在 EMBL 和 GenBank 数据库上均建立了镜像 (mirror) 站点。 SWISS-PROT 数据库包括了从 EMBL 翻译而来的蛋白质序列,这些序列经过检验和注释。该数据库主要由日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护。S
2、WISS-PROT 的序列数量呈直线增长。 2、TrEMBL 数据库: SWISS-PROT 的数据存在一个滞后问题,即把 EMBL 的 DNA 序列准确地翻译成蛋白质序列并进行注释需要时间。一大批含有开放阅读框(ORF) 的DNA 序列尚未列入 SWISS-PROT。为了解决这一问题,TrEMBL(Translated EMBL) 数据库被建立了起来。 TrEMBL 也是一个蛋白质数据库,它包括了所有EMBL 库中的蛋白质编码区序列,提供了一个非常全面的蛋白质序列数据源,但这势必导致其注释质量的下降。 3、PIR 数据库: PIR 数据库的数据最初是由美国国家生物医学研究基金会(Nation
3、al Biomedical Research Foundation, NBRF)收集的蛋白质序列,主要翻译自 GenBank 的 DNA 序列。 1988 年,美国的 NBRF、日本的 JIPID(the Japanese International Protein Sequence Database 日本国家蛋白质信息数据库)、德国的 MIPS(Munich Information Centre for Protein Sequences 摹尼黑蛋白质序列信息中心)合作,共同收集和维护 PIR 数据库。PIR 根据注释程度( 质量 )分为 4 个等级。 4、 ExPASy 数据库: 目前,瑞
4、士生物信息学研究所(Swiss Institute of Bioinformatics, SIB)创建了蛋白质分析专家系统(Expert protein analysis system, ExPASy )。涵盖了上述所有的数据库。 网址:http:/www.expasy.org 我国的北京大学生物信息中心() 设立了 ExPASy 的镜像(Mirror)。 主要蛋白质序列数据库的网址 SWISS-PROT http:/www.expasy.org/sprot 或 http:/www.expasy.org/expasy_urls.html TrEMBL http:/www.expasy.org/
5、sprot PIR http:/www-nbrf.georgetown.edu/pirwww MIPSMunich Information Centre for Protein Sequences http:/mips.gsf.de/ JIPIDthe Japanese International Protein Sequence Database 已经和 PIR 合并 ExPASy http:/www.expasy.org 二、蛋白质结构数据库 1、PDB 数据库: 实验获得的三维蛋白质结构均贮存在蛋白质数据库 PDB(Protein Data Bank)中。PDB 是国际上主要的蛋白质结构
6、数据库,虽然它没有蛋白质序列数据库那么庞大,但其增长速度很快。PDB 贮存有由 X 射线和核磁共振(NMR) 确定的结构数据。 2、NRL-3D 数据库: NRL-3D(Naval Research Laboratory-3D)数据库提供了贮存在PDB 库中蛋白质的序列,它可以进行与已知结构的蛋白质序列的比较。 3、HSSP 数据库: 对来自 PDB 中每个已知三维结构的蛋白质序列进行多序列列线(multiple sequence alignment)同源性比较的结果,被贮存在HSSP(homology-derived second structures of proteins)数据库中。被列
7、为同源的蛋白质序列很有可能具有相同的三维结构,HSSP 因此根据同源性给出了 SWISS-PROT 数据库中所有蛋白质序列最有可能的三维结构。 4、 SCOP 数据库: 要想了解对已知结构蛋白质进行等级分类的情况可利用SCOP(Structural classification of proteins)数据库,在该库中可以比较某一蛋白质与已知结构蛋白的结构相似性。 5、 CATH 数据库: CATH(Class, Architecture, Topology and Homologous superfamily)是与SCOP 类似的一个数据库。 蛋白质结构数据库网址 PDB http:/www
8、.rcsb.org/pdb (美国) http:/www.ebi.ac.uk/pdb (欧洲) NRL-3D http:/pir.georgetown.edu/pirwww/dbinfo/nrl3d.html HSSP http:/www.sander.ebi.ac.uk/hssp http:/www.cmbi.kun.nl/gv/hssp SCOP http:/scop.mrc-lmb.cam.ac.uk/scop CATH http:/www.biochem.ucl.ac.uk/bsm/cath http:/cathwww.biochem.ucl.ac.uk/latest/index.ht
9、ml 三、蛋白质二级结构预测网站(数据库) 4、Prosite(蛋白质序列功能位点数据库) 始建于 1990 年代初,由瑞典生物信息学研究所 SIB 负责维护。 基于对蛋白质家族中同源序列多重序列比对得到的保守区域,这些区域通常与生物学功能相关。 数据库包括两个数据库文件:数据文件 Prosite;说明文件 PrositeDoc。 Prosite 的网址:http:/cn.expasy.org/prosite 5、DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库 DSSP 的网址:http:/www.cmbi
10、.kun.nl/gv/dssp 6、FSSP (Families of Structural Similar Proteins) 蛋白质家族数据库 FSSP 的网址:http:/www.embl-ebi.ac.uk/dall/fssp 7、HSSP(Homology Derived Secondary Structure of Proteins) 同源蛋白质数据库 HSSP 的网址: http:/www.cmbi.kun.nl/gv/hssp 在前面已经述说过了。 第二节、蛋白质序列分析方法 一、多序列比对 双序列比对是序列分析的基础。然而,对于构成基因家族的成组的序列来说,我们要建立多个序列
11、之间的关系,这样才能揭示整个基因家族的特征。多序列比对在阐明一组相关序列的重要生物学模式方面起着相当重要的作用。 多序列比对有时用来区分一组序列之间的差异,但其主要用于描述一组序列之间的相似性关系,以便对一个基因家族的特征有一个简明扼要的了解。与双序列比对一样,多序列比对的方法建立在某个数学或生物学模型之上。 因此,正如我们不能对双序列比对的结果得出“正确或错误” 的简单结论一样,多序列比对的结果也没有绝对正确和绝对错误之分,而只能认为所使用的模型在多大程度上反映了序列之间的相似性关系以及它们的生物学特征。 目前,构建多序列比对模型的方法大体可以分为两大类。 第一类是基于氨基酸残基的相似性,如
12、物化性质、残基之间的可突变性等。 另一类方法则主要利用蛋白质分子的二级结构和三级结构信息,也就是说根据序列的高级结构特征确定比对结果。 这两种方法所得结果可能有很大差别。一般说来,很难断定哪种方法所得结果一定正确,应该说,它们从不同角度反映蛋白质序列中所包含的生物学信息。 基于序列信息和基于结构信息的比对都是非常重要的比对模型,但它们都有不可避免的局限性,因为这两种方法都不能完全反映蛋白质分子所携带的全部信息。 蛋白质序列是经过 DNA 序列转录翻译得到的。从信息论的角度看,它应该与 DNA 分子所携带的信息更为“ 接近” 。而蛋白质结构除了序列本身带来的信息外,还包括经过翻译后加工修饰所增加
13、的结构信息,包括残基的修饰,分子间的相互作用等,最终形成稳定的天然蛋白质结构。因此,这也是对完全基于序列数据比对方法批评的主要原因。 如果能够利用结构数据,对于序列比对无疑有很大帮助。不幸的是,与大量的序列数据相比,实验测得的蛋白质三维结构数据实在少得可怜。在大多数情况下,并没有结构数据可以利用,我们只能依靠序列的相似性和一些生物化学特性建立一个比较满意的多序列比对模型。 多序列比对的定义 为了便于描述,对多序列比对过程给出下面的定义。把多序列比对看作一张二维表,表中每一行代表一个序列,每一列代表一个残基的位置。将序列依照下列规则填入表中: (a)一个序列所有残基的相对位置保持不变; (b)将
14、不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐(表 1)。 我们称比对前序列中残基的位置为绝对位置。如序列的第 3 位的残基是甘氨酸 G,则绝对位置3 就是甘氨酸,而不能变成任何其它氨基酸。相应地,我们称比对后序列中残基的位置为相对位置。显然,同一列中所有残基的相对位置相同,而每个残基的绝对位置不同,因为它们来自不同的序列。 绝对位置是序列本身固有的属性,或者说是比对前的位置,而相对位置则是经过比对后的位置,也就比对过程赋予它的属性。 算法复杂性 多序列比对的计算量相当可观,因此有必要分析以下技术的复杂性。双序列比对所需要的计算时间和内存空间与这两个序列的长度有关
15、,或者说正比于这两个序列长度的乘积,用 O(m1m2 )表示。其中 m1、m2 是指两条序列的长度。三序列比对则可以理解为将双序列比对的两维空间扩展到三维,即在原有二维平面上增加一条坐标轴。这样算法复杂性就变成了 O(m1m2m3),其中 m3 表示第三条序列的长度。 随着序列数量的增加,算法复杂性也不断增加。我们用O(m1m2m3mn )表示对 n 个序列进行比对时的算法复杂性,其中 mn是最后一条序列的长度。若序列长度相差不大,则可简化成 O(mn ),其中 n 表示序列的数目,m 表示序列的长度。显然,随着序列数量的增加,序列比对的算法复杂性按指数规律增长。 降低算法复杂性,是研究多序列
16、比对的一个重要方面。为此,产生了不少很有实用意义的多序列比对算法。这些方法的特点是利用启发式(heuristics)算法降低算法复杂性,以获得一个较为满意但并不一定是最优的比对结果,用来找出子序列、构建进化树、查找保守序列或序列模板,以及进行聚类(clustering )分析等。 有的算法将动态规划和启发性算法结合起来。例如,对所有的序列进行两两比对,将所有的序列与某个特定的序列进行比对,根据某种给定的亲源树进行分组比对,等等。必须指出,上述方法求得的结果通常不是最优解,至少需要经过 n-1 次双序列比对,其中 n 为参与比对的序列个数。比对方法 1)手工比对方法 手工比对方法在文献中经常看到。因为难免加入一些主观因素,手工比对通常被认为有很大的随意性。其实,即使用计算机程序进行自动比对,所得结果