《蛋白质数据库和蛋白序列分析》由会员分享,可在线阅读,更多相关《蛋白质数据库和蛋白序列分析(6页珍藏版)》请在金锄头文库上搜索。
1、蛋白质数据库和蛋白序列分析摘要:生物信息学英文 bioinformatics,是一门综合计算机科学,信息技术,数学理论和方法来研究生物信息的新兴的交叉学科。包括各种生物学数据的采集、研究、存储、传递、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。蛋白质序列分析是生物信息学的基本研究方法。关键词:蛋白质序列分析 蛋白质数据库 SWISS-PROT PIR TrEMBL PDB数据库 HSSP 数据库 NRL-3D 数据库 SCOP 数据库 生物信息数据与查询 序列分析 质谱 隐马尔可夫模型正文:由于人类基因组计划完成了人类基因组的测序与分析
2、工作,积累了大量的核酸和蛋白质序列数据,从而导致了分子数据库的建立。分子生物学家在此基础上依靠计算机进行核酸和蛋白质序列分析。一、蛋白质数据库大量生物学实验的数据积累,形成了当前数目众多的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理。这些生物信息数据库可以分为一级数据库和二级数据库。以下介绍国际上比较著名的一些蛋白质数据库。一级数据库的数据都直接来源于实验获得的原始数据,只经过简单的归类整理和注释。比如 SWISS-PROT 数据库,SWISS-PROT 数据库包括了从 EMBL 翻译而来的蛋白质序列,这些序列经过检验和注释,该数据库主要由日内瓦
3、大学医学生物化学系和欧洲生物信息学研究所(EBI)合作维护,其序列数量呈直线增长;PIR 数据库,它和 SWISS-PROT 是国际上二个主要的蛋白质序列数据库,目前这二个数据库在 EMBL 和 GenBank 数据库上均建立了镜像 (mirror) 站点。PIR 数据库的数据最初是由美国国家生物医学研究基金会收集的蛋白质序列,主要翻译自 GenBank 的 DNA 序列。1988 年,美国的 NBRF、日本的 JIPID(the Japanese International Protein Sequence Database 日本国家蛋白质信息数据库)、德国的 MIPS(Munich Inf
4、ormation Centre for Protein Sequences摹尼黑蛋白质序列信息中心)合作,共同收集和维护 PIR 数据库。PIR 根据注释程度(质量)分为 4 个等级;SWISS-PROT 的数据存在一个滞后问题,即把 EMBL的 DNA 序列准确地翻译成蛋白质序列并进行注释需要时间。一大批含有开放阅读框(ORF) 的 DNA 序列尚未列入 SWISS-PROT。为了解决这一问题,TrEMBL(Translated EMBL) 数据库被建立了起来。TrEMBL 也是一个蛋白质数据库,它包括了所有 EMBL 库中的蛋白质编码区序列,提供了一个非常全面的蛋白质序列数据源,但这势必导
5、致其注释质量的下降;还有 ExPASy 数据库等。二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步整理。比如 PDB 数据库,实验获得的三维蛋白质结构均贮存在蛋白质数据库 PDB(Protein Data Bank)中。PDB 是国际上主要的蛋白质结构数据库,虽然它没有蛋白质序列数据库那么庞大,但其增长速度很快。PDB 贮存有由 X 射线和核磁共振(NMR)确定的结构数据;HSSP数据库,对来自 PDB 中每个已知三维结构的蛋白质序列进行多序列同源性比较的结果,被贮存在 HSSP(homology-derived second struct
6、ures of proteins)数据库中。被列为同源的蛋白质序列很有可能具有相同的三维结构,HSSP 因此根据同源性给出了 SWISS-PROT 数据库中所有蛋白质序列最有可能的三维结构;NRL-3D 数据库,NRL-3D(Naval Research Laboratory-3D)数据库提供了贮存在 PDB 库中蛋白质的序列,它可以进行与已知结构的蛋白质序列的比较;SCOP数据库,要想了解对已知结构蛋白质进行等级分类的情况可利用 SCOP 数据库,在该库中可以比较某一蛋白质与已知结构蛋白的结构相似性;以及与 SCOP 类似的一个数据库 CATH 等。二、蛋白质序列分析要在如此庞大的数据库中找
7、到所需要的目标序列,必须建立数据库查询系统。数据库查询(也称为数据库检索)是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。常用的数据库查询系统有 Entrez, SRS 等。数据库搜索是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。常用的数据库搜索系统有 BLAST 、FASTA 和 BLITZ 。面对大批由测序仪产生的序列数据,通过序列分析,人们能够了解这些序列的生物学信息和意义,以下对蛋白质序列分析做简单介绍。 一、蛋白质基本性质分析,包括氨基酸组分、分子质量、等电点分析,疏水性分析,跨膜区分析,前导肽和蛋白质定位,卷曲螺
8、旋分析等。二、蛋白质序列分析方法多序列比对,为了便于描述,对多序列比对过程给出下面的定义。把多序列比对看作一张二维表,表中每一行代表一个序列,每一列代表一个残基的位置。将序列依照下列规则填入表中:(a)一个序列所有残基的相对位置保持不变;(b)将不同序列间相同或相似的残基放入同一列,即残基上下对齐,我们称比对前序列中残基的位置为绝对位置。相应地,我们称比对后序列中残基的位置为相对位置。显然,同一列中所有残基的相对位置相同,而每个残基的绝对位置不同,因为它们来自不同的序列。绝对位置是序列本身固有的属性,或者说是比对前的位置,而相对位置则是经过比对后的位置,也就比对过程赋予它的属性。其算法复杂,比
9、对方法有手工比对方法,同步法,步进法等。多序列比对的意义在于它能够把不同种属的相关序列的比对结果按照特定的格式输出,并且在一定程度上反映它们之间的相似性。多序列比对结果所提供的信息对于提高数据库搜索灵敏度也具有很大帮助。因此,方便实用的多序列比对数据库也就应运而生。三、蛋白质的结构与功能预测(1)蛋白质结构预测1、蛋白质结构及其数据库 一般情况下,蛋白质的结构分为 4 个层次:初级结构蛋白质序列;二级结构螺旋和 折叠片(-sheets)模式;三级结构残基在空间的布局;四级结构蛋白质之间的互作。2、二级结构预测已有大量有关根据序列预测蛋白质二级结构的文献资料,这些资料可大致分为二类:一是有关根据
10、单一序列预测二级结构;二是有关根据多序列列线预测二级结构。3、三级结构预测比对数据库中已知结构的序列是预测未知序列三级结构的主要方法。多种途径可进行以上这种比对。最容易是使用 BLASTP 程序比对 NRL3D 或 SCOP 数据库中的序列。如果发现超过 100 个碱基长度且有远高于 40%序列相同率的匹配序列,则未知序列蛋白与该匹配序列蛋白将有非常相似的结构。在这种情况下,同源性建模(homology modeling)在预测该未知蛋白精细结构方面会发挥非常大的作用。在序列相同率为 25 %40 %时,两条蛋白质将具有相同的折叠,但这时同源性建模将变得更加困难和不准确。如果在比对 NRL3D
11、 数据库时没有发现匹配序列,接下去可试试 HSSP 数据库。这样做的一条最方便捷径是用 BLAST或 FASTA 法搜索蛋白质序列库(如 SWISS-PROT、TREMBL 或 PIR),然后利用诸如SRS 等工具去检索任何超过 25%序列相同率的匹配序列,如果这些匹配序列在HSSP 数据库中存在,则在该序列的注释(annotation)“DR”栏中将有说明(参见第三章)。如果未知蛋白质序列与某一 HSSP 数据库序列有明显大于 25%的序列相同率,则有把握地假定未知序列至少有与 HSSP 序列相同的蛋白质折叠模式。目前,NRL3D 和 HSSP 数据库的记录数量可以保证 20%的蛋白质序列将
12、找到已知结构的同源序列。(2)蛋白质功能预测1、根据序列预测功能的一般过程:比较未知蛋白序列与已知蛋白质序列的相似性;查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段;2、通过比对数据库相似序列确定功能;3、序列特性:疏水性、跨膜螺旋等;4、通过比对模序数据库等确定功能。三、质谱及隐马尔可夫模型在肽和蛋白质序列分析中的应用 了解肽和蛋白质的序列对理解其功能具有重要意义,测定其序列也是当前生命科学研究中的重要内容之一质谱作为高灵敏度的测定分子结构的仪器,其高灵敏度、广泛的适用性及快速性等特性使它具有很大潜力发展成为辅助传统测序方法的新方法,并得到了广泛的关注肽和蛋白质序列的质
13、谱测定方法质谱用于肽和蛋白质的序列测定主要可以分为三种方法一种方法叫蛋白图谱(protein mapping),即用特异性的酶解或化学水解的方法将蛋白切成小的片段,然后用质谱检测各产物肽分子量,将所得到的肽谱数据输入数据库,搜索与之相对应的已知蛋白,从而获取待测蛋白序列;第二种方法是利用待测分子在电离及飞行过程中产生的亚稳离子,通过分析相邻同组类型峰的质量差,识别相应的氨基酸残基其中亚稳离子碎裂包括“自身”碎裂及外界作用诱导碎裂;第三种方法与 FAman 法有相似之处,即用化学探针或酶解使蛋白或肽从 N 端或c 端逐一降解下氨基酸残基,形成相互间差一个氨基酸残基的系列肽,名为梯状测序(1add
14、er sequencing),经质谱检测,由相邻峰的质量差知道相应氨基酸残基隐马尔可夫模型(Hidden Markov model,HMM)用于蛋白质研究是生物信息学研究的新领域。目前,人们已经得到大量的蛋白质序列和结构数据,传统研究蛋白质的方法已经不再实用,生物学家已经转向能够处理大量数据的统计方法来进行研究。隐马尔可夫模型可以通过训练,识别同一特征的蛋白质序列。从 SCOP 数据库中选择了一个蛋白质族,由它得到了能够代表该族特征的隐马尔可夫模型,并用该模型对一些蛋白质序列进行分析。隐马尔可夫模型(Hidden Markov model,HMM)用于蛋白质研究是生物信息学研究的新领域,它的基
15、础是计算机技术、统计学和分子生物学。HMM 可被用于蛋白质同源性的研究。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的 Markov 链,另一个是与 Markov 链的每一状态相关联的观察结果的随机过程。隐 Markov 链的特征要靠可观测到的信号揭示。编码蛋白质的原始 DNA 序列,在生物的进化过程中,会受到自然环境和各种因素的影响,使翻译出的蛋白质序列经历突变,遗失,或引入外源序列等变化,最后按不同的进化路径分化,形成多种功能相近的蛋白质。因此,可以把这些蛋白质看作由一个基本蛋白质序列经过插入,删除或替换了某些氨基酸残基而形成的。这个过程可以
16、用 HMM 来表示。 HMM 可以用于已知一级结构进行蛋白质的分类,并且有较好的效果,是对其它预测和分类方法的补充。若结合各种蛋白质结构数据库,会产生更准确的预测结果。但它也存在一些缺陷,使得它用于结构分析方面有一定的不足。结束语 : 随着人们对蛋白质研究的越加深入,蛋白质数据库将会进一步的发展和完善,蛋白质测序及其结构与功能预测已成为当前生命科学研究的重要内容之一。参考文献 1. Clustal W蛋白质与核酸序列分析软件 郭崇志 孙曼霁 生物技术通讯-2000 年 2 期 2. 液相色谱与串联质谱偶联在蛋白质序列分析中的应用 孙自勇 吴盛基础医学与临床-2003 年 2 期 3. 人重组磷脂酶 D2 变构体 cDNA 和蛋白质序列分析 朱玲1 陆惠民2 中国生物工程杂志-2003 年 3 期 4. 隐马尔可夫模型用于蛋白质序列分析 吴晓明1 程敬之2 生物医学工程学杂志-2002 年 3 期 5.