基于序列特征的固有无序蛋白结合位点的统计分析本科毕业

上传人:乐*** 文档编号:117408017 上传时间:2019-12-05 格式:DOC 页数:23 大小:327KB
返回 下载 相关 举报
基于序列特征的固有无序蛋白结合位点的统计分析本科毕业_第1页
第1页 / 共23页
基于序列特征的固有无序蛋白结合位点的统计分析本科毕业_第2页
第2页 / 共23页
基于序列特征的固有无序蛋白结合位点的统计分析本科毕业_第3页
第3页 / 共23页
基于序列特征的固有无序蛋白结合位点的统计分析本科毕业_第4页
第4页 / 共23页
基于序列特征的固有无序蛋白结合位点的统计分析本科毕业_第5页
第5页 / 共23页
点击查看更多>>
资源描述

《基于序列特征的固有无序蛋白结合位点的统计分析本科毕业》由会员分享,可在线阅读,更多相关《基于序列特征的固有无序蛋白结合位点的统计分析本科毕业(23页珍藏版)》请在金锄头文库上搜索。

1、 德州学院 物电学院 2014届 应用物理学专业 毕业论文 基于序列特征的固有无序蛋白结合位点的统计分析xxx (物理与电子信息学院,山东德州253023)摘 要 本文以Disprot和BSDP数据库中的固有无序蛋白的结合位点为研究对象,构建9种结合位点数据集,利用MATLAB进行统计结合位点各种氨基酸的频率,结果发现,蛋白质与蛋白质相互作用的结合位点最多,蛋白质与ATP/GTP相互作用的结合位点最少,而且还可以得知各种类型结合位点的氨基酸具有明显的偏好性。该研究有助于认识固有无序蛋白质与其它成份的相互作用特征、为进一步挖掘固有无序蛋白质的序列特征,进而为发展预测固有无序蛋白质与蛋白质、DNA

2、、RNA、配体、辅因子等物质结合位点的软件奠定了良好的基础。矚慫润厲钐瘗睞枥庑赖。关键词 固有无序蛋白; 无序区; 序列分析; 结合位点1引言1.1固有无序蛋白质蛋白质是构成生物体最重要的两类大分子之一,蛋白质翻译在整个生物过程中发挥着非常重要的作用。传统思想认为,蛋白质要实现生物功能,必须先折叠成一个稳定的三维结构,因此形成了蛋白质结构决定其功能的主流观点,对蛋白质科学的研究已经取得了一系列成就,创造了现代蛋白质科学的“大爆炸”时代1。然而,随着基因工程方法和实验技术的发展以及基因组计划的开展,在上个世纪90年代初,人们发现有些蛋白质或蛋白质序列中的一部分区域在生理条件下不具有一个确定的三维

3、结构,但依然能够正常行使生物学功能。后来发现,这类蛋白质越来越多,并逐渐形成了一种新的蛋白质类型,称为固有无序蛋白质2,3,4(intrinsically disordered proteins,简称为IDPs)。固有无序蛋白质的特征是整条链或链的一部分并不具有严格的三维结构,原子位置及主链二面角没有特定的平衡值而是随着时间发生很大的变化。经过十多年的研究,人们发现这类蛋白质在生物体内普遍存在而且十分丰富5,6,可以位于细胞的不同部位。研究还发现,真核生物体中含有的固有无序蛋白质数量远远高于古细菌和细菌中的固有无序蛋白7,8,即生物进化的一个重要特点是蛋白质中无序区的含量在增加。固有无序蛋白质

4、概念的提出既是对蛋白质科学的挑战,也是科学研究的巨大机遇,为了深入认识固有无序蛋白质的性质,研究其序列特征、进化过程中结构的保守性以及功能等是十分重要的科学问题。聞創沟燴鐺險爱氇谴净。1.2固有无序蛋白质的生物学功能无序蛋白质在生物体内是普遍存在的。例如利用预测算法DISOPRED2对古细菌细菌和真核生物的蛋白质组序列进行的分析表明,长度大于30个氨基酸的无序区域在这三个物种中的比例分别为2.0%、4.2%和33.0%9。对目前存在的大量基因库数据进行预测,分析蛋白质的结构无序与蛋白质功能之间的关联,通过这种方法人们发现无序蛋白质在诸如转录和翻译调控细胞信号转导蛋白磷酸化及小分子存储等过程中发

5、挥着重要的作用;另一方面无序蛋白质又似乎给生物体系带来一些不利的影响,经常与多种疾病联系在一起。与人类癌症相关的蛋白质中有79%的蛋白质有无序片段;在心血管疾病有关的蛋白质中,无序蛋白质的含量也高达57%。DisProt数据库将所有固有无序蛋白质分为7大功能和1组未知功能,并且将这7种功能又细分为28 种更具体的功能。按照Disprot 数据库的功能划分方法,将此数据库中所有固有无序蛋白质分为以下8组:分子伴侣、熵链、金属吸附器、位点修饰、分子组装、分子识别效应器、分子识别抗氧剂和未知功能。残骛楼諍锩瀨濟溆塹籟。1.3固有无序蛋白质的序列氨基酸(Amino acid)是构成蛋白质的基本单位,赋

6、予蛋白质特定的分子结构形态,使它的分子具有生化活性。固有无序蛋白质可以指整个蛋白质在生理环境下缺乏稳定的结构,也可以指蛋白质中的一部分区域没有结构,这部分区域通常称为无序区。这类蛋白质在氨基酸序列上具有显著的特征。其中最显著的特征是它们的疏水残基含量较低,同时拥有较高的未被中和的电荷因此不能形成一个稳定的疏水核心,在疏水性电荷图上无序蛋白质与有序蛋白质明显存在于不同的区域图。另外无序蛋白质氨基酸序列的复杂性也较有序蛋白质的低,序列上常常出现重复的区域。Radivojac对此进行过研究,得出不同的氨基酸残基也具有不同的促进无序结构形成的倾向的结论:Gly、Trp、Tyr、Ile、Phe、Val、

7、Leu、His、Thr、Asn比较有利于有序结构的形成;Asp、Met、Lys、Arg、Ser、Glu、Pro、Gln有利于无序的形成,而其它残基的作用则比较中性。无序蛋白质的出现还与氨基酸残基的预期堆积密度(用一定距离内的近邻残基数目来表征)有关联,预期堆积密度低的序列倾向于形成无序蛋白质,密度高的倾向于形成淀粉状聚集结构,而预期堆积密度适中的序列则倾向于形成有序球状蛋白。酽锕极額閉镇桧猪訣锥。1.4蛋白质结合位点预测的意义在后基因组时代,生命科学的中心任务是阐明基因组所表达的真正执行生命活动的全部蛋白质的表达规律和生物功能。蛋白质与配体相互作用以及蛋白质结构与功能之间的关系是后基因组时代研

8、究的核心内容,而蛋白质的结合位点的预测是这些研究领域的理论基础,同时也是基于结构的药物设计中至关重要的步骤,对计算机辅助药物设计和复合物结构预测具有重要意义,也是生物信息学领域一个重要的研究热点。彈贸摄尔霁毙攬砖卤庑。蛋白质与其他蛋白质、DNA和RNA的相互作用是实现许多细胞功能的途径10。近年来,随着X-射线晶体衍射和核磁共振等技术的日趋完善,越来越多高分辨率的复合物三维结构被测出,这使得人们能够从原子水平上研究蛋白质与其他蛋白质、DNA和RNA相互作用的结合位点。近年来,对此领域的研究发展较快,已有大量文献利用机器学习算法,力求寻找最合适的特征参数来分析及预测蛋白质与生物大分子相互作用时序

9、列中的结合残基11。固有无序蛋白质也是蛋白质,它往往与其他蛋白质、DNA 和RNA等通过结合位点结合来行使功能,结构上的柔性和在复合物状态能发生无序-有序转变的特性使其能够与蛋白质、DNA 和RNA等发生广泛的相互作用,从而行使诸多重要的生物学功能。已有研究通过对固有无序蛋白质在形成复合物状态下的分子内和分子间相互作用进行分析发现,固有无序蛋白质与受体分子之间的相互作用要强于固有无序蛋白质分子内的相互作用,因此固有无序蛋白质在结合状态下的有序结构主要是由残基分子与其他生物分子间形成的非共价键相互作用力来稳定12,如氢键、静电相互作用力以及范德华力等。也有研究表明,固有无序蛋白质复合物的界面通常

10、由连续的氨基酸构成,而由有序蛋白质构成的复合物的界面则由多个不连续的序列组成13,因此要形成同样大小的结合界面,固有无序蛋白质只需要较短的序列,有利于减小体积,降低细胞内的拥挤程度14。这表明对固有无序蛋白质相互作用位点的预测会更进一步了解固有无序蛋白质的表达规律和生物功能。謀荞抟箧飆鐸怼类蒋薔。1.5课题研究思路和意义课题以DisProt15数据库中固有无序蛋白质为研究对象,利用BSDP(Binding Sites of Disordered Proteins http:/211.64.35.129/bsdp/index.php)数据库,利用编程软件Matlab7.0进行统计得到新的结合位点

11、数据。具体工作为:首先利用Disprot数据库下载所有固有无序蛋白,经过去冗余处理后,再利用BSDP数据库构建固有无序蛋白质-蛋白质、固有无序蛋白质-DNA、固有无序蛋白质-RNA复合物、固有无序蛋白与辅因子、固有无序蛋白与金属、固有无序蛋白与配体、固有无序蛋白与ATP/GTP、固有无序蛋白与其它物质结合位点的数据集。在此基础上,研究了固有无序蛋白与其它因子相互作用结合位点的氨基酸序列的偏好性。厦礴恳蹒骈時盡继價骚。本研究工作,有助于认识固有无序蛋白质与其它成份的相互作用特征、了解现有蛋白质与核酸以及其他物质作用位点预测对固有无序蛋白情况的适用性、进一步挖掘固有无序蛋白质的序列特征,进而为发展

12、固有无序蛋白质与蛋白质、DNA、RNA、配体、辅因子等物质的预测软件奠定了良好的基础。茕桢广鳓鯡选块网羈泪。2数据来源及去冗余处理2.1固有无序蛋白质数据来源目前,经实验确认的固有无序蛋白质的数目日益增加,为方便这些数据的管理和注释,人们开始建立有关IDPs的数据库。Megan和Dunker等创立了系统描述固有无序蛋白的DisProt数据库(http:/www.disprot.org/index.php),该数据库展示了IDPs的实验特征和生物学功能,给出了多种不同实验技术得到的IDPs的大量范例,包括许多IDPs及其区域的功能信息,而且把IDPs及其无序区域的结构和功能系统地联系起来了。本工

13、作以固有无序蛋白质数据库DisProt为研究对象,下载了数据库中最新的固有无序蛋白质版本6.01,发布日期为2012年10月15日,共有无序蛋白质的数目是684个,无序区为1513个。通过编程分析得到最长的序列有18534个氨基酸,最短的序列只有33个氨基酸,平均为489个氨基酸。鹅娅尽損鹌惨歷茏鴛賴。2.2固有无序蛋白质数据去冗余处理 由于蛋白质序列数据库中都含有大量的冗余序列,冗余序列通常不能提供更多的信息,而且不利于数据的统计分析,而且它们要占用更多的计算机存储和处理资源。去除这些冗余信息具有很高的实用价值,不但可以减小数据库的大小提高序列搜索的速度,而且有助于对数据的统计分析。籟丛妈羥

14、为贍偾蛏练淨。2.2.1去冗余软件人们通常认为相似的生物序列具有相似的生物功能和结构,也具有相似的进化历史。一般可以通过三种方式来确定序列之间的相似度,即序列片段过滤、序列比对以及二者结合的方式。序列片段过滤可以通过计算序列片段的数目来断定序列之间的相似度在某个阈值之内,速度较快;序列比对是一种常用的序列之间相似性分析和比较的方法,可以分为全局比对和局部比对两种方法,序列比对方法可以获得较为精确的相似度,但通常占用较多的时间;出于对精确度和速度的折中,可以采用上述两种方法结合的方式来确定序列之间的相似度,即首先设置一些过滤策略来减少序列之间比对的次数,再在必要时采用序列比对来确定序列之间的相似

15、度,我们现在所了解的是著名的去冗余程序CD-HIT16,17(http:/weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/index.cgi)就是采用了这种方式来实现的。本研究用CD-HIT进行去冗余处理,将相似度阈值设为30%。 預頌圣鉉儐歲龈讶骅籴。2.2.2去冗余结果(1)去冗余前,蛋白质共有684条序列,最长序列有18534个氨基酸,最短序列有33个氨基酸,平均为489个氨基酸。去冗余后,蛋白质共有549个序列,最长为18534个氨基酸,最短为33个氨基酸,平均长度为525个氨基酸。可以得到处理前和处理后最长序列和最短序列的氨基酸个数相同,处理前的平

16、均氨基酸个数稍比处理后要短,但基本相同,说明相似度阈大于30%蛋白质序列的氨基酸多数在平均数以下。渗釤呛俨匀谔鱉调硯錦。(2)把氨基酸的的长度分成7块,分别统计了去冗余前后固有无序蛋白序列的条数,统计结果见表2-1,从表中可以看出序列长度大多集中在33-1883之间,序列长度4658-17609之间一条序列都没有。铙誅卧泻噦圣骋贶頂廡。表2-1 去冗余前后氨基酸长度及含量对比长度去冗余前序列条数去冗余后序列条数33-958616486958-188352491883-2808872808-3733653733-4658114658-176090017609-1853411(3)氨基酸的个数和百分含量的对比。 通过使用Matlab7.0对所下载的所有蛋白质序列进行

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 工学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号