同源模建的措施与成果分析Version 1.0.2-------------------------------------------------------前言:作为一种以实验为主的生化工作者来说,诸多时候可以通过度子生物学手段获取自己需要的目的基因,并在多种体现载体和宿主中进行相应蛋白的体现,随后对于这些蛋白的特性进行研究,这也是一般酶学研究的特定套路而近十几年来,人们开始思考与否可以将特性与蛋白质的三级构造进行关联,从分子水平理解蛋白质与底物之间的互相作用呢?于是类似于蛋白构造模建、分子对接、分子动力学模拟、量化计算等多种手段相继被发明以及应用在这些措施中,同源模建无疑是最基本也是最重要的一种环节,由于其质量的好坏直接决定了后续工作与否可信因此,本文打算就同源模建的基本原理、常用软件及服务器以及成果分析与改善提供某些个人的经验,并但愿各位朋友可以予以批评指正1. 同源模建的原理及应用限制两点基本原理:1.一种蛋白质的构造由其氨基酸序列唯一的决定懂得其一级序列,至少在理论上足以获取其构造2. 构造在进化中更稳定,变化比序列层面的变化要缓慢许多应用限制:模板蛋白和目的蛋白的序列一致性需要不小于30%,且越大建模精确性越有保障。
理解了基本的原理,我们需要懂得在实际操作中,同源模建都需要怎么样进行同源模建的过程从实践中可分为如下7个环节:1. 模板辨认和初始比对在序列一致性比较高的时候,可以通过简朴的序列比对程序如BLAST获取目的蛋白的构造(将比对的数据库选择为PDB数据库)2. 比对成果的校正用以上的措施拟定一种或多种建模模板后,应当采用更为精确的措施已获得更优的比对成果有时在序列一致性较低的区域比对两条序列也许会具有困难,这个时候,我们可以采用其她同源蛋白序列一起参与比对来找到解决的措施3. 主链生成比对完毕后,就可以开始实际的建模过程了,相对与背面几步来说,主链建模时最没有难度的一步了,由于大部分软件都是通过简朴的拷贝模板蛋白的主链坐标来实现这一目的的4. 环区建模这一部分重要是目的蛋白和模板蛋白的比对成果中存在缺口的部分如何解决的问题第一种解决的方式是略去模板蛋白存在的残基,留下一种必须补上的缺口另一种状况是将主链截断,插入缺少的残基5. 侧链建模当我们比较构造相似的蛋白质中保守残基的侧链构象时,我们会发现她们的侧链构象一般会比较相似这就告诉我们如果加保守残基的侧链构象完整的拷贝到模建蛋白上时,在某些时候比先拷贝主链构象之后,再预测侧链构象来的可靠。
但是这一经验规则在实际运用中仅在两者序列一致性较高,并且保守残基之间形成接触的状况下才干实现因此,在既有的测序中,都是构造多种也许的构象体,并运用基于能量的函数打分来实现侧链构象的选择的6. 模型优化模型优化其实是一种比较复杂的问题,其质量依赖于高精确性的预测侧链构象体,而为了达到这种目的,我们需要对的的主链,这一环节实际又依赖于侧链构象体对的的堆积因此,这一优化过程是迭代直至收敛的过程需要注意的是,对于构造进行能量优化需要十分谨慎因此偏离对的构造的途径比指向对的构造的途径多诸多在优化中的每一步可以排除某些大的误差,但是也会引入诸多小的误差,这些小的误差通过多步积累,就有也许使你的成果更加偏离对的的构造7. 模型验证所有的模型都涉及误差,误差的多少重要依赖于两方面的内容:1.序列一致性的高下,越低的话引入误差的也许性就越大2. 模板蛋白中的误差:如果这种误差是局域性的,特别是远离活性位点的,对于你最后进行分子对接等研究室几乎没有影响的如果是蛋白整体的,则需要小心解决2. 常用软件、服务器2.1常用服务器:①SWISS-MODEL: 网址SWISS-MODEL也许是目前非专业人士应用最为广泛的一种建模服务器了。
其常用的模式可分为:1. Automated mode:自动模式,可以称为是最傻瓜的方式了进去之后只需要填上你的email以及在底下的框框内输入你所想模建的蛋白序列,再点击submit modeling request即可,底下尚有高档选项,支持自定义模板蛋白的pdb以及chain,或者自己上传模板文献,简而言之,真是非常易于操作这种措施合用于PDB数据库中存在高度同源的蛋白构造时的建模(蛋白序列一致性最佳不小于80%,个人经验)2. Alignment mode:比对模式基本的操作和自动模式类似,但是其序列提交的时候可以提交目的蛋白与模板蛋白的序列比对成果(FASTA,MSF,ClustalW等格式),如下所示:这种模式比较适合目的蛋白与模板蛋白具有较高的相似性,但是运用自动模式未必能找到最合适模板的状况,或者使用者有目的的使用特定的模板蛋白(例如具有更为相似的活性位点成果,而不是更为相似的整体构造)3. Project mode:项目模式项目模式重要是针对于目的蛋白和模板蛋白序列的相似性不高,两者的三级构造相似限度难以直接通过序列比对获得,需要人工插入调节(借助蛋白构造编辑软件deepview),这个模式可以交互式的提高前面两种模式的模型质量(通过将前两种模式模建出的蛋白进行人为调节)。
属于针对比较困难(序列一致性较低)的建模的一种有效途径② I-TASSAR: (貌似被墙了?)*也可如下载本地安装包个人使用评价:根据成果质量检查,貌似在用过的自动建模的软件里是成果最佳的了~但是缺陷是给成果时间比较长③ HOMER: 个人使用评价:这个软件需要序列蛋白与模板蛋白的构造比对文献上传(FASTA格式),可对模建的蛋白进行loop区优化以及侧链优化尚未进一步的研究~④ CPHmodels 3.2 Server: 个人使用评价:貌似没有任何特色,只需要一条蛋白序列既可以完毕自动建模2.2 常用软件:① Modeller:说到同源模建,不得不提其中大名鼎鼎的modeller, 要是做同源模建的娃们没有听过modeller, 实在是不好意思说自己玩转了同源模建的哈哈该软件由Sali lab开发,目前最新的版本是9.11,可在win下和linux运营,需要相应版本的python (<3.0)该软件好在什么地方呢?重要是可以自己控制的地方特别多,但这个也给新手带来了不少困扰,例如究竟在特定的场合用什么参数等等本人将在自己后来的学习过程中继续分享对这个软件的学习心得,真的是挺故意思的)可实现的功能涉及:多聚体建模,二硫键建模,杂原子建模(配体、辅酶等)。
具体的运算流程稍后补充:其最成熟的GUI为 easymodeller,最新版本为4.0使用措施稍后补充3. 同源模建成果评价与改善方略在我们通过多种软件构建出一种蛋白的同源模型后,我们如何评价这一模型与否精确?如果不精确如何进行进一步的修饰能使其更好的应用于我们的后续模拟中呢?这些问题将在本节得以讨论3.1 同源模建成果的评价本人最常使用的构造检测措施来源于UCLA-DOE的SAVES服务器,其网址为:提供的检测工具涉及5种措施:PROCHECK: 该程序可以给出特定蛋白质模型的一系列立体化学参数,并且能以直观的彩图输出部提成果该措施的原理重要是通过对蛋白质数据库中高辨别的蛋白晶体构造的参数进行整顿,作为原则参数将输入蛋白构造所具有的参数与原则参数进行对比,如果两者差别明显,则阐明输入的蛋白构造存在明显问题其输出的成果涉及:拉氏图,主链的键长与键角,二级构造图,平面侧链与水平面之间的背离限度等WHATCHECK:涉及大量的检测项,可以针对给定的蛋白构造与正常构造之间的差别,产生一种非常长并且具体的报告ERRAT: 计算0.35 nm范畴之内,不同原子类型对之间形成的非键互相作用的数目原子按照C、N、O/S进行分类,因此有六种不同的互相作用类型:CC、CN、CO、 NN、 NO、 OO。
如果这些互相作用类型浮现的频率与正常值相比有较大的区别,蛋白质模型的质量就值得怀疑了~一般使用9个氨基酸长度的滑行窗口用于获得每一种窗口的互相作用频率类似的分析措施可以用于定位局部有问题的区域Verify_3D: PROVE: 该程序可以比较给定构造的原子体积与预先计算好的一系列原则体积之间的差别体积的计算措施采用Voronoi polyhedra几何模型,通过在原子及其邻近原子间放置一种个分散的平面来定义每一种原子占据的空间如下以我研究的一种酶C-C键水解酶BphD的模型进行实例解说:背景:一方面运用BLAST进行蛋白一致性搜索,找出最合适的蛋白模板,经拟定为2OG1,以此蛋白构造为模板,运用modeller进行模建,得到我们的BphD的初始构造,提交到SAVES服务器进行解决:1. PROCHECK成果:本部分重要需要的是拉氏图,在第一行中可以点击ps格式、PDF格式以及JPG格式进行下载,我下载了个PDF文献,人们可以看看下面的截图:这个服务器最佳的一点就是可以提供处在各个区域的氨基酸残基占总数的比例拉氏图的成果重要提成4个区域:核心区域,容许区,大体容许区以及禁阻区从图中可以看到大部分的氨基酸残基均位于核心区域 (95.9%),落在容许区和大体容许区的各有1个残基,而处在禁阻区的只有残基Ser112。
通过我们对这个蛋白自身的理解可知,Ser112为该水解酶的催化三联体,其模板蛋白的Ser112同样处在禁阻区 接下来我们看看ERRAT的成果,该成果中Overall quality factor值越高越好,一般高解析度的晶体构造该值可以达到95,而对于解析度一般的来说该值只能到91%左右本例中的ERRAT值为89.928,已经比较接近低解析度的晶体构造了,但是应当尚有继续改善的空间在图中存在的两条误差限表达的是位于其线以上的区域有多大的也许性是有问题的区域根据这一成果,可以看出从残基120-150之间是一种需要高度注意的区域,另一种需要注意的区域是250-255从BphD的PDB构造来看这两段重要是loop区,自身具有较大的弹性,因此再接下来的过程中也许需要重点关注这一段构造的优化其她的参数如verify_3D等数值较好,在本例中未具体给出,将在下一种修改版中放出一方面,我们考虑采用计算量较少的chiron服务器对模建构造的clash进行解决其成果给出原始蛋白构造中存在的构造间的冲突以及其修正后的成果与原始构造的叠合成果接下来我们运用SAVES对于通过解决的蛋白构造进行评价:一方面从拉氏图来看,两者的差别不大。
而从ERRAT图中我们可以看到250-255这段区域的构造明显改善,但是135-140这个区域的构造似乎变得更为糟糕这时候,俺们就需要考虑运用MD对整个构造进行进一步的松弛,以清除不合适的clash如下我们可以考虑运用Gromacs对蛋白构造进行能量最小化待补充-------------------------------------------------------------------------------------更新筹划1. 补充原理方面的知识2. 增长不同建模软件针对同一目的序列的建模成果评价(涉及运营时间、建模质量分析等)3. 补充多种难度的模建实例。