同源模建的方法与结果分析

上传人:第*** 文档编号:33519703 上传时间:2018-02-15 格式:DOCX 页数:9 大小:803.18KB
返回 下载 相关 举报
同源模建的方法与结果分析_第1页
第1页 / 共9页
同源模建的方法与结果分析_第2页
第2页 / 共9页
同源模建的方法与结果分析_第3页
第3页 / 共9页
同源模建的方法与结果分析_第4页
第4页 / 共9页
同源模建的方法与结果分析_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《同源模建的方法与结果分析》由会员分享,可在线阅读,更多相关《同源模建的方法与结果分析(9页珍藏版)》请在金锄头文库上搜索。

1、同源模建的方法与结果分析Version 1.0.2-序言:作为一个以实验为主的生化工作者来说,很多时候可以通过分子生物学手段获取自己需要的目的基因,并在各种表达载体和宿主中进行对应蛋白的表达,随后对于这些蛋白的特性进行研究,这也是一般酶学研究的特定套路。而近十几年来,人们开始思考是否能够将特性与蛋白质的三级结构进行关联,从分子水平理解蛋白质与底物之间的相互作用呢?于是类似于蛋白结构模建、分子对接、分子动力学模拟、量化计算等多种手段相继被创造以及应用。在这些方法中,同源模建无疑是最基础也是最重要的一个步骤,因为其质量的好坏直接决定了后续工作是否可信。因此,本文打算就同源模建的基本原理、常用软件及

2、服务器以及结果分析与改进提供一些个人的经验,并希望各位朋友能够给予批评指正。1. 同源模建的原理及应用限制两点基本原理:1.一个蛋白质的结构由其氨基酸序列唯一的决定。知道其一级序列,至少在理论上足以获取其结构2. 结构在进化中更稳定,变化比序列层面的变化要缓慢许多。应用限制:模板蛋白和目标蛋白的序列一致性需要大于 30%,且越大建模准确性越有保障。了解了基本的原理,我们需要知道在实际操作中,同源模建都需要怎么样进行。同源模建的过程从实践中可分为以下 7 个步骤:1 模板识别和初始比对在序列一致性比较高的时候,可以通过简单的序列比对程序如 BLAST 获取目标蛋白的结构(将比对的数据库选择为 P

3、DB 数据库) 。2 比对结果的校正用以上的方法确定一个或多个建模模板后,应该采用更为精确的方法已取得更优的比对结果。有时在序列一致性较低的区域比对两条序列可能会具有困难,这个时候,我们可以采取其他同源蛋白序列一起参与比对来找到解决的办法。3 主链生成比对完成后,就可以开始实际的建模过程了,相对与后面几步来说,主链建模时最没有难度的一步了,因为大部分软件都是通过简单的拷贝模板蛋白的主链坐标来实现这一目的的。4 环区建模这一部分主要是目标蛋白和模板蛋白的比对结果中存在缺口的部分如何处理的问题。第一种解决的方式是略去模板蛋白存在的残基,留下一个必须补上的缺口。另一种情况是将主链截断,插入缺少的残基

4、。5 侧链建模当我们比较结构相似的蛋白质中保守残基的侧链构象时,我们会发现他们的侧链构象通常会比较相似。这就告诉我们如果加保守残基的侧链构象完整的拷贝到模建蛋白上时,在某些时候比先拷贝主链构象之后,再预测侧链构象来的可靠。但是这一经验规则在实际运用中仅在两者序列一致性较高,并且保守残基之间形成接触的情况下才能实现。因此,在现有的测序中,都是构造各种可能的构象体,并利用基于能量的函数打分来实现侧链构象的选择的。6 模型优化模型优化其实是一个比较复杂的问题,其质量依赖于高精确性的预测侧链构象体,而为了达到这种目的,我们需要正确的主链,这一步骤实际又依赖于侧链构象体正确的堆积。因此,这一优化过程是迭

5、代直至收敛的过程。需要注意的是,对于结构进行能量优化需要十分谨慎。因此偏离正确结构的途径比指向正确结构的途径多很多。在优化中的每一步可以排除一些大的误差,但是也会引入很多小的误差,这些小的误差经过多步积累,就有可能使你的结果更加偏离正确的结构。7 模型验证所有的模型都包含误差,误差的多少主要依赖于两方面的内容:1.序列一致性的高低,越低的话引入误差的可能性就越大。2. 模板蛋白中的误差:如果这种误差是局域性的,尤其是远离活性位点的,对于你最后进行分子对接等研究室几乎没有影响的。如果是蛋白整体的,则需要小心处理。2. 常用软件、服务器2.1 常用服务器:SWISS-MODEL: 网址 http:

6、/swissmodel.expasy.org/SWISS-MODEL 可能是目前非专业人士应用最为广泛的一个在线建模服务器了。其常见的模式可分为:1. Automated mode:自动模式,可以称为是最傻瓜的方式了进去之后只需要填上你的 email 以及在底下的框框内输入你所想模建的蛋白序列,再点击 submit modeling request 即可,底下还有高级选项, 支持自定义模板蛋白的 pdb 以及 chain,或者自己上传模板文件,简而言之,真是非常易于操作。这种方法适用于 PDB 数据库中存在高度同源的蛋白结构时的建模(蛋白序列一致性最好大于 80%,个人经验)2. Alignm

7、ent mode:比对模式基本的操作和自动模式类似,但是其序列提交的时候可以提交目标蛋白与模板蛋白的序列比对结果(FASTA,MSF,ClustalW 等格式),如下所示:这种模式比较适合目标蛋白与模板蛋白具有较高的相似性,但是利用自动模式未必能找到最合适模板的情况,或者使用者有目的的使用特定的模板蛋白(比如具有更为相似的活性位点结果,而不是更为相似的整体结构)3. Project mode:项目模式项目模式主要是针对于目标蛋白和模板蛋白序列的相似性不高,两者的三级结构相似程度难以直接通过序列比对获得,需要人工插入调节(借助蛋白结构编辑软件 deepview),这个模式能够交互式的提高前面两种

8、模式的模型质量(通过将前两种模式模建出的蛋白进行人为调整)。属于针对比较困难(序列一致性较低)的建模的一种有效途径。 I-TASSAR: http:/zhanglab.ccmb.med.umich.edu/I-TASSER/ (貌似被墙了?)*也可以下载本地安装包个人使用评价:根据结果质量检验,貌似在用过的自动建模的软件里是结果最好的了不过缺点是给结果时间比较长。 HOMER: http:/protein.cribi.unipd.it/homer/个人使用评价:这个软件需要序列蛋白与模板蛋白的结构比对文件上传(FASTA 格式),可对模建的蛋白进行 loop 区优化以及侧链优化。尚未深入的研究

9、 CPHmodels 3.2 Server: http:/www.cbs.dtu.dk/services/CPHmodels/个人使用评价:貌似没有任何特色,只需要一条蛋白序列既可以完成自动建模。2.2 常用软件: Modeller:说到同源模建,不得不提其中大名鼎鼎的 modeller, 要是做同源模建的娃们没有听过modeller, 实在是不好意思说自己玩转了同源模建的。哈哈该软件由 Sali lab 开发,目前最新的版本是 9.11,可在 win 下和 linux 运行,需要对应版本的 python (3.0 ) 。该软件好在什么地方呢?主要是可以自己控制的地方特别多,但这个也给新手带来

10、了不少困扰,比如究竟在特定的场合用什么参数等等。(本人将在自己以后的学习过程中继续分享对这个软件的学习心得,真的是挺有意思的)可实现的功能包括:多聚体建模,二硫键建模,杂原子建模(配体、辅酶等) 。 。 。 。 。具体的运算流程稍后补充:其最成熟的 GUI 为 easymodeller,最新版本为 4.0。使用方法稍后补充。 。 。 。3. 同源模建结果评价与改进策略在我们通过各种软件构建出一个蛋白的同源模型后,我们如何评价这一模型是否准确?如果不准确如何进行进一步的修饰能使其更好的应用于我们的后续模拟中呢?这些问题将在本节得以讨论3.1 同源模建结果的评价本人最常使用的结构检测方法来源于 U

11、CLA-DOE 的 SAVES 服务器,其网址为:http:/services.mbi.ucla.edu/SAVES/提供的检测工具包括 5 种方法:PROCHECK: 该程序可以给出特定蛋白质模型的一系列立体化学参数,并且能以直观的彩图输出部分结果。该方法的原理主要是通过对蛋白质数据库中高分辨的蛋白晶体结构的参数进行整理,作为标准参数。将输入蛋白结构所具有的参数与标准参数进行对比,如果两者差异显著,则说明输入的蛋白结构存在明显问题。其输出的结果包括:拉氏图,主链的键长与键角,二级结构图,平面侧链与水平面之间的背离程度等。WHATCHECK:包含大量的检测项,可以针对给定的蛋白结构与正常结构之

12、间的差异,产生一个非常长而且详细的报告。ERRAT: 计算 0.35 nm 范围之内,不同原子类型对之间形成的非键相互作用的数目。原子按照 C、N、O/S 进行分类,所以有六种不同的相互作用类型:CC 、CN、CO、 NN、 NO、 OO。如果这些相互作用类型出现的频率与正常值相比有较大的区别,蛋白质模型的质量就值得怀疑了通常使用 9 个氨基酸长度的滑行窗口用于获得每一个窗口的相互作用频率。类似的分析方法可以用于定位局部有问题的区域。Verify_3D: PROVE: 该程序可以比较给定结构的原子体积与预先计算好的一系列标准体积之间的差别。体积的计算方法采用 Voronoi polyhedra

13、 几何模型,通过在原子及其邻近原子间放置一个个分散的平面来定义每一个原子占据的空间。以下以我研究的一个酶 C-C 键水解酶 BphD 的模型进行实例讲解:背景:首先利用 BLAST 进行蛋白一致性搜索,找出最合适的蛋白模板,经确定为2OG1,以此蛋白结构为模板,利用 modeller 进行模建,得到我们的 BphD 的初始结构,提交到 SAVES 服务器进行处理:1. PROCHECK 结果:本部分主要需要的是拉氏图,在第一行中可以点击 ps 格式、PDF格式以及 JPG 格式进行下载,我下载了个 PDF 文件,大家可以看看下面的截图:这个服务器最好的一点就是可以提供处于各个区域的氨基酸残基占

14、总数的百分比。拉氏图的结果主要分成 4 个区域:核心区域,允许区,大致允许区以及禁阻区。从图中可以看到大部分的氨基酸残基均位于核心区域 (95.9%),落在允许区和大致允许区的各有 1 个残基,而处于禁阻区的只有残基 Ser112。通过我们对这个蛋白本身的了解可知,Ser112 为该水解酶的催化三联体,其模板蛋白的 Ser112 同样处于禁阻区。接下来我们看看 ERRAT 的结果,该结果中 Overall quality factor 值越高越好,一般高解析度的晶体结构该值可以达到 95,而对于解析度一般的来说该值只能到 91%左右。本例中的 ERRAT 值为 89.928,已经比较接近低解析

15、度的晶体结构了,但是应该还有继续改进的空间。在图中存在的两条误差限表示的是位于其线以上的区域有多大的可能性是有问题的区域。根据这一结果,可以看出从残基 120-150 之间是一个需要高度注意的区域,另一个需要注意的区域是 250-255。从 BphD 的 PDB 结构来看这两段主要是loop 区,本身具有较大的弹性,因此再接下来的过程中可能需要重点关注这一段结构的优化。其他的参数如 verify_3D 等数值较好,在本例中未详细给出,将在下一个修改版中放出首先,我们考虑采用计算量较少的 chiron 服务器对模建结构的 clash 进行处理。其结果给出原始蛋白结构中存在的结构间的冲突以及其修正后的结果与原始结构的叠合结果。接下来我们利用 SAVES 对于经过处理的蛋白结构进行评价:首先从拉氏图来看,两者的差别不大。而从 ERRAT 图中我们可以看到 250-255 这段区域的结构明显改善,但是 135-140 这个区域的结构似乎变得更为糟糕。这时候,俺们就需要考虑利用 MD 对整个结构进行进一步的松弛,以去除不合适的clash。以下我们可以考虑利用 Gromacs 对蛋白结构进行能量最小化。待补充-更新计划1. 补充原理方面的知识2. 增加不同建模软件针对同一目标序列的建模结果评价(包括运行时间、建模质量分析等)3. 补充各种难度的模建实例

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号