拟南芥乙醇脱氢酶蛋白质三级结构预测及其结果分析

资源描述

《拟南芥乙醇脱氢酶蛋白质三级结构预测及其结果分析》由会员分享，可在线阅读，更多相关《拟南芥乙醇脱氢酶蛋白质三级结构预测及其结果分析（9页珍藏版）》请在金锄头文库上搜索。

1、【标题】拟南芥乙醇脱氢酶蛋白质三级结构预测及其结果分析【作者】汪华【关键词】生物学软件蛋白质序列二级结构三级结构结构预测【指导老师】姚启伦【专业】生物科学【正文】1引言1.1拟南芥乙醇脱氢酶简介拟南芥是一种模式植物，被称为植物中的“果蝇”1，在植物科学研究中具有其它任何植物不可代替的优点:(1)具有基因组小(125 Mbp)、生长周期短等特点，非常有利于遗传学和分子生物学的研究和操作；(2)到2000年底，拟南芥的全基因组测序工作已顺利完成。拟南芥作为数据库完整的双子叶模式植物，为研究植物功能基因组提供了蓝图2。乙醇脱氢酶，是该植物中的一种代表性酶，它是催化乙醛和乙醇间的氧化还原

2、反应的重要还原酶，在植物无氧呼吸过程中起着重要作用3。1.2研究的目的和意义早在70年代，Anfinsen4就提出蛋白质分子的一些序列决定其空间结构的论断，成为蛋白质结构预测的理论基础。蛋白质结构预测问题就是如何从蛋白质的氨基酸序列出发预测它的功能构象问题5。蛋白质的生物学功能在很大程度上取决于其空间结构，所以弄清楚蛋白质的结构进而理解其结构与功能的关系具有重要意义。但通过实验方法获得蛋白质结构不仅成本高而且速度慢，显然无法满足人们的需要，为了缩小结构与已知序列之间的差异，通过生物学软件预测蛋白质结构的方法便应运而生6。为此，本研究以模式生物拟南芥的乙醇脱氢酶序列为实验材料，以计算机为平台，以

3、DNAstar、SeqVerter、Cn3D、RasMol等分子生物学软件为工具，对拟南芥的乙醇脱氢酶进行蛋白质序列分析，从而预测拟南芥乙醇脱氢酶蛋白质三级结构，并通过本实验研究学习和掌握常用生物信息学软件的操作使用，进而为其他蛋白质三级结构预测提供依据。1.3国内外研究现状蛋白质空间结构预测的目的是为大多数蛋白家族提供模板结构。随着服务器数据的增加，结构基因组对结构预测的要求愈显必要7。虽然蛋白结构的预测并不能完全替代在实验中实测的蛋白质结构，但会缩小从已知核酸到蛋白质结构之间的差距。对蛋白质空间结构预测的研究将会帮助人们系统深入地理解生物信息从DNA到具有生物活性蛋白质传递的过程，使中心法

4、则得到更完整的阐明，从而为今后设计具有新型生物功能的蛋白质打下基础8。从蛋白质的氨基酸序列预测蛋白质三维结构的方法可以分为两类9：一类是基于知识的蛋白质结构预测(knowledge-based protein structure prediction)，也称为启发式的预测方法(heuristicmethod of prediction)，它根据模式匹配的原则，利用蛋白质数据库中现有的蛋白质结构数据建立适当的参数，在蛋白质一级结构的基础上采用这些参数进行评价、优化和预测10；另一类是基于模拟的蛋白质结构预测(simulation-based protein structure predictio

5、n)，用于研究折叠过程，即蛋白质从没有功能的、分散的、展开的蛋白质结构(denatured form)折叠成有功能的、自然态的蛋白质结构(native form)的过程，来进行蛋白质结构的预测11。这两类预测方法各有优缺点：第1类方法比较简单，速度较快，但是需要找到同源性符合要求的模板12；第2类方法运用分子物理学和分子化学的首要原则(first principles)，直接从一级结构预测三级结构，该过程需要计算大量的自由能方程13，第2类方法运算量大而复杂，但在第1类方法无法搜索到合适的模板时，它是唯一的选择。因而，在蛋白质结构预测过程中，这两类方法通常一起配合使用，以突破各自的局限性而达到

6、更高的准确度14。2实验材料与实验设计2.1实验材料网上获取拟南芥乙醇脱氢酶蛋白质序列2.2实验设备安装有DNAstar、SeqVerter、Cn3D、RasMol等生物学软件的计算机2.3实验设计3实验内容3.1蛋白质序列检索在用分子生物学软件进行序列分析之前，我们必须获得相关的序列。目前网络上有许多分子生物信息数据库，如美国国立生物技术信息中心GenBank、欧洲分子生物学实验室(EMBL)、日本的DNA数据库（DDBJ）等15。这三个数据库每天都在交换数据，从而使他们的数据保持同步，因而从理论上讲，查询其中的任何一个数据库均可得到相同的结果。这些数据库均包括核酸和蛋白质两大类，都以核苷酸

7、碱基顺序或氨基酸顺序为基本内容，而且这些数据库里的序列内容既包括序列排列顺序，又包括注释说明，如序列名称、说明、编号、关键词、种属来源、学名、文献、特性表、碱基组成等，为人们提供了相当大的方便。3.1.1序列检索在相关数据库开发的同时，对应的检索系统也相应的发展了起来，如著名的NCBI开发的Entrez系统和EBI开发的序列检索系统SRS。一般情况下，在查找序列时，只要进入NCBI的主页http:/www.ncbi.nlm.nih.gov/，通过在线查找关键词搜索数据库中的专业资料即可16。进入NCBI的主页http:/www.ncbi.nlm.nih.gov/，在Database的下拉框中选

8、择关键词Protein数据库，输入Arabidopsis thaliana alcohol dehydrogenase（拟南芥乙醇脱氢酶），点击GO进行搜索。选择 gi|22136298|gb|AAM91227.1| alcohol dehydrogenaseArabidopsis thaliana，点击Send to File保存为gb文件格式的序列，命名为AAM91227.gp，既为所搜索的拟南芥乙醇脱氢酶的蛋白质序列。3.1.2序列获取及其格式为了分析核酸和蛋白质序列中所含有的大量的生物信息，众多研究机构开发了专业性或综合性的数据库。这些数据库中最著名的有GenBank、EMBL、DDB

9、J、SWISS-PROT等，同时，各研究机构也开发了众多的分子生物学软件来分析这些核酸和蛋白质序列中的信息，这样就出现了多种序列的记录格式，造成了核酸序列与蛋白质序列格式的千变万化。所有必须对所保存的序列进行格式分析，为以后的生物信息学分析打下基础。GenBank17是有NCBI维护的DNA和RNA序列数据库，是国家核酸序列数据库合作项目的一部分，它与EMBL和DDBJ一起构成了当今世界上最权威最广泛的数据库，现对AAM91227.gp序列的信息及字段含义分析如下：LOCUS AAM91227 390 aa linear PLN 07-AUG-2002序列的座位名称（序列性质：名称、长度等）D

10、EFINITION alcohol dehydrogenaseArabidopsis thaliana.序列定义、简短描述ACCESSION AAM91227GenBank登录号VERSION AAM91227.1 GI:22136298序列版本号SOURCE Arabidopsis thaliana(thale cress)序列来源ORGANISM Arabidopsis thaliana序列来源物种Eukaryota; Viridiplantae.REFERENCE 1(residues 1 to 390)参考文献AUTHORS Tripp,M., Southwick.作者TITLE Di

11、rect Submission题目JOURNAL Submitted(01-JUL-2002) DNA杂志、年卷期FEATURES Location/Qualifiers序列特征描述ORIGIN后接序列 AAM91227.gp1 mengnsssdn ksshkpirck aavsrkagep lvmeeimvap pqpfevriri ictalchsdv61 tfwklqvppa cfprilghea igvvesvgen vkevvegdtv lptfmpdcgd cvdckshksn121 lcskfpfkvs pwmprydnss rftdlngetl fhflnvssfs eytv

12、ldvanv vkidssipps181 racllscgvs tgvgaaweta kvekgstvvi fglgsiglav aegarlcgas riigvdinpt241 kfqvgqkfgv tefvnsmtce knrvsevine mtdggadycf ecvgssslvq eayaccrqgw301 gktitlgvdk pgsqicldsf dvlhhgkilm gslfgglkak thipillkry lsneleldkf361 vthemkfeei ndafqllleg kcircvlwmg3.2蛋白质序列分析3.2.1基于一级结构的预测蛋白质一级结构是指多肽链的氨基酸

13、残基排列顺序，也是蛋白质最基本的结构。它是由基因上遗传密码的排列顺序所决定的，各种氨基酸按遗传密码的顺序通过肽键连接起来18。对蛋白质的物理化学性质的预测是目前了解未知蛋白质的一个重要手段，这对实验工作具有一定的参考价值。人们已经充分了解了组成蛋白质的20个氨基酸的物理化学性质，并由此产生许多预测工具来预测未知蛋白质的性质以及通过已知性质来预测蛋白质，这些工具可以在ExPASy的服务器上获得。3.2.1.1蛋白质性质的预测蛋白质的基本性质包括蛋白质的相对分子质量、氨基酸组成、等电点、消光系数等。PorParm工具（www.expasy.ch/tools/proparam.html）这是用于计算

14、蛋白质的各种物理化学性质的工具，包括蛋白质的相对分子质量、理论pI值、氨基酸组成、原子组成、消光系数、半衰期、不稳定系数以及总平均亲水性等。在进行蛋白质性质预测之前，需对序列用DNAstar软件进行格式转换。DNAstar中的EditSeq是一个序列格式软件，启动DNAstar中的EditSeq，在出现的窗口中点击引入aam91227.gp将其保存为aam91227.pro即可。进入www.expasy.ch/tools/proparam.html，将序列aam91227.pro粘贴到对话框之后可以单击Compute parameters按钮，可以得到蛋白质的基本理化性质。结果如下：Numbe

15、r of amino acids: 390Molecular weight: 42568.1Theoretical pI: 5.90Amino acid composition：Arg(R) 14 3.6%Asn(N) 15 3.8%Asp(D) 18 4.6%Total number of negatively charged residues(Asp+ Glu): 45Total number of positively charged residues(Arg+ Lys): 39Atomic composition:Carbon C 1883 Hydrogen H 2977 Nitrogen N 503Oxygen O 561 Sulfur S 29Formula: C1883H2977N503O561S29Total number of atoms: 5953Estimated half-life:The N-termina

展开阅读全文