《《蛋白质序列分析》PPT课件》由会员分享,可在线阅读,更多相关《《蛋白质序列分析》PPT课件(70页珍藏版)》请在金锄头文库上搜索。
1、蛋白质序列分析胡松年胡松年 2005 基因表达序列标签基因表达序列标签(EST)数据分析手册)数据分析手册第八第八章章吴祖建等吴祖建等 2011 生物信息学分析实践生物信息学分析实践第五章第五章蛋白质序列结构信息蛋白质序列结构信息蛋白质序列的基本性质分析结构域分析及motif搜索蛋白质二级结构蛋白质三级结构蛋白质序列分析一一 、蛋白质序列的基本性质分析、蛋白质序列的基本性质分析理化性质分析疏水性分析跨膜区分析信号肽预测Coil区分析亚细胞定位蛋白质序列分析 蛋白质理化性质分析蛋白质理化性质分析Protparam 工具 http:/计算以下物理化学性质:计算以下物理化学性质:相对分子质量 理论
2、pI 值氨基酸组成 原子组成消光系数 半衰期不稳定系数 脂肪系数总平均亲水性蛋白质序列分析主要选项主要选项/参数参数序列在线提交形式:如果分析SWISS-PORT和TrEMBL数据库中序列直接填写Swiss-Prot/TrEMBL AC号(accession number)如果分析新序列:直接在搜索框中粘贴氨基酸序列蛋白质序列分析输入输入Swiss-Prot/TrEMBL AC号号打开打开protein.txt,将一条蛋白质序列将一条蛋白质序列粘贴在搜索框中粘贴在搜索框中输入Swiss-Prot/TrEMBL AC号分不同的功能域肽段输出结果输出结果 功能域功能域用户自定义区段用户自定义区段蛋
3、白质序列分析点击不同功能域或是以直接粘贴氨基酸序列的方式得到以下结果点击不同功能域或是以直接粘贴氨基酸序列的方式得到以下结果蛋白质序列分析氨基酸数目氨基酸数目相对分子质量相对分子质量理论理论 pI 值值氨基酸组成氨基酸组成原子组成原子组成分子式分子式总原子数总原子数消光系数消光系数半衰期半衰期不稳定系数不稳定系数脂肪系数脂肪系数总平均亲水性总平均亲水性蛋白质序列分析 ProtScale工具 http:/氨基酸标度表示氨基酸在某种实验状态下相对其他氨基酸在某些性质的差异,如疏水性、亲水性等收集50多个文献中提供的氨基酸标度默认值为Hphob. Kyte & Doolittle,做疏水性分析蛋白质
4、疏水性分析蛋白质疏水性分析蛋白质序列分析20种氨基酸的疏水K-D标度氨基酸K-D标度氨基酸K-D标度Ile (I)4.5Trp (W)-0.9Val (V)4.2Tyr (Y)-1.3Leu (L)3.8Pro (P)-1.6Phe (F)2.8His (H)-3.2Cys (C)2.5Asn (N)-3.5Met (M)1.9Asp (D)-3.5Ala (A)1.8Gln (Q)-3.5Gly (G)-0.4Glu (E)-3.5Thr (T)-0.7Lys (K)-3.9Ser (S)-0.8Arg (R)-4.5主要选项主要选项/ /参数参数序列在线提交形式:如果分析SWISS-POR
5、T和TrEMBL数据库中序列直接填写Swiss-Prot/TrEMBL AC号(accession number)如果分析新序列:直接在搜索框中粘贴氨基酸序列蛋白质序列分析输入输入Swiss-Prot/TrEMBL AC号号氨基酸标度氨基酸标度打开打开protein.txt,将一条蛋白质序列将一条蛋白质序列粘贴在搜索框中粘贴在搜索框中计算窗口(计算窗口(7-11)相对权重值相对权重值 权重值变化趋势权重值变化趋势 输出结果输出结果输入Swiss-Prot/TrEMBL AC号分不同的功能域肽段蛋白质序列分析功能域功能域用户自定义区段用户自定义区段点击不同功能域或直接粘贴氨基酸序列的方式得到以下
6、结果蛋白质序列疏水区域分布预测图蛋白质序列分析图形结果图形结果 文本结果文本结果 序列序列 参数参数 每个位置的得分每个位置的得分 跨膜区分析跨膜区分析膜蛋白不溶于水,分离纯化困难,不容易生长晶体, 很难确定其结构膜蛋白跨膜区可能作为膜受体, 也可能是定位在膜上的锚定蛋白或离子通道蛋白预测跨膜螺旋主要基于已知的跨膜螺旋信息, 应用统计模型或神经网络方法使用单一的预测软件准确性不太高, 综合不同的软件预测结果并结合疏水性图, 可以获得较好的预测, 对于跨膜螺旋和膜向性预测准确率达80%95%蛋白质序列分析跨膜区在线分析工具跨膜区在线分析工具蛋白质序列分析名称名称网址网址说明说明TMHMMhttp
7、:/www.cbs.dtu.dk/services/TMHMM/判定是否是膜蛋白Tmpredhttp:/ch.embnet.org/software/TMPRED_form.html预测跨膜片断TMPhttp:/www.mbb.ki.se/tmap/用多序列比对方法预测跨膜区跨膜蛋白数据库跨膜蛋白数据库Tmbase1.来源于来源于Swiss-Prot数据库数据库, 提供如跨膜结构区的提供如跨膜结构区的数量、位置及其侧翼序列等信息。数量、位置及其侧翼序列等信息。2.数据库下载地址:数据库下载地址:跨膜区实例分析跨膜区实例分析蛋白质序列分析使用使用对水稻瘤矮病毒(对水稻瘤矮病毒(RGDV)外层衣壳
8、)外层衣壳 P8蛋白蛋白进行跨膜区分析进行跨膜区分析 。TMHMM基于隐马尔可夫模型预测,综合了跨膜基于隐马尔可夫模型预测,综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质,可对跨膜区及膜内外区进行整体预限制等性质,可对跨膜区及膜内外区进行整体预测。测。TMHMM在区分可溶性蛋白和膜蛋白方面尤为见在区分可溶性蛋白和膜蛋白方面尤为见长,常用于判定一个蛋白是否为膜蛋白。长,常用于判定一个蛋白是否为膜蛋白。18贴入蛋白质序列贴入蛋白质序列191.P8蛋白的蛋白的1405位氨基酸位于细胞膜表面位氨基酸位于细胞膜表面2.406425位氨基酸形成一个
9、典型的跨膜螺旋区位氨基酸形成一个典型的跨膜螺旋区信号肽预测信号肽预测蛋白质合成后要运送到细胞中不同的部位,有的蛋白质要通过内质网膜进入内质网腔内,最终成为分泌蛋白分泌蛋白。分泌蛋白的N端都有一段约1535个氨基酸的疏水性肽段,其功能是引导蛋白质多肽链穿过内质网膜进入腔内,称为信号肽信号肽(signal peptide)。按照氨基酸组成及其位置特征,可将信号肽分为4大类:1.分泌信号肽 2. 脂蛋白信号肽3. Pilin-like信号肽4. 细菌素和细菌素信号肽蛋白质序列分析信号肽主要由三个domain组成:N-region、H-regin和C-region.N-region为正电荷区域,至少含
10、有一个精氨酸(R) 或赖氨酸(K).H-region为疏水核,一般长为1214个氨基酸.C-region包含信号肽酶(SPase)的剪切位点,在剪切位点的-1位和-3位上多为中性的丙氨酸,该区域也称为富含丙氨酸区域. N H C N端 C端蛋白质序列分析信号肽预测在线分析工具信号肽预测在线分析工具蛋白质序列分析名称名称网址网址说明说明ChloroPhttp:/www.cbs.dtu.dk/services/ChloroP/预测植物中叶绿体转运肽LipoPhttp:/www.cbs.dtu.dk/services/LipoP/预测革兰氏菌中的信号肽酶I、II的剪切位点NetNEShttp:/ww
11、w.cbs.dtu.dk/services/NetNES/预测富含亮氨酸的核输出信号SecretomePhttp:/www.cbs.dtu.dk/services/SecretomeP预测真核生物中非经典类型的和无导肽的分泌蛋白SignalPhttp:/www.cbs.dtu.dk/services/SignalP/预测革兰氏阳性菌(G+)、预测革兰氏阴性菌(G-)、真核生物信号肽MITOPROThttp:/ihg.gsf.de/ihg/mitoprot.html预测线粒体、叶绿体信号肽PlasMithttp:/gecco.org.chemie.uni-frankfurt.de/plasmit
12、/ 线粒体转运肽水稻条文病毒水稻条文病毒NSVc2蛋白信号肽预测蛋白信号肽预测蛋白质序列分析SignalP Server主页主页NSVc2序列序列输出结果输出结果:C score: 剪切位点分值剪切位点分值S score: 信号肽分值信号肽分值Y score: 综合剪切位点分值综合剪切位点分值综合两种算法,综合两种算法,NSVc2含有信号肽序列,为含有信号肽序列,为MHFKSYFIYTTIFNMAWG,说明,说明NSVc2蛋白可蛋白可能在跨膜运输中起信号识别作用能在跨膜运输中起信号识别作用剪切位点位于第剪切位点位于第1819位氨基酸,表明成熟肽始于位氨基酸,表明成熟肽始于第第18位氨基酸位氨基
13、酸Coil区分析区分析卷曲螺旋卷曲螺旋(coiled coil)是蛋白质中由27条螺旋链缠绕成麻花状结构的总称。卷曲螺旋是控制蛋白质寡聚化的元件,含有卷曲螺旋结构的蛋白质主要是一些转录因子、骨架蛋白、动力蛋白、膜蛋白、酶等,在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。七肽重复区七肽重复区(heptad repeat, HR)是典型的卷曲螺旋结构类型之一,由多个七肽单元连接而成的重复序列,每个重复序列中的7个氨基酸残基依次用a-b-c-d-e-f-g表示。蛋白质序列分析a、d位多为非极性疏水氨基酸,位于卷曲螺旋结构的内侧;e、g多为极性带电氨基酸,与a、d位残基相互
14、作用形成疏水核心的外侧。a、d、e、g位置上的氨基酸对于整个卷曲螺旋结构的稳定性及特异性具有重要作用。COILS Server:http:/根据卷曲螺旋蛋白结构数据库和包含球状蛋白序列的PDB次级数据库,可计算出目的序列形成卷曲螺旋的概率。使用COILS Server对RGDV P2蛋白卷曲螺旋预测分析。蛋白质序列分析已有文献研究表明,RDV的P2蛋白含有一个 N 端的疏水肽、两个七肽重复区和一个跨膜区。RGDV P2蛋白与RDV P2蛋白在病毒粒体中位置相同、大小相似,具有高度保守的氨基酸序列和相似的一级结构,表明两者可能具有相似的结构。使用COILS Server分析RGDV P2是否由七
15、肽重复区。COILS Server网页MTK:根据肌球蛋白、原肌球蛋白和角蛋白得到的打分矩阵MTIDK:由肌球蛋白、原肌球蛋白、中间纤维类蛋白、桥立蛋白和角蛋白得到的打分矩阵蛋白质序列分析亚细胞定位亚细胞定位亚细胞定位与蛋白质的功能存在着密切的联系通过氨基酸组成进行亚细胞定位主要基于如下原理:1.不同的细胞器多具不同的理化环境,根据蛋白质的结构及表面理化特征选择性容纳蛋白2.蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成蛋白质序列分析亚细胞定位预测步骤:抽取一个高质量的亚细胞定位数据集并分为训练集和测试集从选取的蛋白质数据中抽取出特征信息选择合适的算法预测用测试
16、数据集对预测结果进行评价蛋白质序列分析常用的亚细胞定位在线工具常用的亚细胞定位在线工具蛋白质序列分析名称名称网址网址TargetPhttp:/www.cbs.dtu.dk/services/TargetP/PSORT IIhttp:/psort.nibb.ac.jpSubLochttp:/ NSVc2蛋白进行亚细胞定位TargetP是预测真核蛋白亚细胞定位软件,主要基于叶绿体转运肽(chloroplast transit peptide, cTP)、线粒体导肽(mitochondrial targeting peptide, mTP)及分泌通路信号肽(secretory pathway sig
17、nal peptide, SP)的N端序列进行预测预测结果:蛋白NSvc2的分泌途径为“-”型,即定位到其他细胞器。蛋白质序列分析二、蛋白质结构域及二、蛋白质结构域及motif搜索搜索结构域分析Motif搜索蛋白质序列分析结构域分析结构域分析结构域结构域(structure domain)是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。结构域通常由25300个氨基酸组成,不同蛋白质结构域数目或同一蛋白质结构域相似度差异较大蛋白质序列分析常见的结构域主要有5种:全平行结构域反平
18、行结构域+结构域/结构域其他折叠类型结构域是蛋白质的功能、结构和进化单元,结构域分析对于蛋白质结构的分类和预测有着重要作用。蛋白质序列分析结构域分析工具及数据库结构域分析工具及数据库蛋白质序列分析工具工具网址网址说明说明InterProScan http:/www.ebi.ac.uk/InterProScan/蛋白质结构域和功能位点分析SMARThttp:/smart.embl-heidelberg.de/ 蛋白质结构域分析数据库数据库网址网址说明说明Pfamhttp:/pfam.sanger.ac.uk/蛋白质结构域数据库ProDomhttp:/prodom.prabi.fr/prodom/
19、current/html/form.php蛋白质结构域数据库使用SMART(Simple Molecular Architecture Research Tool)分析RGDV P8蛋白的结构功能域。两种搜索模式:常规模式和基因组模式在常规模式下粘贴RGDV P8序列,选PFAM domain蛋白质序列分析预测结果:第1426位是个高度保守的结构功能域Phytoero_P8,该结构域由多个植物呼肠孤病毒属外层衣壳蛋白P8序列组成,具有结构分子活性蛋白质序列分析点击点击motif搜索搜索motif(模体模体)是序列中局部的保守区域。 motif通常由2、3个二级结构单位组成,二级结构一般为螺旋、
20、折叠和环(loop)motif作为结构域中的亚单位,表现结构域的各种生物学功能。有几十个motif类,详见:http:/en.wikipedia.org/wiki/Category:Protein_structural_motifs/蛋白质序列分析几种几种motif空间结构图空间结构图蛋白质序列分析亮氨酸拉链亮氨酸拉链(Leucine zipper)A leucine zipper, aka leucine scissors, is a common three-dimensional structural motif in proteins. These motifs are usually
21、 found as part of a DNA-binding domain in various transcription factors, and are therefore involved in regulating gene expression. Leucine zippers are found in both eukaryotic and prokaryotic regulatory proteins, but are mainly a feature of eukaryotes.几种几种motif空间结构图空间结构图蛋白质序列分析螺旋螺旋-转角转角-螺旋螺旋(Helix-t
22、urn-helix)In proteins, the helix-turn-helix (HTH) is a major structural motif capable of binding DNA. It is composed of two helices joined by a short strand of amino acids and is found in many proteins that regulate gene expression几种几种motif空间结构图空间结构图蛋白质序列分析锌指锌指(Zinc finger)Cartoon representation of
23、the Cys2His2 zinc finger motif, consisting of an helix and an antiparallel sheet. The zinc ion (green) is coordinated by two histidine residues and two cysteine residues几种几种motif空间结构图空间结构图蛋白质序列分析罗斯曼折叠罗斯曼折叠(Rossmann fold)The Rossmann fold is a protein structural motif found in proteins that bind nucl
24、eotides, especially the cofactor NAD. The structure with two repeats is composed of six parallel beta strands linked to two pairs of alpha helices in the topological order beta-alpha-beta-alpha-beta.常见的常见的motif数据库数据库蛋白质序列分析数据库数据库网址网址说明说明PROSITEhttp:/www.expasy.org/prosite基于一般的正则表达式PROFILEhttp:/www.b
25、iochem.ucl.ac.uk/bsm/dbbrowser/jj/pfscan2.html基于序列谱的数据库PRINTShttp:/www.bioinf.man.ac.uk/Dbbrowser/bioactivity/protein2frm.html基于蛋白质指纹技术BLOCKShttp:/blocks.fhcrc.org基于蛋白质序列模块Pfamhttp:/www.sanger.ac.uk/software/Pfam基于隐马尔可夫模型Motif搜索方法有两种:序列模式(Pattern)和序列特征谱(Profile)序列模式方法直接搜索关键的几个保守残基,如L-x(6)-L-x(6)-L-x
26、(6)-L (x表示任意的氨基酸)序列特征谱搜索是基于蛋白质序列多重比对结果,考虑了保守氨基酸在相应位置上的权重,可以检测到进化距离较远蛋白质的motif。使用PROSITE数据库对RGDV P2蛋白进行motif搜索点击ScanProsite链接,进行高级搜索蛋白质序列分析参数设置:1.排除高频率出现的motif: 选中后,N-糖基化位点、酪蛋白激酶II磷酸化位点等33种常见motif序列模式将被排除在外。2.不进行序列特征谱搜索3.搜索自定义的motif, 这里设置序列模式为: RK-x(2,3)-DE-x(2,3)-Y输出结果:RGDV P8蛋白中有1处与指定的序列模式相匹配,为1421
27、48位的氨基酸序列: KAYDIPY蛋白质序列分析三、空间结构预测三、空间结构预测蛋白质的二级结构预测蛋白质的三级结构预测蛋白质结构预测方法评价蛋白质序列分析蛋白质的二级结构预测蛋白质的二级结构预测蛋白质的二级结构是指多肽链借助于氢键沿一维方向排列成具有周期性结构的构象,主要有螺旋螺旋折叠折叠 转角转角无规则卷曲无规则卷曲蛋白质序列分析 - -螺旋螺旋(1 1)螺旋走向,稳定以氢键连接,氢)螺旋走向,稳定以氢键连接,氢键与轴平行。键与轴平行。(2 2)侧基)侧基R R伸向螺旋外侧。伸向螺旋外侧。(3 3)棒状结构,高度压缩,紧密排列。)棒状结构,高度压缩,紧密排列。(4 4)规律排列)规律排列
28、(5 5)由)由1 1条充分伸展的肽链的肽键平面条充分伸展的肽链的肽键平面折叠成的右手螺旋。折叠成的右手螺旋。nmnm。(7 7)1 1个螺圈内有个螺圈内有1313个原子。个原子。Hydrogen bonds (yellow dots) stabilizing an alpha-helix - -折叠折叠两种-折叠方式反平行:反平行:肽链的肽链的N端不处于端不处于同一端,同一端,氢键与肽氢键与肽链走向垂链走向垂直。如:直。如:丝心蛋白。丝心蛋白。平行:所有肽平行:所有肽链的链的N端处于端处于同一端,氢键同一端,氢键不与肽链走向不与肽链走向垂直。如:垂直。如: - 角蛋白。角蛋白。4 4种二级结
29、构种二级结构蛋白质二级结构预测网络资源蛋白质二级结构预测网络资源蛋白质序列分析名称名称网址网址APSSPhttp:/imtech.res.in/raghava/apssp/CDMhttp:/gor.bb.iastate.edu/cdm/PSIPREDhttp:/bioinf.cs.ucl.ac.uk/psipred/psiform.htmlFORTERhttp:/distill.ucd.ie/porter/Predictproteinhttp:/www.predictprotein.orgSSprohttp:/scratch.proteomics.ics.uci.edu/使用SSPro服务器预
30、测RGDV Pns10蛋白质二级结构SSPro使用神经网络和同源分析混合进行蛋白质二级结构预测Email接收的预测结果: 双行显示,上行为目的序列,下行为对应的二级结构, 其中C表示Coil(无规则卷曲), H表示Helix(螺旋),E表示Extented(折叠)蛋白质序列分析蛋白质二级结构预测实例蛋白质二级结构预测实例1使用PORTER服务器预测HCV E蛋白质二级结构由于膜蛋白难以纯化, 丙型肝炎病毒膜蛋白的三维至今未知, 预测其膜蛋白的二级结构有利于三级结构的模建和功能研究本例使用丙型肝炎病毒中国湖北株(GI: 149389442)Email接收的预测结果: 双行显示,上行为目的序列,下
31、行为对应的二级结构, 其中C表示Coil(无规则卷曲), H表示Helix(螺旋),E表示Extented(折叠)蛋白质序列分析蛋白质二级结构预测实例蛋白质二级结构预测实例2蛋白质的三级结构预测蛋白质的三级结构预测蛋白质的生物学功能很大程度取决于蛋白质的空间结构通过X射线晶体衍射、NMR核磁共振等物理方法测定蛋白质的三级结构以及通过生化方法研究蛋白质的功能,成本高、速度慢、效率低,无法满足蛋白质序列飞速增长的需要生物信息学方法可对一个未知结构的蛋白质序列作出分析,预测其空间结构蛋白质三级结构预测方法:同源模建、折叠识别同源模建、折叠识别和从头预测和从头预测蛋白质序列分析同源模建同源模建同源模建
32、(homology modeling)是目前较为成功的而且比较实用的蛋白质结构预测方法同源模建的前提是已知一个或多个同源蛋白质的结构。当两个蛋白质的序列相似性大于35%,一般认为它们具有相同的三维结构。同源模建的四个步骤:搜索与目的蛋白序列相匹配的模板模建目的蛋白结构保守区的主链、结构变异区的主链目的蛋白侧链的模建及其优化对模建的结构进行优化和评估蛋白质序列分析同源建模法分析步骤:多序列比对与已有晶体结构的蛋白质序列比对确定是否有可以使用的模板序列相似度25%序列相似度25%,结合功能,蛋白质一级序列、二级结构或结构域信息构建三维模型三维模型准确性检验Whatcheck 程序Ramachand
33、ran plot计算检验手工调整多序列比对,重新拟和,构建新的模型 *蛋白质序列分析Ranmachandran Plots是蛋白质主链是蛋白质主链角和角和角散点图,角散点图,黄色区域为最理想的,蓝色区域外为不合理的区域。黄色区域为最理想的,蓝色区域外为不合理的区域。若有若有90%以上的残基位于黄色区域内,表明该蛋白质以上的残基位于黄色区域内,表明该蛋白质具有稳定的空间结构。具有稳定的空间结构。蛋白质三级结构预测网站蛋白质三级结构预测网站蛋白质序列分析工具工具网址网址说明说明SWISS-MODELhttp:/swissmodel.expasy.org/同源模建CPHmodels http:/ww
34、w.cbs.dtu.dk/services/CPHmodels/基于神经网络的同源模建PHYREhttp:/www.sbg.bio.ic.ac.uk/phyre/index.cgi折叠识别CASPhttp:/predictioncenter.gc.ucdavis.edu预测方法评价EVAhttp:/cubic.bioc.columbia.edu/eva 预测方法评价同源模建实例同源模建实例1使用SWISS-MODEL同源模建RGDV P8蛋白的三级结构SWISS-MODE工作模式:Automated mode、Alignment mod和Project mode点击Automated mode
35、结果解读:1.本例的RGDV P8蛋白是基于RDV原子结构1fu2R的P链模建的,两者序列一致性达50.35%2.目的蛋白与模板的比对及二级结构信息,其中h:螺旋,s: 折叠 蛋白质序列分析同源模建实例同源模建实例1结果解读:3.SWISS-MODEL提供了三种模建质量评价方法,分别是Anolea、Gromos和QMEAN。绿色区域表示合适的空间结构,红色区域表示不合适的空间结构。Anolea和Gromos分数越低越好。4.模建日志和模板选择日志5.可使用SWISS-PDB Viewer软件分析目的蛋白与模板结构,并根据模建质量评价,对目的蛋白结构进行优化调整。最后,使用 PyMOL软件渲染输出。蛋白质序列分析SWISS-MODEL同源模建的RGDV P8蛋白三级结构图红色为螺旋,黄色为-折叠,绿色为无规则卷曲,蓝色部分是跨膜区同源模建实例同源模建实例2使用CPHmodels同源模建RGDV P8蛋白的二级结构与SWISS-MODEL相比,CPHmodels简单易学模建结果蛋白质序列分析SWISS-PdbView观察三维模型观察三维模型SWISS-PdbView工具观察和修改分子的三维结构蛋白质序列分析菜单栏菜单栏/ /工具栏工具栏图层窗口图层窗口主窗口主窗口 序列联配窗口序列联配窗口控制面板控制面板