蛋白质结构分析原理及工具-文献综述

上传人:琴**** 文档编号:19580034 上传时间:2017-11-19 格式:DOC 页数:5 大小:123.50KB
返回 下载 相关 举报
蛋白质结构分析原理及工具-文献综述_第1页
第1页 / 共5页
蛋白质结构分析原理及工具-文献综述_第2页
第2页 / 共5页
蛋白质结构分析原理及工具-文献综述_第3页
第3页 / 共5页
蛋白质结构分析原理及工具-文献综述_第4页
第4页 / 共5页
蛋白质结构分析原理及工具-文献综述_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《蛋白质结构分析原理及工具-文献综述》由会员分享,可在线阅读,更多相关《蛋白质结构分析原理及工具-文献综述(5页珍藏版)》请在金锄头文库上搜索。

1、蛋白质结构分析原理及工具(南京农业大学生命科学学院 生命基地 111 班)摘要:本文主要从相似性检测、一级结构、二级结构、三维结构、跨膜域等方面从原理到方法再到工具,系统地介绍了蛋白质结构分析的常用方法。文章侧重于工具的列举,并没有对原理和方法做详细的介绍。文章还列举了蛋白质分析中常用的数据库。关键词:蛋白质;结构预测;跨膜域;保守结构域1 蛋白质相似性检测蛋白质数据库。 由一个物种分化而来的不同序列倾向于有相似的结构和功能。物种分化后形成的同源序列称直系同源,它们通常具有相似的功能;由基因复制而来的序列称为旁系同源,它们通常有不同的功能 1。因此,推测全新蛋白质功能的第一步是将它的序列与进化

2、上相关的已知结构和功能的蛋白质序列比较。表一列出了常用的蛋白质序列数据库和它们的特点。表一 常用蛋白质数据库网址可能有更新氨基酸替代模型。 进化过程中,一种氨基酸残基会有向另一种氨基酸残基变化的倾向。氨基酸替代模型可用来估计氨基酸替换的速率。目前常用的替代模型有 Point Accepted Mutation (PAM)矩阵、BLOck SUbstitution Matrix (BLOSUM)矩阵 2、JTT 模型 3。序列相似性搜索工具。序列相似性搜索又分为成对序列相似性搜索和多序列相似性搜索。成对序列相似性搜索通过搜索序列数据库从而找到与查询序列相似的序列。分为局部联配和全局联配。常用的局

3、部联配工具有 BLAST 和 SSEARCH,它们使用了 Smith-Waterman 算法。全局联配工具有 FASTA 和 GGSEARCH,基于 Needleman-Wunsch 算法。多序列相似性搜索常用于构建系统发育树,这里不阐述。表二列举了常用的成对序列相似性比对搜索工具数据库 说明 链接蛋白序列数据库GenPept Translations of GenBank coding nucleotide entrieshttp:/www.ncbi.nlm.nih.gov/Genbank/PIR International protein database http:/pir.george

4、town.edu/RefSeq Curated, non-redundant with expert annotationhttp:/www.ncbi.nlm.nih.gov/RefSeq/UniProt/SwissProt Reviewed, manually annotated entries http:/www.uniprot.org/help/uniprotkbUniProt/TrEMBL Automatically classified and annotated entrieshttp:/www.uniprot.org/help/uniprotkb蛋白质分类数据库CATH Prot

5、eins classified based on class, architecture, topology and homologyhttp:/www.cathdb.info/SCOP Structural classification of proteins http:/scop.mrc-lmb.cam.ac.uk/scopProtClustDB Proteins classified based on sequence similarityhttp:/www.ncbi.nlm.nih.gov/proteinclusters蛋白质结构数据库PDB Resolved 3D biomolecu

6、lar structures http:/www.rcsb.org/pdb表二 成对序列相似性比对搜索工具工具 说明 链接BLAST Basic local alignment search tool http:/blast.ncbi.nlm.nih.gov/Blast.cgiFASTA Global alignment search tool; http:/www.ebi.ac.uk/Tools/fasta33/GGSEARCH Global alignment search tool http:/www.ebi.ac.uk/Tools/fasta33/index.html?program=

7、GGSEARCHSSEARCH-Protein Local alignment search tool against proteinshttp:/www.ebi.ac.uk/Tools/fasta33/ index.html?program=SSEARCH网址可能有更新2 蛋白质一级结构分析(含保守结构域)蛋白质结构的基本信息来源于它的一级结构,分析蛋白质一级结构的第一步是将它们分成其组成部分,然后处理每个部分的结构 4。这种拆分常常是根据蛋白质具有的相互作用的结构域进行的 5, 6。蛋白质结构域或蛋白质家族数据库对分析未知蛋白质的功能是很有用的,这些数据库通常被称为“特征数据库(signa

8、ture databases) ”。 “基序(Motifs) ”通常指没有间隔的多序列队列,通常由 10-20 个氨基酸构成。一系列基序构成的蛋白质域家族叫做“指纹(fingerprint) ”。使用它们的优势是可以检测远距离的序列关系 7。基序的典型例子是位置加权矩阵(position-specific score matrix ,PSSM) 。PSSM 计算基序中每一位置的分数。任何一个保守位置的信息被缩小到一个叫“序列模式(sequence patterns) ”的共同序列结果。 “序列谱(sequence profiles) ”用来描述一个较长的可能含有有用信息的保守序列片段。它们被用

9、来较大结构域的检测。隐马尔可夫模型(Hidden Markov Models,HMMs )即是一种和序列谱有关的模型。表三列举了主要的蛋白质特征数据库。表三 常用蛋白质特征数据库数据库 特征类型 外部来源 网络链接BLOCKS Blocks http:/blocks.fhcrc.org/blocks/CDD HMM,MSA Pfam,SMART,COGs,ProtClustDB http:/www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtmlGene3D HMM CATH http:/gene3d.biochem.ucl.ac.uk/Gene3D/Inter

10、Pro Integrated signature types of its member databasesGene3D,PANTHER,Pfam,PIRSF,PRINTS,ProDom,PROSITE,SMART,SUPERFAMLY,TIGRFAMshttp:/www.ebi.ac.uk/interpro/Pfam HMM,MSA UniProtKB,GenPept,metagenomicsdatasets http:/pfam.sanger.ac.uk/PRINTS Fringerprints http:/www.bioinf.manchester.ac.uk/dbbrowser/PRI

11、NTS/index.phpProDom UniProtKB,SCOP http:/prodom.prabi.fr/prodom/current/html/home.phpPROSITE Patterns,profiles UniProtKB/SWISS-PROT http:/au.expasy.org/prosite/SBASE BLOCKS,Pfam,PRINTS,ProDom,PROSITEhttp:/hydra.icgeb.trieste.it/sbase/SMART HMM http:/smart.embl.de/SUPERFAMILYHMM SCOP http:/supfam.org

12、/SUPERFAMILY/MSA:多序列比对;CDD:保守结构域数据库值得一提的是,CDD 数据库包含了蛋白质保守结构域分析。上述数据库都有自带的搜索引擎供搜索,它们采用的算法也不尽相同,此处不再列举。3 蛋白质二级结构分析蛋白质的二级结构是由氨基酸骨架间的氢键决定的,通常有三种形态,螺旋(H) ,链(E)和卷曲(C) 。为了从蛋白质原子的结构中获得更多的信息,蛋白质二级结构字典(DPSS)定义了蛋白质二级结构的八种状态:三种螺旋,H (-helix)、G (310-helix) 和 I (-helix), 链两种,E (extended strand in parallel and/or a

13、nti-parallel -strand conformation) 和 B (-bridge),三种卷曲,S (bend)、T (turn) 和 C (coil)。预测二级结构的第一步是搜索PDB 数据库寻找与查询蛋白质同源的蛋白质的实验三维结构,例如 FDM(Fragment Database Mining)算法首先会对 PDB 数据库进行搜索。早期的二级结构预测主要基于单个氨基酸的形成结构的倾向,GOR 算法采用这种方式,但现在的 GOR 算法通过贝叶斯统计等方法改进。CDM 算法(Consensus Data Mining)结合了 FDM 和 GOR 的优势。还有很多方法各有其特点:P

14、SIPRED,PSSM 等。更现代的方法利用了最新的机器学习技术例如SVMs(Support Vector Machines)和 NNs(Neural Networks) 。还有一些方法还考虑了氨基酸残基的相对溶解度(RSA) 。表四列举了常用的蛋白质二级结构在线预测工具。表四 蛋白质二级结构在线预测工具工具 说明 网络链接CDM FDM + GOR http:/gor.bb.iastate.edu/cdm/FDM PDB mining for structural fragments http:/gor.bb.iastate.edu/cdm/GOR Information theory, B

15、ayesian statistics, PSSM profileshttp:/gor.bb.iastate.edu/cdm/Jpred HMM and PSSM profiles; NNs; RSA http:/pbio.dundee.ac.uk/www-jpred/PHD Multiple sequence alignments; NNs http:/www.predictprotein.org/PORTER PSSM profiles; NNs http:/distill.ucd.ie/porter/PSIPRED PSSM profiles; NNs http:/bioinf.cs.uc

16、l.ac.uk/psipred/SABLE PSSM profiles; NNs; RSA http:/sable.cchmc.org/SSpro PSSM profiles; NNs and SVMs; RSA; 8-state predictionhttp:/www.ics.uci.edu/baldig/scratch/5 蛋白质跨膜结构域分析跨膜(TM)蛋白跨过整个脂膜 8,通常被分为两类 -helical TM (AHTM) 和 TM -barrel (TMB) proteins。AHTM 定位在细菌细胞膜的内膜和真核生物的细胞膜上。它们的跨膜区域有极性的环链接而成的 螺旋。对 TMB 蛋白的了解还不多,它们的跨膜域为反向平行的桶装 链通道 9。通过实验的方法(X-ray 和 NMR 等)来决定 TM 蛋白的结构,相比较于球状蛋白,解析的 TM 蛋白 3D 结构非常有限。因此,人们开发了很多的方法用来预测蛋白质的跨膜

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号