蛋白质生物信息学

上传人:ni****g 文档编号:588146645 上传时间:2024-09-07 格式:PPT 页数:29 大小:263KB
返回 下载 相关 举报
蛋白质生物信息学_第1页
第1页 / 共29页
蛋白质生物信息学_第2页
第2页 / 共29页
蛋白质生物信息学_第3页
第3页 / 共29页
蛋白质生物信息学_第4页
第4页 / 共29页
蛋白质生物信息学_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《蛋白质生物信息学》由会员分享,可在线阅读,更多相关《蛋白质生物信息学(29页珍藏版)》请在金锄头文库上搜索。

1、蛋白质生物信息学蛋白质生物信息学 蛋白质序列分析 蛋白质结构基础 三级结构测定 具具体体来来说说,生生物物信信息息学学是是把把基基因因组组DNA序序列列信信息息作作为为源源头头,确确定定基基因因组组序序列列中中代代表表蛋蛋白白质质和和RNA的的基基因因编编码码区区。同同时时,阐阐明明基基因因组组中中大大量量存存在在的的非非编编码码区区的的信信息息实实质质,破破译译隐隐藏藏在在DNA序序列列中中的的遗遗传传规规律律。在在此此基基础础上上,归归纳纳和和整整理理与与基基因因组组遗遗传传信信息息释释放放及及其其调调控控相相关关的的转转录录谱谱和和蛋蛋白白质质谱谱的的数数据据,从从而而揭揭示示生生命命体

2、体的的生生长、发育、代谢和进化的规律。长、发育、代谢和进化的规律。蛋蛋白白质质的的生生物物信信息息学学作作为为其其中中的的一一个个部部分分,成成为为生生物物信信息息学学的的重重点点发发展展方向。方向。1. 基因功能表达谱基因功能表达谱的研究,即探讨基因在特定时空中的表达。的研究,即探讨基因在特定时空中的表达。2. 确确定定核核酸酸序序列列中中编编码码蛋蛋白白质质的的基基因因,了了解解蛋蛋白白质质的的功功能能及及其其分分子子基础,运用蛋白质结构模拟与分子设计进行功能预测。基础,运用蛋白质结构模拟与分子设计进行功能预测。3. 对对已已知知的的各各种种代代谢谢途途径径和和相相关关的的生生物物分分子子

3、的的结结构构、功功能能及及它它们们之之间间的的相相互互作作用用进进行行整整理理,用用以以研研究究细细胞胞发发育育、分分化化途途径径和和疾疾病病的的发生与发展的途径。发生与发展的途径。4. 将将这这些些信信息息与与生生命命体体和和生生命命过过程程的的生生理理生生化化信信息息相相结结合合,阐阐明明其其分分子子机机制制,最最终终进进行行蛋蛋白白质质及及核核酸酸的的分分子子设设计计、药药物物设设计计和和个个体体化的医疗保健设计化的医疗保健设计。5. 其其他他。例例如如,序序列列对对比比、结结构构对对比比、计计算算机机辅辅助助基基因因识识别别、非非编编码码区区分分析析和和DNA语语言言研研究究、分分子子

4、进进化化和和比比较较基基因因组组学学、序序列列重重叠叠群群装装配配、生生物物信信息息处处理理并并行行算算法法的的研研究究、代代谢谢网网络络分分析析、基基因因芯芯片设计、蛋白质组学数据分析等。片设计、蛋白质组学数据分析等。蛋白质生物信息学研究的主要内容蛋白质生物信息学研究的主要内容序列对比的概念序列对比的概念n在在生生物物信信息息学学研研究究中中,最最常常用用和和最最经经典典的的一一个个研研究究手手段段,就就是是通通过过比比较较分分析析获获得得有有用用的的信信息息和和知知识识。将将研研究究对对象象进进行行相相互互比比较较来来寻寻找找研研究究对对象象可可能能具具备备的的某某些些特特性性。从从核核酸

5、酸及及蛋蛋白白质质的的一一级级结结构构方方面面来来分分析析序序列列的的相相同同点点和和不不同同点点,从从而而能能够够推推测测它它们们的的结结构构、功功能能及及进进化化上上的的联系。联系。n序序列列对对比比的的理理论论基基础础是是进进化化学学说说。如如果果两两个个基基因因和和蛋蛋白白质质序序列列之之间间具具有有足足够够的的相相似似性性,就就推推测测两两者者可可能能有有共共同同的的进进化化祖祖先先,经经过过序序列列内内残残基基的的替替换换、缺缺失失以以及及序序列列重重组组等等遗遗传传变变异异过过程程分分别别演演化化而而来。来。相似性和同源性n序列的相似性(序列的相似性(similarity):在序

6、列对):在序列对比中描述两条序列之间相同碱基或氨基比中描述两条序列之间相同碱基或氨基酸残基所占比例。酸残基所占比例。n序列的同源性(序列的同源性(homology):从大量):从大量数据中推断出的两个基因在进化上具有数据中推断出的两个基因在进化上具有共同祖先的结论。共同祖先的结论。序列两两对比序列两两对比n描述序列两两对比通常用打分矩阵的方描述序列两两对比通常用打分矩阵的方法。即两条序列分别作为矩阵的两维,法。即两条序列分别作为矩阵的两维,矩阵点是两维上对应两个序列的相似性矩阵点是两维上对应两个序列的相似性分数,分数越高则说明两个序列越相似。分数,分数越高则说明两个序列越相似。n序列对比问题即

7、是在矩阵中寻找最佳的序列对比问题即是在矩阵中寻找最佳的对比路径。对比路径。n方法:方法:Needleman-Wunsch动态规划动态规划算法;算法;Smith-Waterman算法;算法;SIM算算法。法。n工具:工具:LALIGN;Align、B12Seq等。等。多序列对比多序列对比n多序列对比是把两条以上可能有系统进化关系多序列对比是把两条以上可能有系统进化关系的序列进行对比的方法。的序列进行对比的方法。n目前,使用最广泛的多序列对比程序是目前,使用最广泛的多序列对比程序是CLUSTALX。它先将多个序列进行两两对比构。它先将多个序列进行两两对比构建距离矩阵,确立序列间的两两关系。然后根建

8、距离矩阵,确立序列间的两两关系。然后根据距离矩阵计算产生系统进化指导树,对关系据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权。再从相似程度最高的两密切的序列进行加权。再从相似程度最高的两条序列开始,逐步引入临近的序列并不断重新条序列开始,逐步引入临近的序列并不断重新构建对比,直到所有序列都被加入为止。构建对比,直到所有序列都被加入为止。数据库搜索的概念数据库搜索的概念n数据库搜索:通过序列相似性对比的算法,在数据库搜索:通过序列相似性对比的算法,在核酸序列数据库和蛋白质序列数据库中检索出核酸序列数据库和蛋白质序列数据库中检索出与被检序列具有一定相似性的序列。与被检序列具有一定相似性

9、的序列。n数据库搜索的基础是序列的相似性对比。数据库搜索的基础是序列的相似性对比。n被检测的序列与一个已知基因家族之间的进化被检测的序列与一个已知基因家族之间的进化关系被确定之后,通过数据库搜索可以得到一关系被确定之后,通过数据库搜索可以得到一些相似序列,但它们之间的相似性程度具有差些相似序列,但它们之间的相似性程度具有差别,因此,还需要判断其序列相似性程度。别,因此,还需要判断其序列相似性程度。(其他的研究方法和(其他的研究方法和/或实验手段来验证)或实验手段来验证)数据库搜索的工具数据库搜索的工具n虽然各种搜索程序和算法各不相同,但虽然各种搜索程序和算法各不相同,但数据库搜索检出的结果基本

10、相似,均采数据库搜索检出的结果基本相似,均采用统计学评分,并按照相似程度排序。用统计学评分,并按照相似程度排序。n目前,应用较广泛的序列相似性搜索工目前,应用较广泛的序列相似性搜索工具:具:FASTA、BLAST和和BLITZ等。等。n对于对于DNA序列相似性检索,序列相似性检索,FASTA的敏的敏感度较高,但感度较高,但BLAST检索速度较快。检索速度较快。nBLITZ的运算速度较慢,但其特异性较的运算速度较慢,但其特异性较高。高。nBLAST数据库搜索工具数据库搜索工具nBLAST是目前应用最广泛的序列相似性是目前应用最广泛的序列相似性搜索工具,比搜索工具,比FASTA改进更多,搜索速改进

11、更多,搜索速度更快,并建立在严格的统计学基础之度更快,并建立在严格的统计学基础之上。上。BLAST程序程序程序程序数据库数据库简述简述Blastp蛋白质蛋白质可能找到具有远源进化关系的匹配序列可能找到具有远源进化关系的匹配序列Blastn核苷酸核苷酸适合寻找分值较高的匹配,不适合远源适合寻找分值较高的匹配,不适合远源关系关系Blastx蛋白质蛋白质适合新适合新DNA序列和序列和EST序列的分析,能序列的分析,能够发现未知核酸序列潜在的翻译产物够发现未知核酸序列潜在的翻译产物Tblastn所有阅读框动态翻所有阅读框动态翻译的核苷酸序列译的核苷酸序列适合寻找数据库中尚未标注的编码区适合寻找数据库中

12、尚未标注的编码区Tblastx核苷酸序列核苷酸序列6个阅个阅读框的翻译产物读框的翻译产物适合表达序列标签(适合表达序列标签(EST)分析)分析一 、数据库介绍nSwiss-Protn 公认注释信息最佳的蛋白数据库,包公认注释信息最佳的蛋白数据库,包含几乎所有已知蛋白。由专家参与每条含几乎所有已知蛋白。由专家参与每条蛋白序列的筛选和校正,并进行详细注蛋白序列的筛选和校正,并进行详细注释。注释信息包括蛋白质功能、结构域释。注释信息包括蛋白质功能、结构域信息、翻译后修饰、变异情况等等。信息、翻译后修饰、变异情况等等。 Swiss-Prot 序列格式每条序列注释包括九部分:每条序列注释包括九部分:En

13、try info序列简单信息如名称、登记号Name and origin编码蛋白的基因信息References相关参考文献comments蛋白功能性质概述Cross-references其它数据库中关于该记录的信息keywords蛋白关键词描述Features蛋白性质如突变点,结构域等sequence蛋白序列tools一些整合的分析工具Swiss-Prot 查询n通过通过EXPASY中附带的网络搜索界面中附带的网络搜索界面SRS(sequence retrieval system)进行。进行。SRS是一个通用的查询系统,与是一个通用的查询系统,与NCBI 提供的提供的Entrez 提供类似功能

14、。提供类似功能。n用户可以输入名称,编号,物种,组织用户可以输入名称,编号,物种,组织等多种条件进行查询。等多种条件进行查询。SRS 查询界面数据库介绍 (2) - TrEMBLn对三大核酸数据库(对三大核酸数据库(GENBANK, EMBL, DDBJ)n之一的之一的EMBL通过计算机预测得到的蛋白质数据通过计算机预测得到的蛋白质数据n库,虽然不可避免地存在某些错误,数据质量比库,虽然不可避免地存在某些错误,数据质量比n不上不上Swiss-Prot。但可以作为。但可以作为Swiss-Prot 的补的补充,充,n而且其中存在一些功能未知的新基因编码的产物,而且其中存在一些功能未知的新基因编码的

15、产物,n可以作为开展功能研究的靶点。可以作为开展功能研究的靶点。 数据库介绍 (3) - ENZYMEn收收集集了了很很多多常常用用酶酶的的信信息息,包包括括功功能能描描述述,酶酶切切位位点点,以以及及一一些些相相关关链链接接。每每条条纪纪录录都都按按照照国国际际生生物物化化学学与与分分子子生生物物学学 命命 名名 委委 员员 会会 ( Nomenclature Committee of the International Union of Biochemistry and Molecular Biology ,IUBMB)命命名名规规则进行命名。则进行命名。Enzyme 查询界面用户可以根据

16、酶的描述信息,与化合物的结合情况,共作用分子等等进行查询数据库介绍 (4) - PROSITEn蛋白质模体及结构域数据库蛋白质模体及结构域数据库n什么是结构域什么是结构域/模体?模体?n结构域可以理解为蛋白家族共有的保守区域,结构域可以理解为蛋白家族共有的保守区域,是对蛋白家族序列进行多序列比对后,对保是对蛋白家族序列进行多序列比对后,对保守区域进行抽提归纳得到的结果。守区域进行抽提归纳得到的结果。n这种方法得到的保守区域为在一级序列上保这种方法得到的保守区域为在一级序列上保守,与高级结构一般有相关性,但有时也有守,与高级结构一般有相关性,但有时也有例外。例外。 一次多序列比对结果Clusta

17、l 是多序列比对常用的工具,用户可以提交到http:/www.ebi.ac.uk/clustalw/) 比对,许多软件包如DNAMAN, BIOEDIT中也整合了该软件 PROSITE 内容nPROSITE 主要保存两类信息:模式主要保存两类信息:模式(pattern)和谱()和谱(profile,权重矩阵)。,权重矩阵)。n模式可以理解为保守的氨基酸排列方式,通模式可以理解为保守的氨基酸排列方式,通常以氨基酸单字母方式排列常以氨基酸单字母方式排列.nProfile 为对保守区域每一位置氨基酸保守为对保守区域每一位置氨基酸保守情况进行打分构建的权重矩阵。情况进行打分构建的权重矩阵。PROSIT

18、E 使用注意事项nPattern主要可以用来预测某些生物活性主要可以用来预测某些生物活性位点,如磷酸化位点、甲基化位点。位点,如磷酸化位点、甲基化位点。profile预测可靠性高,可以用来对新蛋预测可靠性高,可以用来对新蛋白进行分类和提供功能提示。白进行分类和提供功能提示。n蛋白的功能位点是与其三维结构紧密相蛋白的功能位点是与其三维结构紧密相关的,局部区域符合某种关的,局部区域符合某种pattern不能保不能保证一定会具有对应的性质,要根据实际证一定会具有对应的性质,要根据实际情况,谨慎对待情况,谨慎对待pattern 预测结果。预测结果。 补充:蛋白结构域数据库n除了PROSITE 之外,还

19、有很多结构域数据库,n比较著名的有:n n Pfam http:/www.sanger.ac.uk/Software/Pfam/search.shtmlnSMART http:/smart.embl-heidelberg.de/nBLOCKS http:/www.blocks.fhcrc.org nPRINTS http:/www.bioinf.man.ac.uk/fingerPRINTScan/ 数据库介绍 (5) SWISS-2DPAGEn双双向向聚聚丙丙烯烯酰酰胺胺凝凝胶胶电电泳泳数数据据库库。保保存存了了很很多多组组织织来来源源的的双双向向电电泳泳图图谱谱,用用户户可可以以提提交交自自

20、己己的的蛋蛋白白序序列列,根根据据等等电电点点及及分分子子量量显显示示在在电电泳泳图图上上的的位位置置。该该数数据据库库还还提提供供了了2-D 电电泳泳的的protocol, 以以及及 构构 建建 2-D 电电 泳泳 数数 据据 库库 的的 软软 件件 包包http:/www.expasy.org/ch2d/make2ddb.html,对对有有兴兴趣趣作作2-D 电电泳泳的的用户来说是一个很不错的入门网站。用户来说是一个很不错的入门网站。数据库介绍 (6) SWISS-MODEL Repository n 基于序列相似性的蛋白三维结构建模系统,基于序列相似性的蛋白三维结构建模系统,用用n户提交自己的蛋白序列,服务器端首先搜索与户提交自己的蛋白序列,服务器端首先搜索与提提n交序列相似的三维结构已知的蛋白,根据已知交序列相似的三维结构已知的蛋白,根据已知序序n列结构模拟出用户提交蛋白的三维结构模型。列结构模拟出用户提交蛋白的三维结构模型。 nThank you

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 幼儿/小学教育 > 小学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号