蛋白质功能预测方法研究进展

上传人:ji****81 文档编号:227703553 上传时间:2021-12-21 格式:DOCX 页数:18 大小:39.19KB
返回 下载 相关 举报
蛋白质功能预测方法研究进展_第1页
第1页 / 共18页
蛋白质功能预测方法研究进展_第2页
第2页 / 共18页
蛋白质功能预测方法研究进展_第3页
第3页 / 共18页
蛋白质功能预测方法研究进展_第4页
第4页 / 共18页
蛋白质功能预测方法研究进展_第5页
第5页 / 共18页
亲,该文档总共18页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《蛋白质功能预测方法研究进展》由会员分享,可在线阅读,更多相关《蛋白质功能预测方法研究进展(18页珍藏版)》请在金锄头文库上搜索。

1、 蛋白质功能预测方法研究进展 滕志霞 郭茂祖摘 要:蛋白质功能预测是后基因组时代生物信息学的研究热点之一。利用计算方法预测蛋白质的功能,可以弥补传统生物实验方法周期长、效率低和成本高等方面不足。首先介绍蛋白质功能预测的研究背景,并从计算角度定义蛋白质功能预测问题;然后,对蛋白质功能预测方法的研究现状进行分析与总结,最后指出已有方法中存在的不足及未来的研究方向。关键词:蛋白质;功能预测;基因本体;结构域;生物网络中国分类号:TP391 :A :2095-2163(2016)01-Abstract: protein function prediction is a hot spot of biol

2、ogical research in post-genomics. Compared to the traditional experimental methods, computational methods for predicting protein function performs more efficient. Firstly, the background and significance of protein function prediction are introduced, and protein function prediction is defined as a c

3、omputational problem. And then, the latest progress in computational predicting of protein functions are summarized and analyzed. Finally, the limitations of the computational methods and the development trends in this field are presented.Key words: Protein; Function Prediction; Gene Ontology; Domai

4、n; Biological Network0 引言蛋白质(protein)是基因经过转录和翻译后在生物体中所表达的产物1-2。蛋白质是生物体的重要组成部分,不仅种类繁多、而且功能各异,几乎所有的生命活动都要通过蛋白质来完成。比如,生物体的生长、发育、运动、遗传、繁殖等一切生命活动都离不开蛋白质。毋庸置疑,蛋白质是生物体的生理功能的执行者,是生命现象的直接体现者,对蛋白质结构和功能的研究将直接阐明生物体在生理或病理条件下的变化机制。这对于疾病预防、药物开发等医学领域研究和农牧业领域的发展都有十分重要的意义。随着大规模高通量测序技术的发展和应用,蛋白质序列数据呈指数级地增长。然而大量蛋白质的功能仍

5、然未被测定,蛋白质的序列和功能信息之间的差距不断扩大。为缩小这种差距,寻找快速、高效且可靠的蛋白质功能预测方法成为生物学研究领域一项迫切的任务。最初,生物学家研究蛋白质功能主要通过生物实验的方法,包括微阵列分析、RNA干扰、免疫共沉淀法3、免疫交联法4、酵母双杂交法5等。然而,这类分子生物学实验方法比较费时费力,远不能满足大规模蛋白质功能预测的需要。随后,在机器学习、数据挖掘和数理统计等多学科发展的共同推动之下,蛋白质功能预测方法应运而生。这类方法主要通过机器学习和信息挖掘技术对蛋白质的功能进行预测,为进一步的生物学实验验证提供启发和指导。近年来,蛋白质功能预测方法的研究在生物信息学领域得到了

6、广泛关注,并取得了很多有价值的研究成果。这些研究成果有力地推进人类对蛋白质功能的认识进程,缩小序列和功能信息之间的差距。本文将在后面的小节中介绍和分析已有的蛋白质功能预测的典型方法,并指出其中存在的不足以及蛋白质功能预测未来的研究趋势。1 蛋白质功能蛋白质功能是一个比较宽泛的技术概念。一般来说,蛋白质具有催化、能量转运和信号转导等诸多功能,一个蛋白质可以参与多个生物过程或功能通路。可以说,一切与蛋白质有关的事务都可以被看作蛋白质的功能6。为统一和规范对蛋白质功能的描述,许多组织开始着手定义标准的词汇去描述特定功能,比如:基因本体联合会(Gene Ontology Consortium)建立的基

7、因本体(Gene Ontology, GO)7和慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences, MIPS)建立的基因分类标准(Function Categories, FunCat)8。目前GO已经被广泛地应用于蛋白质功能标注,是比较主流的功能注释术语集合。GO利用有向无环图来组织术语(term),图中每个节点表示一个标准术语,图中的有向边表示术语间的关系如is-a,part-of和regulates等。GO按照所描述的范畴不同,大致分为三个术语子图:分子功能(Molecular Function, MF)、生物过程(

8、Biological Process, BP)和细胞组件(Cellular Component, CC)。分子功能本体主要描述个体分子在生物学方面的活性,比如催化活性和结合活性;生物过程本体主要描述分子所参与的生物过程和扮演的角色;细胞组件本体主要描述分子在哪些细胞器中发挥作用。因此,可以把GO术语看作是功能标签,蛋白质功能预测看作是为判定蛋白质所拥有的标签的过程。2蛋白质功能预测方法1961年Anfinsen9提出了蛋白质的一级序列完全决定其三维结构的著名论断,同时又进一步提出蛋白质的高级结构完全决定其功能的科学论断。这种蛋白质的序列结构功能的决定关系称为第二中心法则,也为蛋白质功能预测奠定

9、了理论基础。因此,预测蛋白质功能实质就是判断未知功能的蛋白质与已知功能的蛋白质在序列、结构和功能方面的相似性计算问题。一般地,如果两个蛋白质的序列或结构比较相似,则认为彼此在功能上也比较相近。在此基础上,学者们提出了大致三类研究方法:基于序列同源性的方法(Homology-based methods)、基于基因组上下文的方法(Genomic Context-based method)、基于蛋白质相互作用网络的方法(Network-based method)。为此,本文将在下一节中具体介绍各类方法的研究进展。2.1 基于序列同源性的方法分子生物学中大量的研究表明,序列水平上相似的两个蛋白质具有较

10、高的同源性,并且两者的功能也接近或相似10。因此,人们可以通过识别同源蛋白质来预测蛋白质的功能。这类方法被称为基于序列同源性的方法,其实施的难点在于识别同源蛋白质。一般地,可以通过以下两种方式进行识别。具体可做如下分析。2.1.1 序列全局比对方法首先通过FASTA,BLAST,PSI-BLAST等序列比对工具寻找与功能未知的蛋白质有较高序列相似性的蛋白质,然后将这些蛋白质的功能标注为功能未知的蛋白质的功能。这种方法简单易用,然而,却不能精确判定蛋白质的功能,且受已有数据库中噪声数据的影响较大,容易产生功能信息的错误传播问题。Devos和Valencia11-12发现由序列比对得到的功能注释中

11、超过30%是错误的。此外,研究表明:大约有20%40%的蛋白质序列不具有显著的同源序列,特别是,还有一些独特的“孤儿”蛋白质(orphan protein)存在。这一事实限制了基于序列全局比对的方法的应用范围。2.1.2 序列局部特征分析方法序列局部特征分析方法又称为从头预测方法,该方法不依赖于蛋白质序列的全局比对,而是通过统计一组已知的具有相同功能的蛋白质序列的组成及生化特性等局部特征并建立分类模型,将具有相近或相似特征的序列看作同源序列再划为同一类,从而进行蛋白质功能预测。这类方法一般可以分为四个阶段:特征提取、特征选择、训练模型和分类预测。其中,特征提取主要涉及序列特征的定义和提取,常用

12、的特征有氨基酸组成、结构域(domain)、序列模体(motif)、密码子偏好、等电点和范德华体积以及翻译后修饰等;特征选择主要是对特征提取阶段提取的特征集进行去除噪声和去冗余等操作;利用机器学习方法建立一个分类模型,并使用该模型对未知功能的蛋白质序列进行功能预测。2001年,英国威尔士大学Ross D.king13将氨基酸序列用三类序列信息来具体表示,利用数据挖掘的学习方法对Riley定义的E.Coli14蛋白质进行预测,准确率达到60%86%。2002年,丹麦科技大学生物序列分析中心L.J.Jensen15等人提取14种蛋白质特征,利用神经网络方法进行蛋白质功能预测。结果表明,当允许假阳性

13、达到10%的情况下,预测敏感度可达到90%。2003年,新加坡大学C.Z.Cai16等人利用蛋白质的组成、转换及分布特征和SVM进行蛋白质功能预测。之后许多学者利用不同的机器学习方法如共学习17、朴素贝叶斯18-19以及随机森林20进行蛋白质功能预测,也取得了不错的效果。Kim等人提出了一种基于朴素贝叶斯的基因功能相似度计算方法21,可以整合多种不同基因相关数据;英国Leeds大学的Bradford等人则相继使用这种方法进行基因功能预测22;Troyanskaya等将贝叶斯网引入到功能关联预测,用以表示多种不同数据间的依赖关系23。Lourdes等人给出了一种加权核的方法24,首先为每种数据建

14、立一个核,然后依质量为每种数据赋予权值,最后通过加求和的方式获得一个新核。Mostafavi25和Valentini26-27利用集成不同分类器的结果,按照投票原则产生最终的预测结果。这类方法比基于序列全局比对的方法更加有效,主要是因为基于局部特征的方法抽取具有生物学意义的序列局部特征能够更显完善地判断序列同源性。然而这类方法也有一定的局限性,特征选取策略和正反例选取策略对分类模型的性能影响比较大,具体表现在:(1)难以定义能够有效区分目标基因和其他基因的特征集合。(2)在实际建立分类模型时发现,已知的具有某一功能的蛋白质序列较少(正例)、已知的不具有该功能的蛋白质序列(反例)不确定,训练模型

15、时正例和反例集不平衡对模型的性能的影响也比较大。(3)蛋白质可能同时具有多个功能,简单将功能预测问题看成二分类问题,会忽略个体蛋白质功能多样性的特点。2.2 基于基因组上下文方法基于基因组上下文的方法通过识别蛋白质之间的关联关系来预测其可实现的功能。该方法认为:如果两个或多个蛋白质在不同的基因组中表现出相同或相似的表达模式,则会有很大可能将执行同一个功能28-29。这种方法这与依赖于序列同源性的方法是不同的。常用的基因组上下文特征有:基因融合(gene fusion)、基因共现(gene colocation)、基因共表达(gene co-expression)、种系发生树(Phylogene

16、tic profile)等。1999年Marcotte30第一次提出利用基因融合来预测基因功能,该方法以发生基因融合的基因可能具有相同或相似的功能为依据,可以有效预测基因功能,然而预测结果假阴性较高。实际上,运用基因融合方法推测基因功能的关键在于识别真正的直系同源基因。如果待测基因与已知基因之间是旁系同源关系(paralogs)而非直系同源关系(orthologs),那么就很可能发生误判。1999年Overbeek31-32等人基于基因顺序保守的基因所编码的产物之间很可能存在功能互作或者物理互作这一假说,提出一个双向最佳匹配方法(bidirectional best-hit method)在多个基因组上寻找位置相近的直系同源基因。该方法有效地发现了大量功能相关的基因。然而,受基因顺序保守性发生频率的限制,其应用的覆盖度和精确度依赖于已

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 调研报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号