基于机器学习方法的蛋白质相互作用位点及二级结构预测

上传人:E**** 文档编号:118121094 上传时间:2019-12-11 格式:PDF 页数:87 大小:1.05MB
返回 下载 相关 举报
基于机器学习方法的蛋白质相互作用位点及二级结构预测_第1页
第1页 / 共87页
基于机器学习方法的蛋白质相互作用位点及二级结构预测_第2页
第2页 / 共87页
基于机器学习方法的蛋白质相互作用位点及二级结构预测_第3页
第3页 / 共87页
基于机器学习方法的蛋白质相互作用位点及二级结构预测_第4页
第4页 / 共87页
基于机器学习方法的蛋白质相互作用位点及二级结构预测_第5页
第5页 / 共87页
点击查看更多>>
资源描述

《基于机器学习方法的蛋白质相互作用位点及二级结构预测》由会员分享,可在线阅读,更多相关《基于机器学习方法的蛋白质相互作用位点及二级结构预测(87页珍藏版)》请在金锄头文库上搜索。

1、 学号:E200602044 学号:E200602044 安徽大学 2009 届硕士学位论文 摘 要 I 摘摘 要要 蛋白质的功能常体现在生物大分子的相互作用中, 识别蛋白质相互作用位点 对于研究蛋白质功能发挥着重要作用。 研究蛋白质的功能还需要深入了解它的结 构,因为结构决定功能,有什么样的结构必定有什么样的功能。生命的功能和结 构, 二者是统一的。 通过实验方法确定蛋白质相互作用位点和蛋白质的结构类型, 费时、费力、费财,且实验中可能还会遇到一些目前无法解决的困难,因此利用 理论及计算方法来研究蛋白质相互作用位点、蛋白质结构类型具有重要意义。有 鉴于此,本文基于支持向量机(SVM) 、BP

2、 神经网络两种机器学习方法,研究 了与蛋白质功能息息相关的两个方面蛋白质相互作用位点预测和蛋白质二 级结构预测。主要工作如下: 1基于支持向量机的蛋白质相互作用位点预测 从蛋白质一级序列出发, 给出一种以序列上相邻残基的序列谱和信息熵的组 合为输入特征向量、 以支持向量机为分类器, 来预测蛋白质相互作用位点的方法。 本文提取出 2 种特征向量序列上相邻的序谱、 序列上相邻的序列谱及信息熵 的组合,分别形成 3 种不同大小的滑动窗口(Win3、Win7、Win11) ,构成输入 特征向量,采用“留一法”形成训练数据集和测试数据集,使用支持向量机分类 器预测测试集中的表面残基是否是蛋白质相互作用位

3、点,得到了较好的结果,说 明了实验方法的有效性。最后,采用可视化软件对蛋白质相互作用位点进行了定 位。实验结果表明: (1)在两种输入特征向量下的各种评价指标中,对于不同大小的信息窗, 采用序列上相邻的序列谱与信息熵的组合作输入特征向量得到的结果, 基本高于 仅用序列上相邻的序列谱作输入特征向量的结果。这说明,在残基序列谱和信息 熵这两个特征中所包含的信息可以互补, 且这种互补性对蛋白质相互作用位点的 预测是有益的。同时对于相同大小的信息窗,采用以上两种输入特征向量所耗费 的运行时间相差无几。 (2)在两种输入特征向量下的分类正确率(Accuracy) ,Win7、Win11 的平 均Accu

4、racy较Win3都有不同程度的提高。 对于仅用序列谱作输入特征向量而言, 安徽大学 2009 届硕士学位论文 基于机器学习方法的蛋白质相互作用位点及二级结构预测 II Win3、Win7、Win11 的平均 Accuracy 随窗口的增大而提高。 (3)对于用序列谱与信息熵的组合作为输入特征而言,Win7 所得的各种评 价指标的值均最高,这说明并不是目标残基的相邻残基越多,支持向量机对其分 类精确度就越高,目标残基与其相邻残基之间还存在一定的融合问题。 2基于 BP 神经网络的蛋白质二级结构预测 提取 46 个蛋白质复合物的非同源单链作为数据集,分别采用 5 位编码和 Profile 编码作

5、为输入特征向量, 通过不同大小的滑动窗口 (Win3、 Win5、 Win9) , 对蛋白质二级结构进行预测。实验结果显示,富含“生物进化信息”的 Profile 编码有着明显的优势,各种精确度均得到了较好的结果,尤其是精确度 QE明显 高于 5 位编码的 QE。这说明虽然 Profile 编码较为复杂,但由于它富含“生物进 化信息” , 因而相对 5 位编码方式更适合于一致性较低的蛋白质二级结构的预测。 关键词:关键词:蛋白质相互作用位点; 蛋白质二级结构; 机器学习; 支持向量机; BP 神经网络; 安徽大学 2009 届硕士学位论文 ABSTRACT III ABSTRACT Prote

6、in usually represents its function through interactions between biological molecules. Identifying protein-protein interaction sites plays an important role in proteins function. Research on the functions of proteins should know the structure of the proteins, as structure determines function. Functio

7、ns and structures of life, they are unified. Predicting protein-protein interaction sites and the structure of proteins may be determined by means of experiments, but they are very time-consuming and almost impossible. Thus the scientists have being sought after the theoretical or computational meth

8、ods for predicting protein-protein interaction sites and the structure of proteins. Therefore, this paper based on SVM and BP neural network, studied on predicting protein-protein interaction sites and the structure of proteins. The main work can be introduced as follows: 1. Predicting of protein-pr

9、otein interaction sites with SVM From the primary sequence, adjacent residue sequences profile and sequences profile combines with entropy are as two kinds of input vectors for three sliding information windows(Win3, Win7, Win11) of residues, and interaction sites are classified by Support Vector Ma

10、chine (SVM). The results of using SVM predicting every surface residue is whether interaction site or not, have proved the validity and feasibility of this method. The results show that: (1)With 3 kinds of information windows, the results of using adjacent residue sequences profile combines with ent

11、ropy as input vector are higher than those using adjacent residue sequences profile as input vector. It shows that the character between sequences profile and entropy are complementary for each other, and the complement is good for the predicting of protein-protein interaction sites. Meanwhile, the

12、time-consuming of those two input vector are almost the same. (2)With the two input vector, the classification accuracies of Win7 and Win11 are higher than that of Win3. Those which only using sequences profile as input vector, 安徽大学 2009 届硕士学位论文 基于机器学习方法的蛋白质相互作用位点及二级结构预测 IV the average accuracies in

13、creasing accompanied by the size of the window. (3)Those which using sequences profile combined with entropy as input vector, the highest value of every evaluation is Win7, it is indicated that the classification accuracies of SVM are not always higher for any more contiguous residues. When contradi

14、ctory or uncoordinated, the value of evaluation will be reduced; When supplementary, the value of evaluation will be enhanced. 2. Prediction of secondary structure of protein with BP neural network Getting hetero-protein chains from 46 protein-complexes, with 5 encoding and profile encoding, to pred

15、ict proteins secondary structure by different sizes of information windows(Win3,Win5,Win9).The experiments show that, profile encoding method which is rich in “biological evolution information” gain the higher accuracy in different aspects, especially the accuracy of QE is more higher than QE of 5 e

16、ncoding. It is indicated that, though the profile encoding method is complex and it is full of “biological evolution information”, which might obtain the higher predictable results than 5 encoding. Keywords: Protein-protein interaction sites; Protein secondary structure; Machine Learning; Support vector machine(SVM); BP neural network; 安徽大学 2009 届硕士学位论文 目 录 V 目目 录录

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号