人工神经网络及其在生物信息学上的应用

上传人:mg****85 文档编号:34139968 上传时间:2018-02-21 格式:DOC 页数:8 大小:1.02MB
返回 下载 相关 举报
人工神经网络及其在生物信息学上的应用_第1页
第1页 / 共8页
人工神经网络及其在生物信息学上的应用_第2页
第2页 / 共8页
人工神经网络及其在生物信息学上的应用_第3页
第3页 / 共8页
人工神经网络及其在生物信息学上的应用_第4页
第4页 / 共8页
人工神经网络及其在生物信息学上的应用_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《人工神经网络及其在生物信息学上的应用》由会员分享,可在线阅读,更多相关《人工神经网络及其在生物信息学上的应用(8页珍藏版)》请在金锄头文库上搜索。

1、1学院:生物技术学院年级专业:2009 级生物技术指导老师:查幸福姓名:商必志学号:2220093310320312人工神经网络及其在生物信息学上的应用摘要:本文介绍了人工神经网络的原理、特征、分类、优点等。人工神经网络在生物信息学上有很重要的应用。人工神经网络在蛋白质结构预测及分类、基因组系列分析、信号肽、启动子等方面都能发挥着不可替代的作用。关键词:人工神经网络;生物信息学;应用一、关于人工神经网络人工神经网络( Artificial Neural Networks,ANN)也简称为神经网络(NN)或称作连接模型(Connectionist Model) ,是一种应用类似于大脑神经突触联接

2、的结构进行信息处理的数学模型。(一) 、人工神经元神经元示意图如图所示:a1an 为输入向量的各个分量; w1wn 为神经元各个突触的权值 b 为偏置;f 为传递函数,通常为非线性函数;t 为神经元输出;数学表示 t=f(WA+b) W 为权向量;A 为输入向量;A为 A 向量的转置;b 为偏置;f 为传递函数。 可见,一个神经元的功能是求得输入向量与权向量的内积后,经一个非线性传递函数得到一个标量结果。 单个神经元的作用:把一个 n 维向量空间用一个超平面分割成两部分(称之为判断边界) ,给定一个输入向量,神经元可以判断出这个向量位于超平面的哪一边。该超平面的方程: Wp+b=0(W:权向量

3、; b:偏置;p:超平面上的向量)(二) 、基本特征人工神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络具有四个基本特征:3(1)非线性:非线性关系是自然界的普遍特性。大脑的智慧就是一种非线性现象。人工神经元处于激活或抑制二种不同的状态,这种行为在数学上表现为一种非线性关系。具有阈值的神经元构成的网络具有更好的性能,可以提高容错性和存储容量。(2)非局限性:一个神经网络通常由多个神经元广泛连接而成。一个系统的整体行为不仅取决于单个神经元的特征,而且可能主要由单元之间的相

4、互作用、相互连接所决定。通过单元之间的大量连接模拟大脑的非局限性。联想记忆是非局限性的典型例子。(3)非常定性:人工神经网络具有自适应、自组织、自学习能力。神经网络不但处理的信息可以有各种变化,而且在处理信息的同时,非线性动力系统本身也在不断变化。经常采用迭代过程描写动力系统的演化过程。 (4)非凸性:一个系统的演化方向,在一定条件下将取决于某个特定的状态函数。例如能量函数,它的极值相应于系统比较稳定的状态。非凸性是指这种函数有多个极值,故系统具有多个较稳定的平衡态,这将导致系统演化的多样性。 (三) 、发展历史1943 年,心理学家 W.S.McCulloch 和数理逻辑学家 W.Pitts

5、 建立了神经网络和数学模型,称为 MP 模型。1949 年,心理学家提出了突触联系强度可变的设想。60 年代,人工神经网络得到了进一步发展,更完善的神经网络模型被提出,其中包括感知器和自适应线性元件等。1982 年,美国加州工学院物理学家J.J.Hopfield 提出了 Hopfield 神经网格模型,引入了 “计算能量”概念,给出了网络稳定性判断。 1984 年,他又提出了连续时间 Hopfield 神经网络模型,有力地推动了神经网络的研究。1985 年,又有学者提出了波耳兹曼模型,在学习中采用统计热力学模拟退火技术,保证整个系统趋于全局稳定点。1986 年进行认知微观结构地研究,提出了并行

6、分布处理的理论。人工神经网络的研究受到了各个发达国家的重视。(四) 、网络模型4人工神经网络模型主要考虑网络连接的拓扑结构、神经元的特征、学习规则等。目前,已有近 40 种神经网络模型,其中有反传网络、感知器、自组织映射、Hopfield 网络、波耳兹曼机、适应谐振理论等。根据连接的拓扑结构,神经网络模型可以分为: (1)前向网络:网络中各个神经元接受前一级的输入,并输出到下一级,网络中没有反馈,可以用一个有向无环路图表示。这种网络实现信号从输入空间到输出空间的变换,它的信息处理能力来自于简单非线性函数的多次复合。网络结构简单,易于实现。反传网络是一种典型的前向网络。(2)反馈网络:网络内神经

7、元间有反馈,可以用一个无向的完备图表示。这种神经网络的信息处理是状态的变换,可以用动力学系统理论处理。系统的稳定性与联想记忆功能有密切关系。Hopfield 网络、波耳兹曼机均属于这种类型。(五) 、学习类型由 Hebb 提出的 Hebb 学习规则为神经网络的学习算法奠定了基础。Hebb规则认为学习过程最终发生在神经元之间的突触部位,突触的联系强度随着突触前后神经元的活动而变化。在此基础上,人们提出了各种学习规则和算法,以适应不同网络模型的需要。根据学习环境不同,神经网络的学习方式可分为监督学习和非监督学习。在监督学习中,将训练样本的数据加到网络输入端,同时将相应的期望输出与网络输出相比较,得

8、到误差信号,以此控制权值连接强度的调整,经多次训练后收敛到一个确定的权值。当样本情况发生变化时,经学习可以修改权值以适应新的环境。使用监督学习的神经网络模型有反传网络、感知器等。非监督学习时,事先不给定标准样本,直接将网络置于环境之中,学习阶段与工作阶段成为一体。此时,学习规律的变化服从连接权值的演变方程。非监督学习最简单的例子是 Hebb 学习规则。竞争学习规则是一个更复杂的非监督学习的例子,它是根据已建立的聚类进行权值调整。自组织映射、适应谐振理论网络等都是与竞争学习有关的典型模型。(六) 、优点第一,具有自学习功能。例如实现图像识别时,只在先把许多不同的图像样板和对应的应识别的结果输入人

9、工神经网络,网络就会通过自学习功能,慢慢学会识别类似的图像。自学习功能对于预测有特别重要的意义。预期未来的人工神经网络计算机将为人类提供经济预测、市场预测、效益预测,其应用前途是很远大的。 第二,具有联想存储功能。用人工神经网络的反馈网络就可以实现这种联想。 第三,具有高速寻找优化解的能力。寻找一个复杂问题的优化解,往往需要很大的计算量,利用一个针对某问题而设计的反馈型人工神经网络,发挥计算机的高速运算能力,可能很快找到优化解。 15二、人工神经网络在生物信息学上的应用(1) 、蛋白质二级结构预测利用人工神经网络预测蛋白质二级结构始于 Ning Qian 和 Terrence J. Sejno

10、wski 在 1988 年的研究,他们将非同源蛋白质二级结构预测的精度由当时的50% 53%提高到 64.3%,同源蛋白质预测的精度则达到 76%2。近年来利用人工神经网络预测蛋白质二级结构的研究都是以此为基础。神经网络可以有效地学习蛋白质二级结构形成的复杂规律或模式,提取更多的信息,并利用所掌握的信息进行预测。利用神经网络方法可以提高二级结构预测准确率。早期的神经网络方法能够得到 63-65%的二级结构预测准确率,利用多序列比对的信息对二级结构预测的准确率能够达到 70%。人工神经网络方法是迄今为止在蛋白质二级结构中预测精度最高的一种方法。 21、人工神经网络预测蛋白质二级结构的方法蛋白质二

11、级结构预测从方法的角度上大致可分为四大类:统计学方法、多重序列联配法、二级结构模体(motif)法、ANN 方法.前三种方法由于在预测精度上不够理想,近几年几乎没有大的发展.而 ANN 方法, 由于它的方法多样、适于计算机计算以及精度较好而受到广大研究者的重视.若从方法所涉及的信息挖掘的层次来看,ANN 方法大致可被划分为三代:第一代的信息来源仅限于序列中的单个残基; 第二代的预测算法加入了局部残基间相互作用的信息 ;第三代则在第二代的基础上加入了同源序列的信息,所以预测精度更高.现在人们研究的大都属于第三代,它的主要标志是引入了序列联配过程.本文也将以此为分类标准. 32、 编码方法应用神经

12、网络方法预测蛋白质二级结构时, 首先要对氨基酸序列进行编码后才能作为神经网络的输入信息。目前最常用的氨基酸编码方法是正交编码方式。它是用 20 位二进制数表示某一种氨基酸, 也就是说每一种氨基酸都用 20 位二进制数来表示, 并且满足不同氨基酸的编码向量的正交积( 内积) 为 0。这种编码方式的优点是不引入任何单体间的代数相关, 缺点是明显浪费资源。此外还有 2 种编码方法为分布编码和二阶编码。 43、应用人工神经网络预测蛋白质的二级结构具体操作包括两部分:(1) 网络的训练学习过程。它包括:训练模型的大小及所采用编码方案(codlngencede),训练学习方式。各模式所选取的顺序是沿蛋白质

13、的氨基酸序列从 N 端到 C 端,其中每次移动一个氨基酸残基便作为一个模式。训练学习的次序同模式均需被训练学习后,得到的连接权便可用于预试集中蛋白质二级结构的预测。(2) 预试集蛋白质二级结构的预测。根据预试集各模式中的氨基酸序列 (即6输人层编码)及由训练学习得到的连接权计算其输出层各单元大小,所求值最大的单元对应的二级结构便为该模式氨基酸序列片段中间氨基酸残基的构象。 5(二) 、蛋白质分类比较蛋白质序列之间的相似性是获得生物学系统知识的一种常用的方法。这时,有两种可供选择的人工神经网络模型:当缺乏有关最终聚类结果的先验知识时,可以使用无监督的模型,这时的聚类结果受到训练数据量的制约;当需

14、要将未知序列归类到已知蛋白质家族时,可以使用监督的人工神经网络模型,这时的效果受到先验知识的制约。随着所研究的蛋白质序列更为多样和复杂,新的蛋白质序列的数目不断增加,这种方法的局限性也就越来越突出。另外,在物种的进化过程中,蛋白质可能会丢失原有的功能信息或者增加新的功能信息,从而在功能上表现多样性的特点,这也会增加基于序列比较方法预测蛋白质功能的出错率。鉴于此,有学者提出了改进方法,使用由序列到结构再到功能的方法,可以取得较好的结果。7(三) 、信号肽及其剪切位点的预测信号肽即分泌蛋白新生肽链 N 端的一段 20 30 氨基酸残基组成的肽段。将分泌蛋白引导进入内质网,同时这个肽段被切除。现这一

15、概念已扩大到决定新生肽链在细胞中的定位或决定某些氨基酸残基修饰的一些肽段。SignalP 是一个信号肽及其剪切位点的预工具,它采用一个神经网络来区分信号肽和非信号肽,另一个神经网络来识别剪切位点。这两个神经网络都是前向网络,输出层只要一个神经元,用于将输入系列分为信号肽或非信号肽,剪切位点或其他系列位点两类。输入采用了滑动窗口,编码方式为 Sparse Encoding:字母 X1,X2编码为(1,0,0) ,(0,1,0) , 。采用 BP 算法训练网络,训练数据来源于 SWISS-PROT,这些数据被分为五个子集。该方法测试了几个采用不同窗口长度和隐含丹单元数的网络,选择了能达到最佳性能的

16、最小网络。剪切位点网络采用不对称窗口预测性能最佳,即窗口包含的剪切点上游的残基数多于下游残基数。信号肽网络采用对称窗口时预测性能最佳。(四) 、蛋白质亚细胞定位蛋白质亚细胞定位的传统方法:第一类是基于对蛋白质序列 N 端信号肽的分析.Emanuelsson 等人设计了一套神经网络系统 ,用来整合蛋白质序列 N 端信号肽的信息.此系统首先识别 N 端的水解分裂点,然后模拟信号肽水解过程 .另一种预测方法是基于对蛋白质序列的氨基酸词频分析.传统的方法只考虑一阶词频,也就是单个氨基酸出现的频率.Nakashima 和 Nishikwa 首先通过实验证实了胞内和胞外蛋白质序列的一阶氨基酸词频存在显著差异,可以用来识别蛋白质亚细胞定位.此后,Reinhardt 和 Hubbard3采用 BP 人工神经网络来定位亚细胞位置.他们的方法对于原核生物蛋白质和真核生物蛋白质的亚细胞定位精度分别达到了 81 %和 66%.Chou 等人结合了不同氨基酸的亲水

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号