生物信息学讲课_5讲解

资源描述

《生物信息学讲课_5讲解》由会员分享，可在线阅读，更多相关《生物信息学讲课_5讲解（56页珍藏版）》请在金锄头文库上搜索。

1、 3.7 神经网络法, 3.7.1简化的神经元数学模型,人工神经元模型中, x为输入信号，w为连接权重，s为外部输入信号，为阈值，y为输出，f为神经元处理信号的方式。, 3.7.2 BP(Back Propagate)神经元网络模型,问题：假设给定了N个样本： xk, yk, (k=1,2,N) 如何训练网络，使得当输入为xk时，输出尽可能接近yk ？让我们考虑样板k:,正向传播：,结点 j 的输入应为：,而输出则由激活函数 f 决定：,逆向回传(调节连接权重)：用t表征输出层的单元，将期望的输出(准确值)记为 yk = ytk, 对应的实际输(预报值)出记为 k = tk 。逆向回传就

2、是以期望输出和实际输出的差别(yk - k)为依据，来修正网络的连接权重w，之后又进行新一轮的预报。这种迭代过程一遍遍进行，直到平方型误差函数：,的值已经很小，且在最近很多次的迭代中都基本保持不变或在一个很小的范围内波动（称为收敛），则说明网络已经完成了学习的过程。,可以推导出连接权修正公式为：,一般地，随着一轮轮的学习，输出误差应该越来越小，直到达到稳定于一个很小的值要求(称为收敛)，学习过程就完成了。若总是不收敛，则可能是学习样板集不合适。, 3.7.3 人工神经元网络的基本特征,分布存储和容错性；大规模并行处理；自学习、自组织、和自适应性；具有一般非线性动态系统的特征；适于处理一

3、些环境信息复杂、知识背景不清楚和推理规则不明确的问题。, 3.7.4 实例: 用BP网络预测蛋白质二级结构,参考文献： J. Mol. Biol. 202: 865-884, 1988,PIVDTGSVAPLSAAEKTKIRSAWAPVYDILVKFFTAKV,PIVDTGSVAPLSAAEKTKIRSAWAPVYDILVKFFTAKV -hhhhhhhhhhhhhhh-eeeeeeeee-,网络设计: 在蛋白质中，一个氨基酸残基处于什么样的二级结构中，一般会受到它前后氨基酸的影响，一般地，离得越远，影响越弱。另一方面，要构成一段-helix或-sheet也需要一定长度的序列。综合考虑这些

4、因素，可以考虑序列长度为15个氨基酸。为了便于计算，让输入层的神经元只处于两种状态：抑制或兴奋，用 0 和 1 来代表。,为了完全区别20种氨基酸，我们用20个连续的神经元来代表一个氨基酸，其中19个处于抑制状态，一个处于兴奋状态，见编码表。这样一来，输入层有1520=300个神经元。输出应能反映三种状态： -helix，-sheet，和 coil (无规卷曲)，所以，可用100,010,001表示之，所以，输出层只需三个神经元。隐蔽层可有可无。若引入隐蔽层，按经验，其神经元个数介于输入和输出层之间，并逐层减少。,网络设计:,神经元 j 的输入(Ej)输出模型(sj)：,选取训练学习集和

5、测试集,从PDB数据库获得的二级结构信息： PIVDTGSVAPLSAAEKTKIRSAWAPVYDILVKFFTAKV -hhhhhhhhhhhhhhh-eeeeeeeee- 可取得的学习样板： PIVDTGSVAPLSAAE V 处于-helix中； IVDTGSVAPLSAAEK A 处于-helix中； . EKTKIRSAWAPVYDI A 处于coil 中； . WAPVYDILVKFFTAK L 处于-sheet； .,预测过程：对要预测的序列，截取一段15个氨基酸残基的序列作为输入，按学习过程的同样算法可得出其输出，根据三个输出单元中那一个的值最大，来决定这段序列最中间的残基

6、可能处于哪种二级结构中，例如，对于输入序列： DTGSVAPLSAAEKTK 如果三个输出单元的值依次为 0.92, 0.05, 0.21 则我们预测其中的残基 L 处于-helix中。按这种方法，从N端到C端每次移动一个氨基酸残基不断进行，我们就可以预测出一个蛋白质的二级结构(两端的各7个残基除外)。,对预测准确率的评价：,以N代表被预测到的序列区域中残基总数，T，T，Tc 分别代表其中实际属于 -helix, -sheet 和 coil的数目(N=T+T+Tc)；用P代表实际为，也正确地预测为的数目，P和Pc的意义类似；定义预测成功率为：,显然,Q3 这个指标有一个较大的缺陷，就是当三

7、种结构的成分比例很不平衡时，不能客观地反映预测的质量。,现在普遍使用的是一个称为“相关系数”的指标，计算时，用 n代表实际不是，也正确地预测为不是的数目； u代表实际为，但没预测为的数目(遗漏)； o代表实际不是，但预测为的数目(过度)。预测结果的相关系数定义为：,C=1 对应最高质量的预测：是否为的判断全部正确； C= -1正相反。按相同的方法算出C和Cc，就能较客观地反映预测质量。,例：序列： PIVDTGSVAPLSAAEKTKIRSAWAPVYDILVKFFTAKV 实际： -hhhhhhhhhhhhhhh-eeeeeeeee- 预测： *hhhhhhhhhhh-eeeeeee*

8、 N=24， P=11，P=4，Pc=4, 因此 Q3=19/24=79% 这种方法的实际成功率一般为6070% n=11, u=2, o=0, 因此：,相关系数的值达到0.35就算是比较成功的预测。, 3.8 进化树的构建, 3.8.1 关于进化生物学 3.8.2 生命史的三个阶段 3.8.3 进化树的特征和术语 3.8.4 分子进化树的构建方法 3.8.5 分子进化的局限性 3.8.6 进化树的可信度检验 3.8.7 突破传统分子进化方法的尝试,3.8.1 关于进化生物学,进化生物学是研究生命的起源及进化的过程、原因、机制、速率和方向的科学。进化生物学的基础理论就是进化论。研究生物进化

9、的三个途径：化石纪录，形态比较，大分子比较。,3.8.2 生命史的三个阶段, 3.8.3 进化树的特征和术语,N个物种的无根树，有(2N-5)*(2N-7)*1种结构；每种结构的树都有(2N-3)条分支，(N-2)个结点；任何分支都可以看成是根; 连接两个物种的所有分枝长度之和为它们的距离。,物种数目和进化树结构数目关系表, 3.8.4 分子进化, 4.8.4.1 生物大分子的进化特征 4.8.4.2 分子进化树(phylogenetic tree) 的构建几个常见建树方法的介绍可靠性检验 4.8.4.3 常用的免费软件包, 3.8.4.1 生物大分子的进化特征,如果以核酸或蛋白质的一

10、级结构的改变(即分子序列中核苷酸或氨基酸的替换数)作为进化改变量的测度，那么生物大分子随时间的改变(即分子进化速率)是相当稳定的，其原因可能是“替换”是一个没有特殊驱动和控制的随机过程。,不同物种同源大分子的进化速率大体相同，如不同动物的血红蛋白分子的进化速率基本上都是k=10-9/aaa, 即每个氨基酸位点每年替换10-9次。分子进化方法就是利用上述特点，通过不同物种的同源大分子的比较，来确定物种间的亲缘关系，分支时间，进而定出系统进化树的。,16S rRNA树和三界理论 Woese等人：Proc. Natl Acad. Sci. USA 87, 45764579., 3.8.4.2 分子

11、进化树的构建,基本思想: 物种体内同功能生物分子（如蛋白质或核酸分子）的相似程度越高，则物种的亲缘关系越近。具体步骤: 选择“特征分子”，原则是：a. 各个物种都有的同源分子，b. 进化速率适当; 对这些同源分子的序列进行多序列比对(multi-sequences alignment), 截取比对的最好的区域作为物种的代表序列；,3. 按某种方法，算出代表序列两两之间的差异度，如：,4. 基于这些差异度，绘制系统发生树,5. 对系统发生树进行可信度检验(bootstrap),Maximum Parsimony Method pp. 106-111,适用于已经有了严格多序列alignment结

12、果的情况。例子:,有三种结构：,具体做法是，对一种结构，将所有位点的可能最小差异得分加起来，得到该结构的总差异得分。假设对任何两个碱基, 相同时cost为0，不同时cost为1；那么，对于以结构1的第5个位点：,观察位点5在结构1的情况：,其可能的最小cost是2,我们会发现，对于某些位点，不管树取哪种结构，该位点的cost总是不变，这种位点称为 “无信息位点”。在例子中，只有5，7，9三个是“信息位点”。因此，我们实际上只需就这些“信息位点”对每一个种结构计算总差异得分，就能判断那种结构最合理。,所以，结构2是最优的，它的tree-length 是4。,适用于: 物种(序列)相似程度

13、很高的情况。优点：找到的一定是最优的树(结构), 能推测“祖先”序列。缺点：当物种(序列)的数目较大时(N13)，计算时间太长，所以，可行性很差。,Fitch and Margoliash Method 参考文献：(Science 155: 279-284, 1987),这是一种基于“距离”的方法, 一般步骤如下: 对要研究的一组物种(或序列), 采用某种规则, 算出两两之间的距离, 构造出距离矩阵; 选出距离最近的两个物种(比如A和C), 把其余的物种看成一个“复合物种”, A到 “复合物种”的距离是A和构成“复合物种”的所有物种的距离的平均，C亦然；,3. 求出A、C、“复合物种”三者

14、构成的树的分支长度a,c,(复合物种)，这时，A、C的“紧邻分支长度已确定”； 4. 将“紧邻分支长度已确定” 的A、C看成一个“复合物种”（AC），计算其它各物种到（AC）的距离，构造出新的（少了一维的）距离矩阵； 5. 按照同样的办法，一遍遍重复2到4的步骤，就可逐步确定出树的整体结构及全部分支长度。,例子：,该方法的优点是：不要求物种(序列)的相似程度必须很高，并且计算速度快，能处理物种(序列)数目较大的情况；缺点是：不能保证找到的是最优的树。与该方法类似，且目前使用最广的是：Neighbor Joining 方法（邻接法，参考文献：Mol. Biol. Evol. 4: 406-4

15、25, 1987），PHYLIP包中的程序“neighbor”采用的就是这种方法。当物种(序列)的相似程度相当低时，可以采用Maximum Likelihood Method (最大似然法)，详见PHYLIP包中的“DNAML”和“DNAMLK”程序及其说明。, 3.8.4.3常用的免费程序包,PHYLIP程序包(Phylogenetic Inference Package) 是目前使用最广泛的系统发生分析程序包，包含几十个分子进化研究的相关程序。参考文献：Evolution 39: 783-791, 1985 下载网址：http:/evolution.genetics.washingto

16、n.edu/phylip.html,PAUP程序包(Phylogenetic Analysis Using Parsimony) 也是一个应用较广的系统发生分析程序包。下载网址：http:/www.lms.si.edu/PAUP/ TreeView 一个显示树结构的程序下载网址：http:/taxonomy.zoology.gla.ac.uk/rod/treeview.html,使用PHYLIP包的一个例子:,假设我们已经知道5个物种的两两间距离。首先，将物种距离按规定的格式写在一个文件里:,5 Alpha 0.000 1.000 2.000 3.000 3.000 Beta 1.000 0.000 2.000 3.000 3.0

展开阅读全文