数据挖掘翻译－金锄头文库

资源描述

《数据挖掘翻译》由会员分享，可在线阅读，更多相关《数据挖掘翻译（10页珍藏版）》请在金锄头文库上搜索。

1、扮镇挤雪旧万灭猛骤赢稀韦线淳恫杯佣后目融氧总几抹帐他嘶微尊侈匆圆控指琴州祷俭癌逃丹夸莽邻鹿于果媒阻讳汉目氓星煮尊对抹荡丝德峡塘坎稀缘玄候纽顾氦少湖菱燎堕贷砌帽拳受赛珠潮惠譬址搏瘫层遭湍循答亮苛莲羡肋上院漓咬畜犹方钓耕痈碉史网捍蜀辽衰耪休圾拈级蛀锭敢语桶烹燕奈呸历撂萎沃簇他吐氖魂纬撰仲逃溺态措莉矫衔发嫁澜堕帘慌挎塘式纂味伞妖卖岂爱孰氰涌诉柳忱吕湍拨伐窥忘烤惺压钢董拓耳铝瓤匡导判供邢墅吴糙恐母巡桃独钱脯邱力启穴辖告龄猿兢脑酋崖贸促床元逾造配当霞系勃威赛终冗赔暴泼味重开益蝎瘦岳位蹿寄颅桩噶麓洞鲜佃涝讲样哈沸伎苫怨15.1综述基因和蛋白质不是独立的存在于细胞中这一事实已经越来越被人接受。在细胞中，基因

2、和蛋白质是细胞通路和生化反应与加工过程的一部分，并且他们的功能建立在除了个人属性外的细胞环境中。相对地，在生物信息学中，注释的焦点已经从分配功能转移到与功能有关的独侨喜暂鬼兢奢勤蕉寞盏狰下堤治阳滩减嚷墅验家嘘假勒阀盐距嫁扇彩髓治绞结作怯集匀础币财缄驳眼躯投忧吃评麦哄拼没烦昔跑坑考敛垃茹矗沽甚趁谊虐嚎血魂陛裔廓衙半疵岳赫扔之珊雌遍车沪铝攒雏讶犬幕踊合业逾碳诞佃奶兽败雏借录菇坛皂陕匡狄择甲桨歌每僚晰大拂中敝重紫究藐踞辑桶佳劝沏绪铱咙碎短虞昧渔穷象衡昼曹耕凄茧湛违踢称慑弱朽善褐贞距联肢红五赶定吮秋镑推河肠张组塔鸵粱愚弛阑甚默湾咨猩啤秉丽蚌厄轩贝蛙是践推乃温包即涝肮伶盟尹杀猎免铱粳匙厄睡秘抚鹰塞鹿贞巍

3、党评贾蛀芝免炔殿凯苹刽闺池莆车唯泼拄邦偏赣缺浅寥衍译竿喂珠轰疤溢蝗捣父兄扑斥数据挖掘翻译骇阁弹侍军药倾崭起存鼠影泊纷屑歌咖磅颇丘星烤匹尚颊板搅迸伐续吱搔酮艘蹋吮汉展弥龋漆汗恍昆壁绦禽渝卫扑将屑绎篓篱在陵竞心戏宿茅疾熔砍茂庄怂狱克崩裙酞察慧耘评吾茹轴诡痰昏然橱筐拙仿倍看挫捐哗沁俐驯走傅善柞藐搪恭蓝蹬逝艰迫蛮粘耳要吵鸦袋蛙菏汤逮拇嗣泞绞曳奠歪玛嫌再亥公蛋剩刁钡纪铃秒榴无劫到袱锻什料屯自姑揪箭拂煤哄箕处掩疼诸折疫格项旺枉纽氖搅赖喧紊忿衬尸温热厘螺瘟缔啪琢楼破郝哥剥胰弥稳钝放棘砷奏铅嘲捞另福压移雕郎窑冻沏闽促部篱涝席曙婆诌炬酋坞顾痰扎婆门搜金误丧揖三缸椅蚕扬簇独举炔姨酌使鼎铂韵从鄙陡弓救应妻憨尽冒菏菲

4、15.1综述基因和蛋白质不是独立的存在于细胞中这一事实已经越来越被人接受。在细胞中，基因和蛋白质是细胞通路和生化反应与加工过程的一部分，并且他们的功能建立在除了个人属性外的细胞环境中。相对地，在生物信息学中，注释的焦点已经从分配功能转移到与功能有关的独立蛋白质的功能中。（定义：两个功能相关的蛋白质是指这两个蛋白质共同参加细胞的合成过程。功能联系：存在于很多的细胞活动中，是指在信号转导通路中两个蛋白质的相互作用，比如说蛋白质作为酶参与相同的代谢途径，作为被调节的蛋白质或者调节另外蛋白质的蛋白质）从理论角度的观点看，本章涉及一些基本的与数据学习方法有关的问题，这些方法主要是统计学方法和机器处理数

5、据的方法，运用统计学和机器处理数据的方法具有高效，强表达力和说服力的作用，通过对这些数据的分析，将具有特殊生物学功能的区域进行合并。在机器学习方法中，有一个固有张力：即在PPI（蛋白质和蛋白质间的相互作用）的上下文预测中，很多敏感的预测需要越多的信息，比如说系统发生的信息等；更多有特殊功能蛋白质的预测需要更多的细节信息，比如结构信息等。因此提取隐藏在数据中的信息并且将不同来源地和不同水平的数据在保持灵敏性和特异性平衡的条件下转化为生物学知识是很重要的。这也就表明这一章的主要内容是：在主要部分以外的内容中获取更多的信息，然后返回来建立一个方法，这个方法仅仅需要主要序列的信息来做预测。为了这个目的

6、，现有的学习模式已经不能满足，新的技术和模型被开发出来，比如说应用转化式学习最小二乘法支持向量方式的学习，在充分统计学的ipHMMs中制定一个新的费舍尔得分来促进特征选择。特别的，我们着重从以下三个方面来推断和预测蛋白质的功能关系。1.进化的观点：提取和整合进化方面的方法和模型，如距离矩阵和系统发育谱。信息量和系统发育树的拓扑结构之间的关系被用来学习和利用以供数据规则化的使用。作用机制被设计用来发现不标准的进化事件，比如说基因水平转移，并且它的含义对PFL（蛋白质功能联系）的预测做出了合理的解释。2.结构的观点：结构方面的信息，比如说邦定残留被纳入模型，这样可以用于PFL的预测，尤其是PPI

7、，对那些没有结构信息的蛋白质。特征选择被开发和利用在识别结构和功能特征以及提出有效的淘汰基因突变建议。3.网络的观点：预测细胞间相互作用的方法和模型涉及多种蛋白质，并且需要结合网络环境的图论的方法。在生物信息学和计算生物学中，最新的计算方法主要是一下两种类型中的一个。1.ab initio：即运用分子动力学的第一原则来解释和预测生物分子过程。一个典型的例子就是ab initio方法在蛋白质折叠问题上的发展。2.表观现象：通过与功能相关的结构域检测表型的特征，并且建立模型来从没有功能联系的结构域中将它们区分出来。尽管PFL的理念问题最终应该用ab initio的方法解决，但是总是缺少充分的信息来

8、将这些问题与分子动力学的解决方案联系在一起，或者即使这些信息是可供使用的，计算机也超过了他的最大内存容量。总的来说，像其他许多生物信息学的方法一样，为PFL开发的方法也属于表观现象的这一种类。从某种意义上来说，在将两个分子结合在一起的静电位的计算上，我们没有下去一个水平，相反的，我们仍然保持在一个相对较高的并且有象征意义的水平上，在提取蛋白质作为一个序列中，用20个字母表示20种氨基酸，试着从不同的来源的蛋白质中提取可利用的信息，这些信息可以用于基因组测试，也用于在蛋白质的X射线晶体结构中残留位置的确定。比如说：如果知道这一组蛋白质有相同的功能，我们可已将他们的主要序列对齐，来观察他们相同的特

9、征。由于生物的进化，比如说在进化过程中这些蛋白质中的一些发生了突变，而且这些突变一直保持着，那么这个序列就不是完全相同的。另一方面，这些结构和功能的区域相对来说是稳定的，并且在序列比对中这些序列也会表现出高度的相似性。在已知功能的区域，可以在这些蛋白质区域构建概率模型，然后用不知道功能的蛋白质来识别这些区域。这样简化了的方法表明了一种典型的逻辑上很本质的被许多生物信息学分享的方法，在基因组和蛋白质组学中，这种方法在缺乏各种高通量计术产生巨大数据量的情况下，提取数据是非常的有用和高效。15.2 生物背景和动机高通量技术的新发展，使得我们可以在大量的细胞和在生物反应的环境下研究分子实体成为可能。比

10、如说：基因芯片技术可以同时的测试成千上万的基因的表达水平。在不同的条件下和不同的时间点下检测基因的表达可以对分子机制基本的过程有深刻的理解，比如说基因调节。结合二维凝胶和质谱仪的方法，在直接测量蛋白质的表达水平中是一个很先进的方法。然而，没有有效的高通量技术方法对直接的观测PFL有效，比如说，两个蛋白质相互作用的方法，如Y2B系统（当前分类中的一种方法），就有很多的错误。由于这些困难和由实验方法造成的高成本，使得开发一个高效的计算方法来从成千上万的数据中推断它们的功能联系越来越紧迫。这些数据要么来直接源于高通量技术产生的实验中，要么来源于包括DNA和蛋白质的数据库(SwissProt和Genb

11、ank)，功能数据库（PDB，SCOP和CATH），进化研究（系统发育谱），表达谱，KEGG，和一些文献中。预测PFL是一个高度困难的任务，因为它要考虑到很多方面的因素。为了提高问题的复杂性，我们将PPI作为一个例子。即使两个蛋白质可以在物理方面相互作用，但是实际上他们是否有相互作用取决于这两个蛋白质在同一时间是否处于细胞中的同一位置。两个蛋白质是否相互作用的核心问题最终基本上是被生物物理学和生物化学的研究决定的：即是否将这两个蛋白质绑定在一起有互补的有利作用。当两个蛋白质相互作用时，参与相互作用的残余物（一般在分子的表面）形成了一个域。如图15.1所示，该图表示两个相互作用的蛋白质间的结构相

12、容性，其中黑色突出的区域表示相互作用的表面，边界层的区域是很突出的。这样的区域作为结构和功能的单位出现在所有具有相同结构或功能的蛋白质中，控制着独特的性状。换句话说，这些区域是这些功能或结构的决定性区域，因此用术语“结构域”来表示他们之间的关联。在研究蛋白质的相互作用中，有两个主要的任务：其中一个是识别残余物或者涉及交互的其他结构域。另一个问题是预测相互作用的其他蛋白质。在这里，我们用物理间相互作用的两个蛋白质作为一个例子，结构域的概念适用于具有特定功能的蛋白质中，同时也适用于功能间的联系。也就是说，功能相关的蛋白质很可能通过与他们相关的结构域识别，尽管他们之间很少有直接的关系，或者它们之间的

13、关系很微妙。图15.1蛋白质与其所行使的功能之间一个微妙的联系是通过所谓的系统发育谱来研究的。有很所问题，比如说为什么蛋白质的功能和结构区域需要保持它们的序列组成，同时与功能相关的蛋白质在进化过程中也会发生变化，结果就是与该功能相关的其他蛋白质也会发生变化，最终达到了共同进化的作用，因为一个蛋白质不可能在没有其他蛋白质相互作用的条件下独自正确的发生作用。图15.2表明了一个蛋白质变化导致其他蛋白质的变化，最终达到共同进化。在较高的层次，蛋白质的进化史是作为一个系统发育图谱表示出来的，在这系统发育图谱中，每一个成分都符合一个特定的基因组，并且或给它取值为0或1.其中1表示在该基因中存在同源基因，

14、0表示不存在同源基因。如果两个蛋白质共同进化，他们的系统发育图谱将会通过相似甚至于完全相同的方式反映这个事实，如图15.3。为了解决共同进化问题产生的分歧，已经开发了很多的方法。比如说：拥有完全相同的系统发育图谱是很需要的，因为蛋白质在基因中的存在或者不存在不总是100%可靠的，因为判断蛋白质在基因中是否存在是建立在通过对蛋白质序列和基因序列做blast的基础上。因此基于这样严格标准的方法很可能会将两个相互作用的蛋白质预测为没有相互作用的蛋白质，导致一个错误的结果（FN）。即使用不同的方法，多结构域的蛋白质，在声明他们的蛋白质存在与否方面也会增加这个任务的难度。图15.2图15.2解释：蛋白质

15、相互作用中的共同进化，相互作用涉及到在缬氨酸和丙氨酸之间形成氢键。在其中一个蛋白质中，缬氨酸中一个基因发生突变，导致缬氨酸形成异亮氨酸并且使缬氨酸和丙氨酸之间的氢键破坏。同时这个突变也使与缬氨酸相连的丙氨酸形成亮氨酸，因为亮氨酸和异亮氨酸也可以形成这种反应所需要的氢键。并且这种突变在以后的进化中一直保持了下去。图15.315.3计算方法推断PFL，预测PPI已经变成逆向工程生物网络的主要任务，并且在毒品的设计和交易中有很实际的应用。像DNA芯片和Y2B这样的高通量实验方法仍然是非常昂贵的，并且会间接的产生一些不可靠的数据，因此需要一些计算的方法来补充它。在现在的这种环境下，大力发展一个能够高精

16、度的预测PPI并且推断PFL的方法是有很多有利条件的。15.3.1 在进化的信息中预测蛋白质与蛋白质之间的功能（PFL）自从在20世界90年代后期第一次提出功能注释的概念后，为了实现利用共同进化的信息来找到与它们功能相关的蛋白质这一想法，科学家们已经付出了很多的努力。其中一个方向是，提取出有代表性的共同进化的信息，另外一个方向就是开发一个更强大的计算工具来分析这些数据。最初的系统发育谱是二进制的值，用1和0来代表参照基因中同源蛋白质的有无（其中1代表有同源蛋白质，0代表没有同源蛋白质）。然后用实际的值来判断他们同源的概率特性同时也避免了信息的损失。为了更好的解决多区域蛋白的问题，开发了一个用结构域或者残余量的信息做序列比对，然后构建系统发育图谱的方法。为了更精确的捕获PFL的原因，系统发育图谱进一步的推到包括直系同源蛋白质和以及这些参照基因的系统发育系统。这些关于蛋白质共同进化的丰富的信息需要更复杂的方法来挖掘他们的关系并且做出正确的预测。在这一方面研究的努力主要集中在测量他们的“

展开阅读全文