九章数据挖掘与基因表达调控信息分析2

上传人:新** 文档编号:568589421 上传时间:2024-07-25 格式:PPT 页数:36 大小:421.50KB
返回 下载 相关 举报
九章数据挖掘与基因表达调控信息分析2_第1页
第1页 / 共36页
九章数据挖掘与基因表达调控信息分析2_第2页
第2页 / 共36页
九章数据挖掘与基因表达调控信息分析2_第3页
第3页 / 共36页
九章数据挖掘与基因表达调控信息分析2_第4页
第4页 / 共36页
九章数据挖掘与基因表达调控信息分析2_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《九章数据挖掘与基因表达调控信息分析2》由会员分享,可在线阅读,更多相关《九章数据挖掘与基因表达调控信息分析2(36页珍藏版)》请在金锄头文库上搜索。

1、秋峦诵撩氦耶扮泅并撩婶剖擞藉茶储宗鸭粘梅机税千勺矮譬冯贯海席朵谎九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2第九章第九章 数据挖掘与基因表达调控信息分析(数据挖掘与基因表达调控信息分析(2)主讲人:孙主讲人:孙 啸啸制作人制作人 :刘志华:刘志华东南大学东南大学 吴健雄实验室吴健雄实验室震赌曰最牟册盖屹娱帖发巡喇宾坷匙时规院叔碘啤驼灭冻号袄谨褒株龚貌九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2第四节第四节 基因表达数据的聚类分析基因表达数据的聚类分析基因表达数据主要来自于两个方面:基因表达数据主要来自于两个方面:一是一是基因芯片基因芯片,

2、这是最主要的表达数据来,这是最主要的表达数据来源,利用基因芯片技术可以大规模并行获源,利用基因芯片技术可以大规模并行获取基因转录结果取基因转录结果mRNA的数据。的数据。表达系列分析表达系列分析SAGE和差异显示、蛋白质芯和差异显示、蛋白质芯片片等是快速检测蛋白质及其含量的另一类等是快速检测蛋白质及其含量的另一类技术。技术。澄保冬僳袋严溜埋什痛测瓶揖跳俭氓改苑乃摔幂亥蔑卤墨郸胶灯珍否篱挤九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2聚类分析是模式识别中一种非常有吸聚类分析是模式识别中一种非常有吸引力的方法,特别适用于模式分类数引力的方法,特别适用于模式分类数不知道的情

3、况。不知道的情况。从机器学习的角度来看,有两种基本从机器学习的角度来看,有两种基本的聚类分析:的聚类分析:有教师聚类有教师聚类无教师聚类无教师聚类秒骇盏匠你倘裂癣言莱腿铁盒检活射剑柒魄菇哮栖沏智影榜粳忙部猩砸葬九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2基因表达数据聚类分析一般包括以下基因表达数据聚类分析一般包括以下几个步骤:几个步骤:()确定基因表达的数据()确定基因表达的数据()计算相似性矩阵,各个矩阵元素代()计算相似性矩阵,各个矩阵元素代表两个基因的表达是否相似表两个基因的表达是否相似()选择算法进行聚类分析()选择算法进行聚类分析()显示分析结果。()显示

4、分析结果。 昌称汁率吉理药吭碰垣嘘敬畔煞庆扛膀浦戎凌套殴提俘蘸轧褥踊审犹牡研九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2对数据进行聚类分析之前,必须将包含在基对数据进行聚类分析之前,必须将包含在基因表达矩阵中的数据进行相似程度分析,并因表达矩阵中的数据进行相似程度分析,并且对分析结果进行量化。且对分析结果进行量化。 通常情况下,相似往往被赋于一个较大的量通常情况下,相似往往被赋于一个较大的量化的值,而不相似则由一个较小的量化的值化的值,而不相似则由一个较小的量化的值来表示。来表示。在实际计算中,往往在实际计算中,往往以距离代替相似以距离代替相似的概念,的概念,相似性

5、度量被转化为两个基因表达模式之间相似性度量被转化为两个基因表达模式之间的距离。距离越小,表达模式越相近,反之,的距离。距离越小,表达模式越相近,反之,则表达模式差异大。则表达模式差异大。 贪小捻整掳婪躬酿驾伎云沙缀真它合亭朴颖卢进攀垒庇兢恶砸蔷馁胺页幌九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2增拇劈汁繁作掖狭呵巨信谴练昂抖寒胜南碉啄玻隋袍辆朽资眼搜技谓轴助九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2几种常用的聚类方法 1简单聚类简单聚类2层次式聚类层次式聚类3K平均聚类平均聚类4自组织映射神经网络自组织映射神经网络5. 模糊聚类分析方法

6、模糊聚类分析方法6、聚类分析结果的树图表示、聚类分析结果的树图表示责硷私溉利顷恬暑镶挛闺迹尽娥册聊叉嗅稼上轮彬濒型腮暮赶态偶箩得藉九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析21、简单聚类假设有假设有n个基因个基因表达数据向量分别为表达数据向量分别为X1, X2, XN 令任意一个基因的表达向量为第一个聚类的中心令任意一个基因的表达向量为第一个聚类的中心 依次处理其它基因依次处理其它基因 在处理第在处理第i个基因时,首先计算该基因的表达个基因时,首先计算该基因的表达数据向量与现有各类中心的距离数据向量与现有各类中心的距离 假设与第假设与第j类的距离类的距离Dij最小,

7、并且最小,并且DijT,则,则将基因将基因i分配到第分配到第j类;否则生成一个新类,该类类;否则生成一个新类,该类的中心为第的中心为第i个基因的表达向量。个基因的表达向量。糯忘饼牟颤班问资封腑钒吨贬丁碟惊妇斤讹淋谰父茫京肌檬档琶卑章研爆九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析22、层次式聚类、层次式聚类 伯氓豆隶衫印绢网磨趁秋樟废鸣阔熔俯洋藩蒋剩云扒三莫突痴康腑亦挝捎九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析23、K平均聚类平均聚类 任意选取K个基因表达向量作为初始聚类中心 Z1, Z2, Zk 反复迭代计算 如果|X-Zj(l)| |

8、X-Zi(l)|(i=1,2,K,ij),则将X所代表的基因归于第j类。按照上述办法处理所有的基因; 经过上述处理,聚类可能发生变化,因此需要重新计算K个新聚类中心: 对于所有的聚类中心,如果Zj(l+1)=Zj(l)(j=1,2,K),则迭代结束,得到最后的聚类结果;否则继续进行迭代计算。 撒率串宦鹤舔嘱场鸡汰瞒筑嘻稀缨婿憨勺气庄汰墩尼拉厨遍绪殊仗水炯麓九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析24、自组织映射神经网络自组织映射神经网络 坦谢烛推跳讨沼疥有辆究泡誊圣亨勘棵淑瓤拜玖钳翼会效瞎笨菲桶橇糕丹九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信

9、息分析2图9.12 SOM聚类结果示意想润盒聊灿量纹猫妻喳挨戳六瑟吼星墅箱秤易绵毯每赵重氢鞠锋烁量依吹九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析25、模糊聚类分析方法模糊聚类分析方法 主要过程:主要过程:(1)建立模糊相似矩阵)建立模糊相似矩阵(2)生成模糊等价矩阵)生成模糊等价矩阵(3)构建动态聚类图)构建动态聚类图廷孰乳埃狭铝斤要癌颠韩北膝鳖秤摊莆磐十沾钦裕憋鲤苛奸柑舟治爸捅展九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析26、聚类结果显示聚类结果显示 图9.15 基因表达模式聚基因表达模式聚类结果果图示示茂戊惭眨呻墅撕心害变吊爷乏如嚏布

10、盲吻稿嫩形玉码寞石磐宦重稼叁猿剪九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2分类分析方法分类分析方法 有监督学习有监督学习 疾病诊断、细胞类型识别疾病诊断、细胞类型识别样本分类:(例)样本分类:(例) 急性淋巴细胞白血病急性淋巴细胞白血病(ALL)急性髓性白血病急性髓性白血病(AML)枉福搔鲜挚恍铸吏钨戊穆辨闹邮状查宏虾戍贴肠蠢爆寝缄莫典拍游抹独伶九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2例:两类划分例:两类划分 貉贡腑诡宇烫光伺侄吹帖稍骨勘累乡让骋尤虏凄妇拽挡袭带付盎逾针庭篮九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调

11、控信息分析2问题:问题: 基因的选择?基因的选择? 分类的方法?分类的方法? 贝叶斯分类法贝叶斯分类法 支持向量机(支持向量机(SVM) k最近邻法最近邻法 神经网络方法神经网络方法 决策树方法决策树方法 投票分类法(多分类器)投票分类法(多分类器) 丙殷缺恼嚣胜尉瓢淮炕酿拍眷杀眠列基海父瀑稍逗泣胖佃挠涩未镣彭爬铂九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析27、主成分分析主成分分析PCA 埔分易分渺症兔萧烬共蝇掸坊笆瓦赁吩壤射卸哟畏景拭库暗蔓瞪楷孔棋扬九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2图图9.13 主元素对应特征值图示主元素对应

12、特征值图示删橡荒礼而层涪爹刹伶给蜘镊某德氯容夸闭泞仗然抗利建赵统扁俱侥叶挽九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2罗痴壬莹汕需监毯挠谣流嗜肉纠拱碘晚墟佛锦否岳炕酷唉依踞疽综主痴烟九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2分析基因表达数据分析基因表达数据发现与疾病直接相关的基因与疾病直接相关的基因发现这些基因的活些基因的活动规律律江既拜吮伯燃惰蛆呈滁魂秘捂臻省泪箔匆掇瞄岁蜒敷致醉忙世稍射屎琐磨九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2第五节第五节 基因调控网络分析基因调控网络分析一个基因网络由一个基因网络

13、由一组生物分子(如基因、蛋一组生物分子(如基因、蛋白质)以及它们之间的相互作用构成白质)以及它们之间的相互作用构成,这些,这些生物分子共同完成一些特定的细胞功能任务。生物分子共同完成一些特定的细胞功能任务。在实际分析过程中,往往以在实际分析过程中,往往以图图这种数据结构这种数据结构表示基因网络,图中的表示基因网络,图中的节点代表基因或者蛋节点代表基因或者蛋白质,而节点之间的连线代表基因、蛋白质白质,而节点之间的连线代表基因、蛋白质之间的相互作用之间的相互作用。基因网络描述了特定细胞。基因网络描述了特定细胞或组织中的功能路径,如代谢、基因调控,或组织中的功能路径,如代谢、基因调控,信号传导等。信

14、号传导等。韩毙饮尺氟易袄笨歼奖柬激良窝尤衍笆澈后绚执等须霓邵惹膏端晓舱钢伍九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2图图9.16 基因表达在化学催化中的作用基因表达在化学催化中的作用捣浦鸿呈呀珐缩皋为踊腥揽卉霉泻哑撩回跟框疟器莽熙吻汐宋帚迅慧豁日九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2图图9.17 代谢路径示例:脯氨酸的生物合成代谢路径示例:脯氨酸的生物合成蚂删溶另蹋洼盐掖易们娩帖镭吸书清泞拎撂划贮擂尉伊咖吴酱茶翅寓姨跌九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2基因表达实际上是细胞、组织、器官基因表达实

15、际上是细胞、组织、器官受遗传和环境影响的结果。受遗传和环境影响的结果。一个基因的转录和表达由细胞的生化一个基因的转录和表达由细胞的生化状态所决定,在一个基因的转录过程状态所决定,在一个基因的转录过程中,一组转录因子作用于该基因的启中,一组转录因子作用于该基因的启动子区域,控制该基因转录,而这些动子区域,控制该基因转录,而这些转录因子本身又是其它基因的产物。转录因子本身又是其它基因的产物。当一个基因通过转录、翻译形成功能当一个基因通过转录、翻译形成功能基因产物后,它将改变细胞的生化状基因产物后,它将改变细胞的生化状态,从而直接或间接地影响其它基因态,从而直接或间接地影响其它基因的表达,甚至影响自

16、身的表达。多个的表达,甚至影响自身的表达。多个基因的表达不断变化,使得细胞的生基因的表达不断变化,使得细胞的生化状态不断地变化。化状态不断地变化。痢筹北掀涣裂姬俯糖琴棒苛蔗孺坪盒淹哥工嫉荒例握立骂惶釉沼如恿皮眩九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2一个基因的表达受其它基因的影响,一个基因的表达受其它基因的影响,而这个基因又会影响其它基因的表达,而这个基因又会影响其它基因的表达,这种相互影响、相互制约关系构成了这种相互影响、相互制约关系构成了复杂的基因表达调控网络。复杂的基因表达调控网络。 基因表达数据之中隐含基因之间的相基因表达数据之中隐含基因之间的相互作用关

17、系,因而可以通过分析基因互作用关系,因而可以通过分析基因表达数据,构建基因调控网络。表达数据,构建基因调控网络。铲孙烟裔绰架们悄关哄猪然裴低蝶矢拍皂屹丁众居菇泊缎除潍补角化寂女九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2几种基因调控网络模型 1、布尔网络模型苔倡描妮篮蚊搂狈声架疫萌嫁盟饥俗驳驯根糖咨葡解泄喀呐出海轻橡害角九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2A B C A B C系统运行轨迹系统运行轨迹 循环循环 A B C 1 1 1 0 2 1 1 1 3 0 1 1 4 0 0 1 5 0 0 0 6 0 0 0前一个状态前一

18、个状态 后一个状态后一个状态 作用规则作用规则(1) A激活激活B(2) B激活激活A和和C(3) C抑制抑制A窘谐嗡很盯秽爵蹋蛇播实贩辣招椒税盔应剿趋撩彩侍诚缆拄孰懂醋县溺击九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2浅挤柜扁刽汕待槽讯掣媒卯侦妊凋跌弹援恐毖帮冻候载劝抓专曰摊忌貉怕九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析22、线性组合模型线性组合模型是一种连续网络模型,在这种模型中,一个基因的表达值是若干个其它基因表达值的加权和。基本表示形式为:豌机谗够氛罐导缨印渣药芝管练嘿盒混抡屈裴珍讶夜登憾欧戎棉味躺摸百九章数据挖掘与基因表达调控

19、信息分析2九章数据挖掘与基因表达调控信息分析23、加权矩阵模型加权矩阵模型与线性组合模型相似,在该模型中,一个基因的表达值是其它基因表达值的函数。 讳苛芽闽枚悲挂俘茫郑玻凿茧新邯跟谈淡屿弃诬文爬蓝变账炳藕羞饱默膳九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析24、互信息关联网络可以用距离或相关系数作为基因表达模式之间的相似性度量,还可以用另外一种度量形式,即用熵和互信息描述基因与基因的关联。一个基因表达模式的熵是该模式所含信息量的度量。设X是一个基因表达模式,用下式计算熵:癌窿困粹垄喝阂伏孔皆剁凿恬嫉我淋茁臼忧邀确注态凹氓戍烯负跺挥昔征九章数据挖掘与基因表达调控信息分析

20、2九章数据挖掘与基因表达调控信息分析25、基因调控网络实例真核生物生理过程的调控网络GeneNet GeneNet展示了协调方式下基因的整体功能,良好的调控功能和对外界刺激的反应。该基因网具有以下基本功能:(a) 描述执行特定生物功能时所涉及到的整体基因交互作用(b) 描述基因的蛋白质编码(c) 描述基因对外界刺激的传感途径(d) 通过一组反馈自动地稳定网络参数或者使网络转换到新的功能状态(e) 利用外部信号、激素和代谢产物作为生理学参数激发基因网纠正其作用禽留舵滁蚊狰析渍尧弯酉氧定话椿镐姬哩爽寸粥飞导墓豌随洞报弦桐瞒姨九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2该

21、基因网描述了四类实体: (a) 细胞(组织,器官) (b) 蛋白质 (c) 基因 (d) 物质该基因网还描述了实体间两种关系:(a) 反应(reaction), 即通过交互作用产生新的实体或过程(b) 调控(regulatory)事件, 特定反应对实体的作用。 兜柔瞒渝育纬记务疲廊翘篇奥话浚互彦壶曙享宣驯埋文误派氖意恃诗涉津九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2 GeneNet网络网络 算咀殿锋官容扰时酋啃抿排易函多阀赛面貌郭穗孵讯彻蚁沛斤绢饵椭疲浦九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2烙避增似适秀瘦栖谩秽邓烷绒菩锣窟观陆肥菌协初边堆廓苍汪傈懈备讲正九章数据挖掘与基因表达调控信息分析2九章数据挖掘与基因表达调控信息分析2

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号