一种融合表达谱相关性信息的激活子网辨识算法

上传人:s9****2 文档编号:498042848 上传时间:2023-05-24 格式:DOC 页数:10 大小:1.65MB
返回 下载 相关 举报
一种融合表达谱相关性信息的激活子网辨识算法_第1页
第1页 / 共10页
一种融合表达谱相关性信息的激活子网辨识算法_第2页
第2页 / 共10页
一种融合表达谱相关性信息的激活子网辨识算法_第3页
第3页 / 共10页
一种融合表达谱相关性信息的激活子网辨识算法_第4页
第4页 / 共10页
一种融合表达谱相关性信息的激活子网辨识算法_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《一种融合表达谱相关性信息的激活子网辨识算法》由会员分享,可在线阅读,更多相关《一种融合表达谱相关性信息的激活子网辨识算法(10页珍藏版)》请在金锄头文库上搜索。

1、研究报告Research Papers生物化学与生物物理进展Progress in Biochemistry and Biophysics2010, 37(2): 一种融合表达谱相关性信息的激活子网辨识算法*李非 1) * 伯晓晨 2) *李鹏 2)虞朝辉 3)彭宇行 1) *王升启 2) *(1) 国防科学技术大学计算机学院,并行与分布处理国防科技重点实验室,长沙 410073;2) 军事医学科学院放射与辐射医学研究所,北京 100850;3) 浙江大学医学院附属第一医院,杭州 310003)摘要 传统表达谱数据分析方法集中于寻找差异表达基因和共表达基因集合,没有考虑基因表达产物之间已知的相

2、互作用近年来在系统生物学的研究中发展了将基因表达谱与蛋白质相互作用网络进行整合分析的方法现有方法未能综合考虑基因 表达差异性和相关性信息,容易导致辨识结果中重要功能分子缺失且生物学功能相关度不高提出一种融合表达谱差异性和相关性信息的激活子网辨识算法,能够在蛋白质相互作用网络中辨识高功能相关度的激活子网应用到人免疫缺陷病毒HIV-1 感染过程的研究,结果表明,该算法可以有效避免仅考虑基因表达差异性所引入的偏差,揭示了高相关性低表达差异 基因在相关通路中的关键性作用关键词 激活子网,表达谱,模拟退火算法,最大生成子树学科分类号 Q71,TP39DOI: 10.3724/SP.J.1206.2009

3、.00519随着微阵列技术及相关产业的高速发展,基因表达谱已经成为分子生物学中重要的高通量研究手 段,高通量基因表达谱数据的积累随之迅速增长 这些基因表达谱数据反映了基因在不同实验条件下 的转录水平,通过后续的数据分析可以辨识参与关 键生物过程的基因和相关通路,也可预测未知基因 的功能和基因之间的转录调控关系传统的表达谱 数据所使用的分析方法主要集中于两个方面:a 基于统计假设检验寻找显著差异表达基因;b基 于相关性聚类算法寻找共表达基因集合前者用于 辨识潜在功能相关基因,后者用于挖掘功能相关的 基因模块这些分析方法强调了基因表达谱的数值 关系分析,没有考虑基因表达产物之间已知的相互 作用,在

4、一定程度上脱离了通过实验方法获得的大 量基因调控知识基础,虽然有助于发现新的调控 关系,但同时也不可避免地带来了大量的假阳性 结果由于蛋白质、功能 RNA 等基因表达产物之间 存在着复杂的关系,而这种关系本身又受到时间和 空间约束,事实上,在一定条件下往往只有少数基 因表达产物的相互关系被激活基因表达谱的本质 就是特定的基因网络在一定时空约束下的表现基 于这种观点,近年来,在系统生物学的研究中发展了将基因表达谱与蛋白质相互作用网络进行整合分析的方法1-12,以期在已知的蛋白质相互作用网络 中辨识在特定条件下发生的相互作用关系子集,即 激活子网13-17 (active subnetwork)

5、在不同的文献 中,该相互作用子集也被称为激活通路18-19(active pathway)、 应 答 功 能 模 块 20 (responsive functional module)、 条 件 应 答 子 网 21 (condition responsive subnetwork)等Ideker 等15利用模拟退火搜索算法寻找包含显 著差异表达基因的激活子网,并应用于酵母应激反 应和 HIV-1 感染过程的分析,揭示了一些关键的通 路类似的,Sohler 等22从初始蛋白集合扩展搜索 包含显著差异表达基因的激活子网上述方法由于 仅使用基因表达差异性对蛋白质进行筛选,并不对蛋白质相互作用进行筛

6、选,可归为点赋权的最大子* 国家重点基础研究发展计划(973)(2005CB321801)和国家自然科学基金(30600281)资助项目.* 共同第一作者.* 通讯联系人. Tel: 0731-4574888彭宇行. E-mail: 王升启. E-mail: 收稿日期:2009-08-31,接受日期:2009-12-10图搜索问题,因此也称为基于点的激活子网搜索方较高的相关性,但这类蛋白质相互作用广泛参与各法(vertex based methods)由于基于点的激活子网搜索方法仅采用基因的 表达差异性作为评价子网激活度的准则,忽略了某 些相对表达差异不显著,但在相关过程中发挥关键性作用的

7、基因,如转录因子或信号蛋白等针对上 述问题,Ideker 等15提出一种通过修正搜索过程中 子网扩展方法以改进搜索结果的方法若子网中某 基因在网络中具有较多邻居基因,属于 Hub 节点, 则子网自动扩展以包含该基因的邻居基因该方法 避免了如下情形的出现,即网络中连接多个显著表 达差异基因的 Hub 节点,仅由于自身表达差异不 显著而无法被包含在激活子网中,从而间接导致与 其相连的显著表达差异基因无法出现在最终的激活子网中这种修正方法本质上是通过该基因与其他 表达差异显著基因的连接关系修正其差异性评价, 但由于该方法是针对某些搜索结果作局部偏差修 正,缺乏普遍适用性,可能在一些情况下引入假阳 性

8、结果此外,在基于点的激活子网定义中,已知 的相互作用网络中的基因被认为都参与了实验相关 的功能通路活动,但事实上,数据库中已知的相互 作用网络是基因编码产物在各种条件下可能发生相 互作用的综合图谱,而在某个特定过程中,基因之 间的相互作用并非都被激活,原则上激活子网的相关性评价应只包含激活的相互作用子集合另一种方法是使用基因表达相关性对蛋白质相 互作用进行筛选,可归为边赋权值的最大子图搜索 问题,称为基于边的激活子网搜索方法(edge based methods)研究表明,基因表达相关性与其相互作 用关系参与的生物功能有着密切关联23Han 等利 用基因表达水平的相关性对癌症与衰老问题进行了

9、讨论1, 13,结果表明,基因表达相关性可以用于辨 识参与细胞分裂与分化的相关功能模块可以认为 基因之间表达水平相关性越强,其相互作用激活度 越高,参与相关反应的可能性越大Guo 等21提出 以基因表达协方差相关系数作为网络中蛋白质相互 作用的权值,通过模拟退火搜索算法寻找对应权值 较大的连通子网作为激活子网基于边的激活子网搜索方法有效包含表达差异 不显著但作用关键的基因,其结果反映了参与特定 生物过程的蛋白质相互作用子集但由于基因表达 谱较之一般的时间序列要短得多,表达水平之间的 相关性可能包含较多的随机成分此外,维持细胞 正常运转的必要过程涉及的蛋白质相互作用也呈现种生物过程,并不与某生物

10、过程或实验条件存在特异性的相关因此,有效的激活子网搜索方法应综合考虑基 因表达差异性和基因表达相关性,搜索结果应与相 关实验条件具有一定的特异相关性,同时包含表达 差异不显著但在相关过程中发挥关键性作用的基 因本文提出一种新的激活子网辨识算法,结合各基因的表达差异性和基因之间的表达水平相关性,建立激活子网的综合辨识准则,有效减少辨识过程中的假阳性结果,并且能够获得由完整的关联信息 所揭示的通路信息为验证算法有效性,我们将建立的激活子网辨 识算法应用于人免疫缺陷病毒(HIV-1)感染过程的 研究,基于人类蛋白质相互作用网络,利用 HIV-1 感染相关表达谱,辨识得到 HIV-1 感染相关的宿 主

11、蛋白及其相互作用子网结果表明,由于评价指 标融合了基因差异性和相关性所揭示的表达水平信 息,有效避免仅考虑基因表达差异性所引入的偏 差,揭示了高相关性低表达差异基因在相关通路中 的关键性作用材料与方法111 数据集人类蛋白质相互作用网络来自 HPRD 数据库(Human Protein Reference Database) 24, 版 本 为20070901,共包含 19 418 个基因,37 107 个相互 作 用 基因表达谱数据来自 GEO 数 据 库 (GeneExpression Omnibus)25,登记号为 GSE9927,实验 采用 Affymetrix Human Genom

12、e U133 Plus 2.0 Array 芯片,共有 54 675 个探针数据点实验包含 20 个 实验样本,其中 9 个样本采自正常 HIV-1 阴性人 群,11 个样本采自 HIV-1 阳性人群,数据详细 描述参见 http:/www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc =GSE9927表达谱数据经过标准化处理,并与人类蛋白质相互作用网络整合,去除在相互作用网络中无对应产物的基因以及在表达谱中无对应 相互作用数据的基因后,得到 HIV-1 感染相关的 宿主蛋白相互作用网络,共包含 8 545 个基因,32 913 个相互作用整理后的相互作用网络数

13、据和 相关表达谱数据见 http:/ data.csv结果分析中使用到的 HIV-1 与人类蛋白质之 间的相互作用 数 据 来 自 HIV-1, Human Protein生物化学与生物物理进展210Prog. Biochem. Biophys.2010; 37 (2)Interaction Database26,HIV-1 相关通路来自 PID数据库(Pathway Interaction Database) 27,蛋白质功能 注 释 来 自 GO 数 据 库 (Gene Ontology) 28, 使 用 BiNGO29工具进行功能富集分析Ideker 激活子网 的计算采用 Cytosca

14、pe30插件 jActiveModule15完成.布趋势,即如果将同一子网内嵌到不同的网络结构中,其取值可能不同使用校正后的相对值能够为 不同网络规模建立一致的评价指标,并且通过对具 有显著差异性或相关性的子网赋予较高的评价值, 能够有效引导搜索过程,提高搜索效率子网表达相关度的计算方法方法本文提出的激活子网辨识方法的目的在于寻找 包含具有显著差异表达性且显著表达相关性的基因 子网,方法分为两个步骤:a建立激活子网的定 量评价方法;b在基因相互作用网络中搜索评价最优的激活子网设 G=(V, E)表示基因相互作用网 络,V 为网络 G 中包含所有基因 vi 的集合,E 为网 络 G 中包含的所有

15、相互作用 eij 的集合,其中 eij 表 示基因 vi , vj 之间的相互作用M=mij为基因表达谱数据矩阵,其中 mij 表示基因 vi 在第 j 组实验条 件下的转录表达水平为建立子网激活度的评价指标,首先计算基因表达差异度和相关度,然后计算 子网的差异度和相关度,最后寻找具有显著差异性 和相关性的子网作为激活子网12122基因 vi , vj 之间,基因产物之间相互作用的表达相关度 Rcorr(eij)的评价,基于基因 vi , vj 在不同实 验条件下表达水平变化相关性基因 vi , vj 表达水平变化相关性强度的定义可 基于皮尔逊相关 (Pearsons correlation) 指标或其他非参数相关性指 标来计算基因相互作用网络中包含许多可能发生 的相互作用,通常仅有一部分相互作用直接参与相 关实验过程由于我们希望通过表达谱数据挖掘特 定实验过程相关的激活子网,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号