基因组岛的建模与识别-精品课程课件

上传人:m**** 文档编号:570180060 上传时间:2024-08-02 格式:PPT 页数:24 大小:2.22MB
返回 下载 相关 举报
基因组岛的建模与识别-精品课程课件_第1页
第1页 / 共24页
基因组岛的建模与识别-精品课程课件_第2页
第2页 / 共24页
基因组岛的建模与识别-精品课程课件_第3页
第3页 / 共24页
基因组岛的建模与识别-精品课程课件_第4页
第4页 / 共24页
基因组岛的建模与识别-精品课程课件_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《基因组岛的建模与识别-精品课程课件》由会员分享,可在线阅读,更多相关《基因组岛的建模与识别-精品课程课件(24页珍藏版)》请在金锄头文库上搜索。

1、 原核生物基因组岛的 建模与识别The detection Of Genomic Islands in Prokaryotic Genomes2010年7月北京师范大学数学科学学院北京师范大学生命科学学院生物信息实验室梁潇梁潇 曹莎曹莎 姜洁怡姜洁怡Directed by 林魁 毛永华.背景介绍背景介绍1研究计划研究计划2项目创新点项目创新点3其它说明其它说明4研究背景微微生生物物对对人人类类最最重重要要的的影影响响之之一一是是导导致致传传染染病病的的流流行行。在在人人类类疾疾病病中中有有5050是是由由病病毒毒引引起起。世世界界卫卫生生组组织织公公布布资资料料显显示示:传传染染病病的的发发病

2、病率率和和病病死死率率在在所所有有疾疾病病中中占占据据第第一一位位。微微生生物物导导致致人人类类疾疾病病的的历历史史,也也就就是是人人类类与与之之不断斗争的历史。不断斗争的历史。在在疾疾病病的的预预防防和和治治疗疗方方面面,人人类类取取得得了长足的进展。了长足的进展。但但是是新新现现和和再再现现的的微微生生物物感感染染还还是是不不断断发发生生,像像大大量量的的病病毒毒性性疾疾病病一一直直缺缺乏有效的治疗药物。乏有效的治疗药物。一些疾病的致病机制并不清楚。一些疾病的致病机制并不清楚。大大量量的的广广谱谱抗抗生生素素的的滥滥用用造造成成了了强强大大的的选选择择压压力力,使使许许多多菌菌株株发发生生

3、变变异异,导致耐药性的产生。导致耐药性的产生。人类健康受到新的威胁人类健康受到新的威胁一一些些分分节节段段的的病病毒毒之之间间可可以以通通过过重重组组或或重重配配发发生生变变异异,最最典典型型的的例例子子就是流行性感冒病毒。就是流行性感冒病毒。每每次次流流感感大大流流行行流流感感病病毒毒都都与与前前次次导导致致感感染染的的株株型型发发生生了了变变异异,这这种种快快速速的的变变异异给给疫疫苗苗的的设设计计和和治治疗疗造造成了很大的障碍。成了很大的障碍。而而耐耐药药性性结结核核杆杆菌菌的的出出现现使使原原本本已已近近控控制制住住的的结结核核感感染染又又在在世世界界范范围围内猖獗起来。内猖獗起来。幽

4、门螺杆菌幽门螺杆菌 Helicobacter pylori Helicobacter pylori 革兰氏阴性菌,幽门螺杆菌是人类至今革兰氏阴性菌,幽门螺杆菌是人类至今唯一一种已知的胃部细菌唯一一种已知的胃部细菌。由于长期的由于长期的溃疡,会导致癌症,是第一个可致癌的溃疡,会导致癌症,是第一个可致癌的原核生物。原核生物。铜绿假单胞菌铜绿假单胞菌 P.AeruginosaP.Aeruginosa原原称称绿绿脓脓杆杆菌菌, ,有有复复杂杂的的耐耐药药机机制制,影影响响肺肺部部及及泌泌尿尿道道,造造成成烧烧伤伤、伤伤口口及及血血液液感感染染,如如败败血血病病;亦亦会会造造成成肺肺炎炎。10%10%在

5、在医医院院感感染染的的病病症症都都是是由由绿绿脓脓杆杆菌菌所所引引致致的的。它它亦亦是是引引致致皮皮肤肤炎炎的的其其中中一一种细菌种细菌。鲍鲍曼曼不不动动杆杆菌菌 AcinetobacterAcinetobacter Baum Baum AnnieAnnie2020世世纪纪7070年年代代, ,鲍鲍曼曼不不动动杆杆菌菌几几乎乎对对所所有有抗抗生生素素都都很很敏敏感感。由由于于它它具具有有惊惊人人的的迅迅速速获获得得抗抗药药性性的的能能力力, ,目目前前已已对对多多种抗菌药物表现耐药种抗菌药物表现耐药。基因组岛的研究价值微生物的致病作用微生物的致病作用抗生素抗性抗生素抗性共生微生物的共生性共生微

6、生物的共生性外源性化合物的降解外源性化合物的降解基因组岛的进化起源基因组岛的进化起源基因组岛的删除基因组岛的删除基因组岛的插入基因组岛的插入机制机制基因组岛在菌株间的转移机制基因组岛在菌株间的转移机制何为基因组岛? 一般是指原核生物基因组染色体上一段具有有别于该基因组背景典型特征的DNA片段基因簇,具有移动元件的特征,如G+C百分比和密码子使用情况与宿主菌不同,其通常具有移动元件的特征,常含移动基因,可以在同种甚至于不同种菌株间水平转移。FEMS Microbiology Reviews Vol. 33, 2 Pages: 376-393.背景介绍背景介绍1研究计划研究计划2项目创新点项目创新

7、点3其它说明其它说明4.研究研究目标目标研究内容研究进度实验路线可行性分析预实验结果 项目的研究目标项目的研究目标 通过整合统计学、机器学习、比较基因组学等方法,设计并实现一个有较好性能的原核生物基因组岛识别分析系统。 项目的研究内容项目的研究内容1. 通过具有较高敏感性的方法寻找出待测基因组的基因组岛。2. 用统计分析的方法研究基因组岛边缘序列的结构特征及其局部区域相关关系,建立起更准确的识别基因组岛的马尔可夫识别模型。整合我们自己研究的原核生物基因组进化方法进行备选基因组岛的比较基因组学鉴定。3. 设计评价指标来评价所设计的系统,检验算法于模型的有效性及实用性。4. 利用基于Linux的M

8、ySQL数据库系统,PERL/C+编程以及Apache服务器实现整个系统并提供给相关科学家使用。 拟解决的关键问题拟解决的关键问题1.1.基于全基因组的基因组岛识别算法的优化模型建立基于全基因组的基因组岛识别算法的优化模型建立 2.2.识别的性能识别的性能( (准确性准确性) )评价评价 全基因组序列数据Z-curve处理数据比较基因组法初步识别基因组岛第一阶段系统发育进化关系第二阶段第三阶段第四阶段实验路线流程图待分析序列建立隐马氏模型(HMM)提取特征参数基因组岛区域第一阶段第二阶段第三阶段第四阶段最终优化方案MYSQL数据库编程实现整个系统第一阶段第二阶段第三阶段第四阶段基因组岛区域准确

9、性判断模型是否达到预设阀值?返回修改模型参数最终优化方案第一阶段第二阶段第三阶段第四阶段是否实验实验的可行性分析的可行性分析1 1 全基因组测序计划的实行,使我们通过互联网即可拥有可靠的全基因组测序计划的实行,使我们通过互联网即可拥有可靠的已测序的全基因组数据来源,如已测序的全基因组数据来源,如GenBankGenBank数据库检索系统:数据库检索系统:http:/http:/ncbi.nlm.nih.gov/genbank/query_form.htmlncbi.nlm.nih.gov/genbank/query_form.html。成熟的。成熟的WEBWEB程序及具体的数据、地址可在有关资

10、料上找到,这给了我们开程序及具体的数据、地址可在有关资料上找到,这给了我们开发相关程序很好的参考。发相关程序很好的参考。2 2 基因组岛识别研究的系统方法虽然还属于起步阶段,但基因识基因组岛识别研究的系统方法虽然还属于起步阶段,但基因识别从其初期的到现在已有多年,技术已相当成熟,与之相对应的别从其初期的到现在已有多年,技术已相当成熟,与之相对应的软件系统开发也很全面、系统。利用统计学以及机器学习技术改软件系统开发也很全面、系统。利用统计学以及机器学习技术改进基因组岛识别的系统的可操作性很强,在我们的研究时段内可进基因组岛识别的系统的可操作性很强,在我们的研究时段内可以顺利完成。以顺利完成。 成

11、果提供形式及初步预实验结果现有算法详细列表算法论文Islandpath/DIMOB(2005)William W L Hsiao, Korine Ung, Dana Aeschliman, Jenny Bryan, B Brett Finlay, and Fiona S L Brinkman. Evidence of a large novel gene pool associated with prokaryotic genomic islands. PLoS Genet, 1(5):e62, Nov 2005.原先是用来协助原核基因岛的识别。途径是通过可视化GI的几种共同的特点:例如序列组

12、成偏向,tRNA,整合酶和转座酶。这些特征可以用于决定GI的位置。SIGI-HMM(2006)Stephan Waack, Oliver K, Roman A, Thomas B, Carsten D, Wolfgang F.F, Katharina S, Peter M, and Rainer M. Score-based prediction of genomic islands in prokaryotic genomes using hidden markov models. BMC Bioinformatics, 7:142, 2006.这个算法利用了各分类的密码子使用的显著差异来识

13、别pA基因和预测它们可能的起源。(用HMM,Viterbi算法,有高度可靠性)MobilomeFINDER(2007)Mobilomefinder: web-based tools for Insilco and experimental discovery of bacterial genomic islands. Nucleic Acids Res, 35(Web Server issue):W97W104, Jul 2007.IslandPick(2008)MorganGILangille,WilliamWLHsiao,andFionaSLBrinkman. Evaluation of

14、genomic island predictors using a comparative genomics approach. B MC Bioinformatics, 9:329, 2008.使用比较基因组预测方法来建立严格的GI和非GI数据集,这些阳性和阴性的数据集被用来评价一些基于序列组成的GI预测方法。该方法可以自动选择用于比较的基因组,用户也可以根据子的的见解来选则。IslandViewer(2009)Morgan G I Longville and Fiona S L Brinkman. Islandviewer: an integrated inter- face for co

15、mputational identification and visualization of genomic islands. Bioinformatics, 25(5):6645, Mar 2009.整合了两种基于序列组成的的GI预测方法: SIGI-HMM 和 IslandPath-DIMOB, 以及一个比较基因组预测方法IslandPick.IslandPickIslandPick1Z-CurveZ-Curve2SIGI-HMMSIGI-HMM3其它说明其它说明4 BLASTBLAST(Basic Local Alignment Search Tool) 是一个用来比对生物序列的一级结

16、构(如不同蛋白质的氨基酸序列或不同基因的DNA序列)的算法。已知一个包含若干序列的数据库,BLAST可以让研究者在其中寻找与其感兴趣的序列相同或类似的序列。例如如果某种非人动物的一个以前未知的基因被发现,研究者一般会在人类基因组中做一个BLAST搜索来确认人类是否包含类似的基因(通过序列的相似性)。.IslandPickIslandPick1Z-CurveZ-Curve2SIGI-HMMSIGI-HMM3其它说明其它说明4窗口化方法窗口化方法使用20kb的窗口在Bacillus cereus(蜡样芽孢杆菌)和Bacillus anthracis(炭疽芽孢杆菌)的全基因组上滑动所得到的GC含量的

17、分布图。 Z-curveDNA序列一一对应于一条Z-curveXn=(An+Gn)-(Cn+Tn)Yn=(An+Cn)-(Gn+Tn)Zn=(An+Tn)-(Gn+Cn)特别地,Zn分量体现了整个序列的GC/AT的分布对于一个AT丰富的基因组,Zn是近似的关于n的单调增的线性函数。反之,在GC含量比较丰富的区域,Zn是近似的关于n的单调减的函数。曲线Znn可以用一条直线使用最小二乘法拟合。该曲线为Z=kn,易知,它对应的基因组的GC含量是稳定的。令Zn=Zn-kn,GC含量的改变被放大。(?)这样,Zn曲线和直线的偏差,即Z曲线就可以突出地刻画基因组内GC含量的偏差了。 Z-curveZ曲线的

18、几何意义Z曲线被称为累积GC含量轮廓图对于序列上某一段特定的序列n,它内部的GC含量的平均值有如下关系: Z曲线的几何意义从上式可以看出累积GC含量图Z曲线的特征:1)如果曲线的某一个区域接近于一条直线,则该区域的GC含量几乎保持不变;2)曲线上任何一个突然的最大(小)点预示着一个转折点GC含量经历了一个很突然的从相对低(高)到相对高(低)的变化。累积GC含量轮廓图在基因组某一碱基处的G+C 含量是关于Z曲线在该点切线的斜率的一个很简单函数。在某一窗口中的平均G+C 含量则正比于此函数在该窗口内的定积分。这样,我们就把生物学中G+C 含量的概念拓广了,使之在基因组处处都有定义。如果不从微积分的角度来看,很难理解基因组在某一碱基位置处的G+C 含量是什么意思。精度高,不需要滑动窗口;极限情况下,就算只有一个碱基也能计算;累积GC含量轮廓图绿色:Bacillus cereus粉红区域:GI蓝色:Bacillus anthracis紫色:Bacillus cereus去除掉GI区域以后原核生物基因组岛的 建模与识别-END-END-

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号