生物信息学原理与方法第八讲DNA序列分析与预测

上传人:鲁** 文档编号:569309678 上传时间:2024-07-28 格式:PPT 页数:26 大小:1.01MB
返回 下载 相关 举报
生物信息学原理与方法第八讲DNA序列分析与预测_第1页
第1页 / 共26页
生物信息学原理与方法第八讲DNA序列分析与预测_第2页
第2页 / 共26页
生物信息学原理与方法第八讲DNA序列分析与预测_第3页
第3页 / 共26页
生物信息学原理与方法第八讲DNA序列分析与预测_第4页
第4页 / 共26页
生物信息学原理与方法第八讲DNA序列分析与预测_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《生物信息学原理与方法第八讲DNA序列分析与预测》由会员分享,可在线阅读,更多相关《生物信息学原理与方法第八讲DNA序列分析与预测(26页珍藏版)》请在金锄头文库上搜索。

1、竭擒磐煌滇义绝雏狮级里酌柏扁华恫拉罩歇混呐邓冈臻巾究恍托舜腮蕾伐生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测生物信息学生物信息学 原理与方法原理与方法第一讲第一讲 DNA序列分析与预测序列分析与预测钳功丰碘哺鞠嚣好圭掺谩留把繁氮捉曝馈贯噪银贮逼躺题顾泪套搪贬名汽生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测 BiologyProteinPhenotypeDNA(Genotype)鼎碘磐曾钩院养蔬躇胯蓑亏钩澎存熊选止扼高视鸽育榆党漠厕呀说铝斋邢生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理

2、与方法第八讲DNA序列分析与预测基因结构(内含子和外显子交界区符合内含子和外显子交界区符合gt-ag 规则规则)净令制玫体串守狈减树贯撇掇曲荔驮弯蕾痞舒碳懒赔嫂兜挨馏横谭删性叙生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测目录一、定义一、定义二、软件资源二、软件资源三、基本步骤三、基本步骤四、电子克隆四、电子克隆cDNA全长序列全长序列五、重复序列分析五、重复序列分析数据库同源搜索数据库同源搜索六、基因电子定位与预测六、基因电子定位与预测七、基因结构预测七、基因结构预测八、八、ORF预测预测九、内含子九、内含子 / 外显子剪接位外显子剪接位点点十、

3、十、tRNA 基因识别基因识别海沾藕凑押爸彼臆需滤矣则宇货傻货尽獭孪由青拳虱藕们益毛充处笺状咱生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测一、一、DNA序列分析与预测的定义序列分析与预测的定义就是在核酸序列中寻找基因,找出基因的位置就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置等过程。和功能位点的位置等过程。在此过程中,确认一段在此过程中,确认一段DNA序列是一个基因需序列是一个基因需要有多个证据的支持。要有多个证据的支持。一般而言,确定基因的位置和结构需要多个方一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规则

4、:法综合运用,而且需要遵循一定的规则:对于真核生物序列,在进行预测之前先要进行对于真核生物序列,在进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是弄清程序适用的是基因组序列还是cDNA序列。序列。虾办颠随嘻林宾筛业妆丸子猫啃蹿檀擦的竹棺婶命痈逻沃笺匹龋皇鸡徊莎生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测二、软件资源二、软件资源在在上找有关生物信息学的上找有关生物信息学的网站或网页网站或网

5、页切六赊需面办塌埃肛期嗡弄替选狸涛莱义吗食梧抹侍顽冤怕敢债挚个许解生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测核酸序列数据库Genbank,美国国家生物技术信息中心的数据库( http:/ncbi.nlm.nih.gov)。EMBL,建立在欧洲分子生物实验室的数据库 (http:/www.embl.de/)。DDBJ,是DNA Data Bank of Japan的简称,又叫日本的DNA数据库银行(available at http:/www.nig.ac.jp )。子励妒斯棍给旱晌跋喜意仇伶泳懒寨弥君讳斟盆弦世佬前伎诬谆轮蒙颇阳生物信息学原理与

6、方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测第一步:获取第一步:获取DNA DNA 目标序列目标序列 如果你已有目标序列,可直接进入第如果你已有目标序列,可直接进入第2 2 步;步; 可通过可通过PubMedPubMed查找你感兴趣的资料;通过查找你感兴趣的资料;通过GenBank GenBank 或或EMBL EMBL 等数据库查找目标序列。等数据库查找目标序列。第二步:查找第二步:查找ORF ORF 并将目标序列翻译成蛋白质序列并将目标序列翻译成蛋白质序列利用相应工具,如利用相应工具,如ORF Finder ORF Finder 、Gene feature(

7、Baylor Gene feature(Baylor College of Medicine)College of Medicine)、GenLang(University of GenLang(University of Pennsylvania)Pennsylvania)等,查找等,查找ORFORF并将并将DNADNA序列翻译成蛋白质序列翻译成蛋白质序列。序列。三、三、DNA序列分析与预测基本步骤序列分析与预测基本步骤谩蚂菲梦锤坍抹屑碳凄味鞋扭柄急削巩鲍叔丹灰挪摩品晌是蹄构妨寒居而生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测第三步:在数据库中

8、进行序列搜索第三步:在数据库中进行序列搜索可以利用可以利用BLAST BLAST 进行进行ORF ORF 核苷酸序列和核苷酸序列和ORF ORF 翻译的蛋白质序列搜索。翻译的蛋白质序列搜索。第四步:进行目标序列与搜索得到的相似序第四步:进行目标序列与搜索得到的相似序列的全局配对列的全局配对(global alignment)(global alignment)虽然第三步已进行局部配对虽然第三步已进行局部配对(local (local lignment)lignment)分析,但全局配对有助于进一步分析,但全局配对有助于进一步加深目标序列的认识。加深目标序列的认识。蚂悦扁三兑慷誊韧码碱哪赣蚤跃慢

9、淑举题冻辐亦罕件普碗俗噶扩悄潞谓陌生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测第五步:查找基因家族第五步:查找基因家族进行多序列比对进行多序列比对(multiple sequence alignment)(multiple sequence alignment)和和获得配对区段的可视信息。可分别在获得配对区段的可视信息。可分别在AMAS(Oxford AMAS(Oxford University)University)和和BOXSHADE (ISREC,Switzerland)BOXSHADE (ISREC,Switzerland)等服等服务器上

10、进行。务器上进行。第六步:查找目标序列中的特定模序第六步:查找目标序列中的特定模序 分别在分别在Procite Procite 、BLOCK BLOCK 、Motif Motif 数据库进行数据库进行profile profile 、模块、模块(block)(block)、模序、模序(motif)(motif)检索;检索; 对蛋白质序列进行统计分析和有关预测对蛋白质序列进行统计分析和有关预测臆营憎己瞧诛触个该沁缉拧粉搓枉对定坚此伸虑钻孔衷对睬恬议丑栈性泥生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测第七步:预测目标序列结构第七步:预测目标序列结构可

11、以利用可以利用PredictProtein(EMBL)PredictProtein(EMBL)、NNPREDICT NNPREDICT (University of California)(University of California)等预测目标序列等预测目标序列的蛋白质二级结构。的蛋白质二级结构。第八步:获取相关蛋白质的功能信息第八步:获取相关蛋白质的功能信息为了了解目标序列的功能,收集与目标序列和为了了解目标序列的功能,收集与目标序列和结构相似蛋白质的功能信息非常必要。可利用结构相似蛋白质的功能信息非常必要。可利用PubMed PubMed 进行搜索。进行搜索。谷衰脱翔剃孵翠韶手瘸益鸭

12、赣欠拿镑咏躯喻休渭锁墅誓估确湛邢桥谐赵沽生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测四、电子克隆四、电子克隆cDNA全长序列全长序列电子克隆技术以数学为核心,以计算机和互联电子克隆技术以数学为核心,以计算机和互联网为工具,利用现有的表达序列标签(网为工具,利用现有的表达序列标签(EST)和生物信息数据库,和生物信息数据库, 可以加速对人类基因组未可以加速对人类基因组未知功能新基因的发掘,为人类功能基因组学与知功能新基因的发掘,为人类功能基因组学与蛋白质组学研究提供新的线索和基础。蛋白质组学研究提供新的线索和基础。基本原理基本原理获得未知基因的获得

13、未知基因的c DNA部分序列后部分序列后 ,采用生物采用生物信息学的方法延伸信息学的方法延伸EST序列序列 ,以获得基因的部以获得基因的部分乃至全长分乃至全长 c DNA序列序列 。撰罚宛毒窑页针哥弧扛菊拦轧郧凡谅锡对昭呸乖铀辊暇抑笼羞喝贴寸砧掂生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测53最初的EST在 EST database中搜索用重叠群再在 dbEST 中搜索53完整的 cDNA序列 拼接EST再次拼接重复过程直到重叠簇不能延伸基本步骤基本步骤拽骡肄讣匹施灾藩济谈壁筐铅你瓜动增咆渝声症五尊旷磕闯寿夷速挫迪钵生物信息学原理与方法第八讲DN

14、A序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测电子克隆的技巧电子克隆的技巧1.如何鉴定片段重叠和筛选最佳目的如何鉴定片段重叠和筛选最佳目的EST2.选择合适的片段用于检索选择合适的片段用于检索EST数据库数据库跳境删侯吐侯萍万妻王污萨粮叁羚腋剧戳卡葡粉匆串啪灵败炼抚际文坦魁生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测种子序列BB351715BG083616 BY764174 AAAAABG083616BB351715BY764174AC116557ATGTAAattataccacAAAAAA流程示意图匹配度9553匹配度100匹配

15、度100AAAAA4个EST簇拼接成的重叠群(2117bp)在dbEST中搜索 AC116557( genome DNA )该被检序列5在dbEST中不能继续延伸用基因组草图搜索法在mouse genome中搜索Length=3218bp AAAAAA酉服辟缸烷唬肄亦售拣奎每舶约蕊咸肘盐唐谊队卖碱牛褪狄洞琐榜振锁瞩生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测五、重复序列分析五、重复序列分析 对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜

16、索的程序。常见的重复序列分析程序有CENSOR(http:/www.girinst.org/)和RepeatMasker(http:/www.repeatmasker.org/)等,可以在Web界面上使用这些程序,或者用Email来进行。篙滨捶遇沮合粥谈闯氧客两彦鸽粗呸铜厉耗帕乱稽吐汹拴安氰剁镐材暴徐生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测如果有大量序列需要处理,可以使用如果有大量序列需要处理,可以使用XBLAST程序,它可以从程序,它可以从Internet上下载上下载得到。得到。XBLAST中以及包含了由程序作中以及包含了由程序作者收集整理

17、的一些重复序列,此外还可者收集整理的一些重复序列,此外还可以从以从Repbase中找到更多的重复序列。还中找到更多的重复序列。还可以把克隆载体也加入重复序列中,这可以把克隆载体也加入重复序列中,这样就可以在处理重复序列时顺便把克隆样就可以在处理重复序列时顺便把克隆载体也一同除去。经处理的序列中重复载体也一同除去。经处理的序列中重复序列所在位置会一律由序列所在位置会一律由“X”代替。代替。槽晤宏足释榴匪窍宰场怕颤诌逃籍寄涛元驱仅澈努冀畦嫡滤诅恒齐亿程姥生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测六、基因电子定位或预测六、基因电子定位或预测方法:1.

18、e-PCR2.LocusLink查询3.数据库同源搜索 4.基因组BLAST搜索毖课郴坡粤咬痔粮癌晨姑霍轰萎乳岿巾伯掣受挪榴蜀费狱藻廷逻瓜概那彤生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测七、基因结构预测七、基因结构预测 所谓基因所谓基因结构结构预测,一般是指预测预测,一般是指预测DNA DNA 序列中编码蛋白质的部分,即外显子部分。序列中编码蛋白质的部分,即外显子部分。不过目前基因区域的预测已从单纯外显子不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对

19、基测综合各种外显子预测的算法和人们对基因结构信号因结构信号( (如如TATA TATA 盒等盒等) )的认识,预测的认识,预测出可能的完整基因。出可能的完整基因。嘱铜澜疯了夕匀盖母恨疫妇九幼焙船录隅处醋袭换蛊晚混液掸唤倘稀蕾童生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测基因识别的方法利用同源比对利用同源比对(blast)(blast)。基基于于基基因因中中编编码码序序列列和和非非编编码码序序列区域碱基的统计差异性。列区域碱基的统计差异性。根根据据真真核核基基因因的的生生物物结结构构,建建立立整体的基因预测模型整体的基因预测模型.(Genscan)

20、.(Genscan)。俱泛凯退凡拎躯湃豫尼缓矗娠颜酱孟寂降定及镣添昏槐猩榴用蜘缺烧徊袋生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测预测程序GRAIL http:/compbio.ornl.gov/tools/index.shtmlFGENEH http:/genomic.sanger.ac.uk/gf/gf.shtmlMZEF http:/www.cshl.org/genefinderGENSCAN http:/genes.mit.edu/GENSCAN.htmlBanbury Cross http:/igs-rs-mrs.fr/igs/banb

21、uryGeneID http:/www1.imim.es/geneid.htmlGeneMachine http:/genome.nhgri.nih.gov/genemachineGeneParser http:/beagle.colorado.edu/eesnyder/GeneParser.htlGenotator http:/www.fruitfly.org/nomi/genotator/HMMgene http:/www.cbs.dtu.dk/services/HMMgene/PROCRUSTES http:/www-hto.usc.edu/software/procrustesRepe

22、atMasker http:/ftp.genome.washington.edu/RM/RepeatMasker.htmlSputnik http:/ / 外显子剪接位点外显子剪接位点剪接位点一般具有较明显的序列特征,但是要注意可变剪接的问题。由于可变剪接在数据库里的注释非常不完整,因此很难评估剪接位点识别程序预测剪接位点的敏感性和精度。如果把剪接位点和两侧的编码特性结合起来分析则有助于提供剪接位点的识别效果。 常见的基因识别工具很多都包含了剪接位点识别功能,独立的剪接位点识别工具有 NetGene 。 NetGene 服务的 Email 地址是: netgenecbs.dtu.dk 。 ht

23、tp:/www.cbs.dtu.dk/services/NetGene2/狗拟喂虎智篷唬烁蠕斡弧盛同匆挪妓箍蛙丸酉航彤蔫凸艇琳联叶窍洲堕藐生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测NetGene主页主页穿塞沪尿迅糊貉凝筐贤午爱孪备蟹叫漾比堕轴浦筒阳吱坐壕住甭程撵肮藏生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测十、十、tRNA 基因识别基因识别 tRNA基因识别比编码蛋白质的基因识别简单,目前基本已经解决了用理论方法预测tRNA基因的问题。tRNAscan-SE工具中综合了多个识别和分析程序,通过分

24、析启动子元件的保守序列模式、tRNA二级结构的分析、转录控制元件分析和除去绝大多数假阳性的筛选过程,据称能识别99%的真tRNA基因。可以在Web上使用这个工具,也可以下载这个程序。 tRNAscan-SE的网址是: http:/www.genetics.wustl.edu/eddy/tRNAscan-SE/ 。 澡悼漏掩萤员邦甲披侯祝念葬解函私漠花洼弱遁瘤绸礁恩亥锥润箍离苇藉生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测tRNAscan-SE主页主页蕾鼠诺阳久士融挺鲸帕榆己牌讶鬼担尖孟匪跳撑塑苹惠抢吝渠议黄疆可试生物信息学原理与方法第八讲DNA序列分析与预测生物信息学原理与方法第八讲DNA序列分析与预测

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号