生物信息学考查作业.ppt

上传人:pu****.1 文档编号:568433843 上传时间:2024-07-24 格式:PPT 页数:9 大小:329.81KB
返回 下载 相关 举报
生物信息学考查作业.ppt_第1页
第1页 / 共9页
生物信息学考查作业.ppt_第2页
第2页 / 共9页
生物信息学考查作业.ppt_第3页
第3页 / 共9页
生物信息学考查作业.ppt_第4页
第4页 / 共9页
生物信息学考查作业.ppt_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《生物信息学考查作业.ppt》由会员分享,可在线阅读,更多相关《生物信息学考查作业.ppt(9页珍藏版)》请在金锄头文库上搜索。

1、郜刚生物信息与分子分析讲义2009年3月dotmacherhttp:/pro.genomics.purdue.edu/emboss/C.annuum AF208832MLTDFVRGVDCPHAEAVTCGQIQVGVVNCLPYLQNRGPLGRCCGVIKDLLKLCKTPHERRKSCKCVKTAANTIKGIDFGKAAGLSGVCGVKIPFEISPSVDCSKVKS.sogarandinum ABH03042MEMVSKIACFVLLCMVVVAPHAEALTCGQVTSSLAPCFPYLMNRGPLGGCCGGVKSLLGQAQTTADRQTACTCLKSAASSFTGLDLGK

2、AAGLPSACSVNIPYKISPSTDCSKVQS.lycopersicum CAJ19706MEMFGKIACFVVFCMVVVAPHAESLSCGEVTSGLAPCLPYLEGRGPLGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPSTDCSTVQS.lycopersicum CAJ19705MEMVNKIACFVLLCMVVVAPHAEALTCGQVTSTLAPCLPYLMNRGPLRNCCDGVKGLLGQAKTTVDRQAACTCLKSAASSFTGLNLGKAAALPNTCSVNIPYKISPSTDCSKVQ

3、N.tabacum AAM74206MEMVSKIACFVVLCMVVVAPHAEALTCGQVQSSLAPCVPYLLGRGPLGGCCGGVKRLLGAARTPADRKTACNCLKSAANTFKGIDMGNAARLPGTCGVNIPYKISPSTDCSKVQS.lycopersicum AAB42069MEMFGKIACFVVFCMVVVAPHAESLSCGEVTSGLAPCLPYLEGRGPLGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPSTDCSTVQN.tabacum Q42952MEIAGKIACFVVLCM

4、VVAAPCAEAITCGQVTSNLAPCLAYLRNTGPLGRCCGGVKALVNSARTTEDRQIACTCLKSAAGAISGINLGKAAGLPSTCGVNIPYKISPSTDCSKVQN.tabacum Q03461MEMVGKIACFVVLCMVVVAPHAEALSCGQVQSGLAPCLPYLQGRGPLGSCCGGVKGLLGAAKSLSDRKTACTCLKSAANAIKGIDMGKAAGLPGACGVNIPYKISPSTDCSKVQS.lycopersicum P27056MEMVSKIACFVLLCMVVVAPHAEALTCGQVTAGLAPCLPYLQGRGPLGGC

5、CGGVKNLLGSAKTTADRKTACTCLKSAANAIKGIDLNKAAGIPSVCKVNIPYKISPSTDCSTVQS.chilense Q3YMR2MEMVNKIACFVLLCMVVVAPHAEALTCGQVTSTLAPCLPYLMNRGPLGGCCGGVKGLLGQAQTTVDRQAACACLKSAASSFTDLDLGKAASLPSTCNVNIPYKISPSTDCSKVQS.pennellii O24037MEMVSKIACFVLLCMVVVAPHAEALTCGQVTAGLAPCLPYLQGRGPLGGCCGGVKGLLGSAKTTADRKTACTCLKSAANAIKGIDLN

6、KAAGIPSVCKVNIPYKISPSTDCSTVQS.pennellii O24038MEMVNKIACFVLLCMVVVAPHAEALTCGQVTSTLAPCLPYLMNRGPLGGCCGGVKGLLGQAQTTVDRQTACTCLKSAASSFTGLDLGKAASLPSTCSVNIPYKISPSTDCSKVQS.lycopersicum P93224MEMFGKIACFVVFCMVVVAPHAESLSCGEVTSGLAPCLPYLEGRGPLGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPSTDCSTVQC.annu

7、um AAF23460MEMVGKIACVVLLCMVVVAPHAEALTCGQVQSRMTPCLPYLTGSGPLGRCCGGVKGLLGAAKTPADRKTVCSCLKSAAGSIGGINVRKAAGLPNMCGVNIPYQISPSTDCTKVQC.annuum AAF23459MDMFGKIACFVLLCMVVVAPSAEALSCSQVTSGLAPCLPYLQGRGPLGGCCSGVKDLLAAAKTPADRKTACTCMKSTANSIKGIDAGKAASIPATCGVNIPYKISPSTDCTKVEStLTPb3 ABU49732MEMFGKIACFVLLCMVVVAPRAEALSCG

8、EVTSGLAPCLPYLQGRGPIGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVSIPYKISPSTDCSKVQStLTPa1 ABU49731MEMFGKIACFVLLCMVVVAPRAEALSCGEVTSGLAPCLPYLQGRGPIGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAVGLPGVCGVSIPYKISPSTDCSKVQStLTPb1 ABU49730MEMFGKIACFVLLCMVVVAPRAEALSCGEVTSGLAPCLPYLQGRGPIGGCCGGVKGLLGAAKTPEDRK

9、TACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPSTDCSKVQStLTPf10 ABU49729MEMFGKIACFVLLCMVVVAPHAEALSCGQVTSGLAPCLPYLQGSGPLGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPSTDCSKVQStLTPa7 ABU49727MEMFGKIACFVLLCMVVVAPHAEALSCGQVTSGLAPCLPYLQGSGPLGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPS

10、TDCSKVQC.annuum AAX20049MEGIGKIACFVLLCMVVVAPHAEALNCGQVTSAMAPCVPYLMGRGPLGGCCGGVKGLMGAAKTPADRKTACTCLKSAANSMKGIDAGKAAGLPAACGVNIPYKISPSTDCSKVQS.tuberosum AAM82607MEMFGKIACFVLLCMVVVAPHAEALSCGQVTSGLAPCLPYLQGRGPIGGCCGGIKGLLGAAKTPADRKTACTCLKSAASAIKGINVGKAAGIPRLCGVNIPYKISPSTDCSKVRS.tuberosum AAM82606MEMFGKIA

11、CFVLLCMVVVAPHAEALSCGQVTSGLAPCLPYLQGRGPIGGCCGGIKGLLGAAKTPADRKTACTCLKSAASAIKGINVGKAAGIPRVCGVNIPYKISPSTDCSKVRN.tabacum BAA03044MEMVGKIACFVVLCMVVVAPHAEALSCGQVQSGLAPCLPYLQGRGPLGSCCGGVKGLLGAAKSLSDRKTACTCLKSAANAIKGIDMGKAAGLPGACGVNIPYKISPSTDCSKVQS.chacoense ABE11609MEIVSKIACFVLLCMVVVAPHAEAALTCGQVTSSLFSCLPYL

12、RNTGPLGDCCSGVKKLKGQAQTTADRQTACNCLKSTAGSIKGLNFGKAASLPSTCSVNIPYEISPSTDCSKVQN.attenuata AAS13435MAKVALLVVVCMAAVAVMLTPHADAAISCGQVVASLSPCISYVRQGGAIPAPCCSGIKSLNNQATSTPDRQTACNCIKSAAAAINGINYSLAGSLPSKCGVNLPYKISPSIDCSTVHN.glauca AAT68265MAKVALLVVVCMVAVAVMLTPHADAAISCGQVVTSLTPCINYVRQGGDIPTACCSGIKTLNSQATSTPDRQTA

13、CNCIKSAAGSISGINFGLASSLPGKCGVNLPYKISPSIDC.annuum AAX08122MEMVGKIACVVLLCMVVVAPHAEALTCGQVQSRMTPCLPYLTGSGPLGRCCGGVKGLLGAAKTPADRKTVCTCLKSAAGSIGGINVRKAAGLPNMCGVNIPYQISPSADCTKVQN.glauca AAT68264MAKVALFVVVCMAAVAVMLTPHADAAIFCGRVVSSLIPCINYVIKGGAIPAPCCNGIKSLNNQATSTPDRQTACNCIKSAAASIKGINFSHAGSLPGKCGVNLPYKISPSIDC

14、STVQN.glauca AAT68263MAKVALLVVVCMVAVAVMLTPHADAAISCGQVVTSLTPCINYVRQGGAIPAACCSGIKTLNSQATSTPDRQTACNCIKSAARSISGINFGLASSLPGKCGVNLPYKISPSIDCSTVQN.glauca AAT68262MAKVALLVVVCMAAVSVMLTPHADAAISCGQVVSSLTPCISYVTKGGAIPAPCCNGIESLNNQATSTPDRQTACNCIKSAAASIKGINFSLAGSLPGKCGVNLPYKISPSIDCSTVQN.glauca AAF28385MAKVALLVVVC

15、MAAVAVMLTPQADAAISCGQVVSSLTPCISYVTKGGAIPAPCCSGIKSLNNQATSTPDRQTACNCIKSAVGSISGINFGLASSLPGKCGVNLPYKISPSIDCSTVQC.annuum AAD18029MKMFGKIACLLILCVVLIAPHAEAVTCGQIQVGVVNCLPYLQNRGPLGRCCGVIKDLLKLCKTPHERRKSCRCVKTAANTIKGIDFGKTAGLSGVCGVKIPSEISPSVDCSKVKS.pennellii AAB07487MEMVNKIACFVLLCMVVVAPHAEALTCGQVTSTLAPCLPYLMN

16、RGPLGGCCGGVKGLLGQAQTTVDRQTACTCLKSAASSFTGLDLGKAASLPSTCSVNIPYKISPSTDCSKVQS.pennellii AAB07486MEMVSKIACFVLLCMVVVAPHAEALTCGQVTAGLAPCLPYLQGRGPLGGCCGGVKGLLGSAKTTADRKTACTCLKSAANAIKGIDLNKAAGIPSVCKVNIPYKISPSTDCSTVQN.tabacum AAA21438MARFLVFLALALVIISKKGALGAPPSCPTVTTQLAPCLSYIQGGGDPSVPCCTGINNIYELAKTKEDRVAICNCLKT

17、AFTHAGNVNPTLVAQLPKKCGISFNMPPIDKNYDCNTISMYN.tabacum AAA21437MARFLALALVVIALSNDALGAPPSCQTVTTQLAPCLSYIQNRVKGGGNPSVPCCTGINNIYELAKTKEDRVAICNCLKNAFIHAGNVNPTLVAELPKKCGISFNMPPIDKNYDCNTISMYS.chilense AAZ22829MEMVNKIACFVLLCMVVVAPHAEALTCGQVTSTLAPCLPYLMNRGPLGGCCGGVKGLLGQAQTTVDRQAACACLKSAASSFTDLDLGKAASLPSTCNVNIPY

18、KISPSTDCSKVQN.tabacum AAT45202IKLAHSKMAKVALLVVVCMAAVAVMLTPHADADISCGQVVASLSPCISYVRQGGAIPAPCCSGINSLNNQATSTPDRQTACNCIKSAAAGISGINFSLAGSLPSKCGVNLPYKISPSIDCSTVQC.annuum AAR83849MEMVSKIACLVVLCMVVAAPHAEALTCGQVAGDLAACLPYLQGSGPLGSCCGGVRALLGAAKTPADRKTACTCLKSAANAIKGINLSKAAGLPTACGVNIPYKISPSTDCSTVQS.tuberosum BAC

19、23052MKTASKLAVLTVLVLLLVEAHISVAVTCSAIQLSPCLGAITSNSAPSTLCCSRIREQKPCLCTYLKNPTLRNYVNSPGAKKVARTCGVPYPKCN.tabacum AAF65316MARFLALALVVIALSNDALGAPPSCQTVTTQLAPCLSYIQNRVKGGGNPSVPCCTGINNIYELAKTKEDRVAICNCLKNAFIHAGNVNPTLVAELPKKCGISFNMPPIDKNYDCNTS.lycopersicum CAA80273MTSRTLVMLILVITYNSIAVKGSNGHPCSSTFFSALIQLIPCRAS

20、VVPFSSVPPSEACCASIKALGQPCLCVLINGPPISGVDRNMAVQLPEKCTANFEQCEFGKS.lycopersicum Q43495MASVKSSSSSSSSSFISLLLLILLVIVLQSQVIECQPQQSCTASLTGLNVCAPFLVPGSPTASTECCNAVQSINHDCMCNTMRIAAQIPAQCNLPPLSCSANS.lycopersicum CAA78466MASVKSSSSSSSSSFISLLLLILLVIVLQSQVIECQPQQSCTASLTGLNVCAPFLVPGSPTASTECCNAVQSINHDCMCNTMRIAAQIPAQCNL

21、PPLSCSANN.tabacum 1T12AITCGQVTSNLAPCLAYLRNTGPLGRCCGGVKALVNSARTTEDRQIACTCLKSAAGAISGINLGKAAGLPSTCGVNIPYKISPSTDCSKVQN.tabacum CAA44267MEIAGKIACFVVLCMVVAAPCAEAITCGQVTSNLAPCLAYLRNTGPLGRCCGGVKALVNSARTTEDRQIACTCLKSAAGAISGINLGKAAGLPSTCGVNIPYKISPSTDCSKVQS.lycopersicum CAA39512MEMVSKIACFVLLCMVVVAPHAEALTCGQVTA

22、GLAPCLPYLQGRGPLGGCCGGVKNLLGSAKTTADRKTACTCLKSAANAIKGIDLNKAAGIPSVCKVNIPYKISPSTDCSTVQ作业分解1、现有10条基因,全班分成10组,每组做1条基因,每组4个人,每组16道题,每人完成4道不同的题2、要求:按照提供的gene accession number完成1.核酸序列的基本分析:要求运用BioEdit 分析该核酸序列的分子质量、碱基组成、碱基分布、酶切、简要过程2.碱基同源性分析:网站如下:http:/www.ncbi.nlm.nih.gov/BLAST/,程序、参数、结果、简要过程3.开放性阅读框分析:利用NCB

23、I的ORF Finder程序对man做开放性阅读框分析,网址如下:http:/www.ncbi.nlm.nih.gov/projects/gorf/orfig.cgi要求:参数、结果、简要过程4.蛋白质序列的结构功能域分析:要求用简单模块构架搜索工具SMART对上述ORF蛋白质序列进行结构功能域分析。网址如下:http:/smart.embl-heidelberg.de/,要求结果、参数、简要过程5.氨基酸同源分析:要求运用NCBI的BLAST程序对此蛋白质序列进行分析:要求:参数、结果、过程6.同源物种分析:要求根据上述分析列出该蛋白质的同源物种至少5个,要求名称、学名7.蛋白质一级序列的基

24、本分析:要求运用BioEdit对该基因编码的蛋白质基本信息如分子量、等电点、氨基酸组成等作出分析。8.信号肽预测:要求利用signal p预测,分析结果、写出简要过程,网址如下:http:/www.cbs.dtu.dk/services/SignalP/9.疏水性、溶解能力和motif分析:要求利用ExPASy分析氨基酸序列的疏水性:网址http:/us.expasy.org/cgi-bin/protscale.pl,通过发邮件的方式利用PredictProtein服务器氨基酸序列分析其蛋白质溶解能力和PROSITE motif ,描述结果、过程简述。网址http:/cubic.bioc.co

25、lumbia.edu/pp/submit_def.html10.磷酸化位点分析:要求利用NetPhos2.0 Server做磷酸化位点分析,网址:http:/www.cbs.dtu.dk/services/NetPhos/,要求参数、结果、过程简述11.跨膜区分析:要求用TMHMM Server 进行蛋白序列跨膜区分析,网址:http:/www.cbs.dtu.dk/services/TMHMM/,要求参数、结果,过程简述12.亚细胞定位:要求通过WoLF PSORT工具基于其氨基酸序列预测蛋白质亚细胞定位点,网址:http:/wolfpsort.seq.cbrc.jp/,要求参数,结果,过程

26、简述13.二硫键分析:要求运用SCRATCH Protein Predictor 分析二硫键并简述过程、结果。网址http:/www.ics.uci.edu/baldig/scratch/index.html 14.二级结构预测:要求运用PBIL LYON-GERLAND信息库对蛋白质序列进行二级结构预测,简述过程、结果,网址http:/npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_hnn.html15. 蛋白质的3D结构预测:http:/www.cbs.dtu.dk/services/CPHmodels/,描述结果,用Cn

27、3D等结果显示。16.选择与其同源的5条蛋白质(最好是不同的物种)构建其进化树Molecular Evolutionary Genetics Analysis 软件MEGA,说明结果nnpredictnnpredict 算法使用了一个双层、前馈神经网络去给每个氨基酸分配预测的类型(Kneller 等,1990)。在预测时,服务器使用 FASTA 格式的文件,其中有单字符或三字符的序列以及蛋白质的折叠类( 、 或 / )。残基被分为几类: 螺旋(H)、 叠片(E)或其它()。若无法对某残基给出预测,则会标上问号(?),这说明无法做出可信的分配。若没有关于折叠类的信息,预测也能在不定折叠类的情况下

28、进行,而且这是缺省的工作方式。据报道,对于最佳实例的预测,nnpredict 的准确率超过了 65。序列通过向 nnpredictceleste.ucsf.edu 发送电子邮件或是填写网上的表提交给nnpredict。PredictProtein PredictProtein(Rost 等,1994)在预测中应用了略为不同的方法。首先,蛋白质序列被作为查询序列在 SWISS-PROT 库中搜索相似的序列。当相似的序列被找到后,一个名为 MaxHom 的算法被用来进行一次基于特征简图的多序列比对(Sander 和 Schneider,1991)。MaxHom 用迭代的方法来构造比对:当第一次搜索

29、 SWISS-PROT 后,所有找到的序列与查询序列进行比对,并构造出一个比对后的特征简图。然后,这个简图又被用来在SWISS-PROT 中搜索新的相似序列。由 MaxHom 产生的多序列比对随后被置入一个神经网络,用一套称为 PHD(Rost,1996)的方法进行预测。PHD 这一套二级结构预测方法不仅仅给每个残基分配一个二级结构类型,它还对序列上每个位点的预测可信度给予统计分析。该方法的平均准确率超过 72,最佳残基预测准确率达 90以上。向 PredictProtein 提交数据可以通过电子邮件,也可以在网上提交。上交序列的时候可以有几种选择,序列可以是单个字母的氨基酸代码,也可以带 S

30、WISS-PORT 标识符。另外,FASTA 格式的多序列比对或 PIR 比对也可以被提交,以进行二级结构预测。输入的序列发送给predictproteinembl-heidelberg.de。输出结果内容很多并包含大量有关信息。其中有 MaxHom 搜索结果,并包括多序列比对的结果,它可以用于例如基于特征简图的搜索或物种谱系分析等 进一步研究。如果提交的序列在 PDB 库中有已知同源蛋白,则其 PDB标识号也会输出返回。随后是方法本身信息,最后是实际预测结果。输出结果还可以被用户自己来指定。与 nnpredict 不同,PredictProtein 还返回每个位点的“预测可信度索引”,范围从

31、 0 到 9,9 具有最高的可信度,也就是说该位点所分配的二级结构类型是正确的PREDATORPREDATOR 算法通过对氨基酸序列中潜在的氢键残基的识别来预测二级结构。它使用源自数据库的统计数据,具体地说是对在不同种氢键结构中残基种类出现的统计。这种方法的新特征是,它依靠局部的双序列比对来预测每个相关序列。这个程序的输入可以是单个序列,也可以是一组没经过比对的相关序列。序列可以通过给predatorembl-heidelberg.de 发电子邮件或是在网上直接提交。输入序列可以是 FASTA、MSF 或 CLUSTER 格式。PREDATOR 对三种结构预测的平均准确率是,对单个序列为 68

32、,对一组相关的序列为 75。PSIPRED PSIPRED 方法是由英国 Warwick 大学开发的,使用 PSIBLAST先在数据库中搜索序列的相似蛋白,构建多序列比对,然后进行预测。PSIPRED 用两个前向神经网络对来自 PSIBLAST 的特征图进行分析。序列可以通过互连网用简单的单字母格式或是 FASTA 格式提交,PSIPRED 的预测结果通过电子邮件以文本文件形式发送回来。另外,在电子邮件中会给出一个网址,到那里可以看到被预测蛋白质的图象表示,可视化是用 JAVA 应用程序 PSIPREDview 实现的。PSIPRED 的平均预测准确率为 76.5,比这里介绍的其它方法都要高。

33、SOPMA位于法国里昂的 CNRS ( Centre National de la RechercheScientifique)使用独特的方法进行蛋白质二级结构预测。它不是用一种,而是5种相互独立的方法进行预测,并将结果汇集整理成一个“一致预测结果”。这5种方法包括:Garnier-Gibrat-Robson(GOR)方法(Garnier等,1996)、Levin同源预测方法(Levin等,1986)、双重预测方法(Delage和Roux,1987)、作为前面PredictProtein一部分的PHD方法和CNRS自己的SOPMA方法(Geourjon和Dleage,1995)。SOPMA这种自优化的预测方法简要的建立了已知二级结构序列的次级数据库,库中的每个蛋白质都经过基于相似性的二级结构预测。然后用次级库中得到的信息去对查询序列进行二级结构预测。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号