山东大学生物信息学课件06-3序列比较3

上传人:东*** 文档编号:279773467 上传时间:2022-04-20 格式:PPTX 页数:70 大小:7.89MB
返回 下载 相关 举报
山东大学生物信息学课件06-3序列比较3_第1页
第1页 / 共70页
山东大学生物信息学课件06-3序列比较3_第2页
第2页 / 共70页
山东大学生物信息学课件06-3序列比较3_第3页
第3页 / 共70页
山东大学生物信息学课件06-3序列比较3_第4页
第4页 / 共70页
山东大学生物信息学课件06-3序列比较3_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《山东大学生物信息学课件06-3序列比较3》由会员分享,可在线阅读,更多相关《山东大学生物信息学课件06-3序列比较3(70页珍藏版)》请在金锄头文库上搜索。

1、生生 物物 信信 息息 学学序列比较序列比较3 3多序列比对(多序列比对(multiple alignmentmultiple alignment),对两条以上的生物序列进行全局比对。),对两条以上的生物序列进行全局比对。多序列比对介绍多序列比对介绍 多序列比对的主要用途:多序列比对的主要用途:1.确认:一个未知的序列是否属于某个家族2.建立:系统发生树(分子树),查看物种间或者序列间的关系3.模式识别:一些特别保守的序列片段往往对应重要的功能区域,通过多序列比对,可以找到这些保守片段及其序列模式(pattern)4.已知推未知:把已知有特殊功能的序列片段通过多序列比对做成模型,然后根据该模型

2、推测未知的序列 片段是否也具有该功能。5.其他:预测蛋白质/RNA二级结构等等。 多序列比对的用途及算法多序列比对的用途及算法 多序列比对的算法多序列比对的算法目前所有的多序列比对工具都不是完美的,它们都使用一种近似的算法。PYMNVI0-1-2-3-4-5-6P-1765432Y-261413121110E-351312131211L-441215141414F-5311141313143条序列条序列 = 3Dseq1seq2seq2seq1seq32条序列条序列 = 2DN条序列条序列 = nD 多序列比对的用途及算法多序列比对的用途及算法 对要进行多序列比对的序列的几点要求:对要进行多序

3、列比对的序列的几点要求:1.太多的序列受不了。不要超过50条。2.关系太远的序列受不了。两两之间序列相似度低于30%的一组序列,作多序列比对会有麻烦。3.关系太近的序列受不了。两两之间序列相似度大于90%的序列,有再多条都等于只有一条。4.短序列受不了。多序列比对支持一组差不多长的序列,个别很短的序列属于捣乱分子。5.有重复域的序列受不了。如果序列里包含重复域, 大多数多序列比对的程序都会出错,甚至崩溃。 多序列比对的注意事项多序列比对的注意事项 序列的名字有几点建议:序列的名字有几点建议:1.名字里不要有“空格”,用“_”代替“空格” 。2.不要用特殊字符,(比如中文, , #, &, 等)

4、 。3.名字的长度不要太长。4.一组序列里,不要有重名的序列。5.如果不按上述几点建议命名的话,多序列比对的工具会在不告知你的情况下修改你的序列名称。 e.g. My Seq 1 My_Seq_1e.g. 我的序列壹 S e.g. This_is_my_favorite_sequence_about_mouse 多序列比对的注意事项多序列比对的注意事项 多序列比对的工具多序列比对的工具Clustal 最常用的多序列比对工具 TCOFFEE 最新的多序列比对工具之一 MUSCLE 最快的多序列比对工具之一 网站名称网站名称服务器位置服务器位置网址链接网址链接EBIClustal-Omegahtt

5、p:/www.ebi.ac.uk/Tools/msa/clustalo/ ExpasyClustal Whttp:/www.ch.embnet.org/software/ClustalW.html Sfi-ClustalClustal O/W2http:/www.clustal.org/ (仅下载)EBITcoffeehttp:/www.ebi.ac.uk/Tools/msa/tcoffee/TCOFFEETcoffeehttp:/www.tcoffee.org/ EBIMusclehttp:/www.ebi.ac.uk/Tools/msa/muscle/MUSCLEMusclehttp:/

6、部分提供多序列比对在线使用的网站部分提供多序列比对在线使用的网站 在线多序列比对工具在线多序列比对工具 http:/www.ebi.ac.uk/Tools/msa EMBL EMBL 多序列比对工具:多序列比对工具:Clustal OmegaClustal Omega多序列比对中各个序列的排列顺序:aligned-比对过程中自动创建的顺序input-输入序列的原始顺序比对输出格式人Toll样受体110胞内域 保存比对结果Red: Red: 疏水的疏水的 Blue: Blue: 酸性的酸性的 Magenta: Magenta: 碱性的碱性的 Green:Green:羟基羟基+ +胺胺+ +碱性碱

7、性 Gray: Gray: 其他其他 *完全保守的一列,即,这一列的残基完全相同。:这一列的残基有大致相似的分子大小及相同亲疏水性,即这一列残基或相同或相似。.在进化过程中,残基的分子大小及亲疏水性被一定程度上保留了,但是有替换发生在不相似的残基间。完全不保守的一列。序列两两之间的一致度列表一致度最高的一对序列这个树这个树 不是不是 真正的系统发生树真正的系统发生树!TcoffeeTcoffee :多序列比对工具,算法上与Clustal系列类似,准确度上比Clustal系列略高,但计算耗时也比Clustal系列略高。 http:/tcoffee.crg.cat T-Coffee T-Coffe

8、e 镜像网站镜像网站SIBhttp:/tcoffee.vital-it.ch EBIhttp:/www.ebi.ac.uk/Tools/msa/tcoffee CNRShttp:/rs-mrs.fr/Tcoffee/tcoffee_cgi/ index.cgi Max-Planckhttp:/toolkit.tuebingen.mpg.de/t_coffee CBSUhttp:/cbsuapps.tc.cornell.edu/t_coffee.aspx EMBnethttp:/www.es.embnet.org/Services/MolBio/t-coffee TCOFFEE TCOFFEE

9、多序列比对工具:多序列比对工具:ExpressoExpressohttp:/tcoffee.crg.catu给序列加入结构信息的多序列比对。u把多个比对工具的结果整合成一个。u专为穿膜蛋白打造的多序列比对。u专为远源序列打造的多序列比对。http:/tcoffee.crg.cathttp:/tcoffee.crg.cathttp:/tcoffee.crg.cathttp:/tcoffee.crg.cat如果要做比对的序列有结构信息的话(包括未发表的非PDB里的结构),可以把这些结构的PDB文件上传。用网页提供的示例序列指定哪个序列对应哪个PDB结构。已上传的结构会根据序列信息自动匹配是哪个序列

10、,不需要列出。或者偷个懒,自动给每条序列通过BLAST搜索从数据库中找到序列水平上相似的结构。要算很久,留个email很必要!Expresso做出的比对结果TCOFFEE做出的比对结果多序列比对的保存格式多序列比对的保存格式score_html file clustalw_aln file fasta_aln file phylip file 在选择保存格式之前,需要问自己几个问题: 大多数软件都支持我要选的这个格式吗? 我的同事们能直接使用我选的这个格式吗? 这个格式能保存我所需要的所有信息吗? 这个格式适合我进一步加工吗?如果比对工具输出的格式里没有我想要的哪种,可以通过第三方软件进行格式

11、转换,比如: 到底保存哪个格式呢?到底保存哪个格式呢?多序列比对的保存格式多序列比对的保存格式为了能对多序列比对的结果进行彩色显示和手工编辑,人们开发了多序列比对结果编辑器。JalviewJalview是一个特别常用的编辑器。http:/www.jalview.org 多序列比对的编辑和发布:多序列比对的编辑和发布:JalviewJalview点击这里下载在线运行完在线运行完整版整版JalviewJalview软件打开后,会自动展示许多示例。之前让大家保存的Clustal Omega比对结果保守度比对质量共有序列根据每一列的保守程度分配深浅不同的蓝色设定保守程度阈值,阈值以上的才给赋予不同的蓝

12、色,阈值以下白色常见的Clustal系列配色方案将后四条序列的第53列移至第54列:1.选中后四条序列:按住 Ctrl 键,选中后四条序列的名字。选中后,序列名字的底色由白变灰。2.移动后四条序列:再次按住 Ctrl 键,把鼠标放在第53列的字母上,向右拖动到第54列。再用同样的方法,把原来的第57列向左拖动回原位。设置字体换行显示打开/关闭注释行为任意一对序列做双序列全局比对按照各种规则排序为选中的一组序列创建系统发生树预测一条蛋白质序列的二级结构把序列比对保存成图片可以发布漂亮的序列比对了!多序列比对美化工具多序列比对美化工具名称名称网址网址特点特点JalViewhttp:/www.jal

13、view.org JAVA,可嵌入网页 Boxshadehttp:/www.ch.embnet.org/software/BOX_form.html 擅长黑白作图ESPripthttp:/espript.ibcp.fr/ESPript/ESPript功能强大,很牛MViewhttp:/bio- 擅长转换成HTML源码多序列比对的编辑和发布:多序列比对的编辑和发布:JalviewJalview你想要找到序列中重要的位置你想要找到序列中重要的位置 !用一句话来描述你究竟想从多序列比对中获得什么用一句话来描述你究竟想从多序列比对中获得什么: :寻找保守区域寻找保守区域保保守守区区域域序列标识图(序列

14、标识图(sequence logosequence logo)是以图形的方式依次绘出序列比对中各个位置上出现的残基。每个位置上残基的累积可反应出该位置上残基的一致性。每个残基对应图形字符的大小与残基在该位置上出现的频率成正比。 但图形字符的大小并不等于频率百分比,而是经过简单统计计算后转化的结果。一款流行的创建序列标识图的软件:WebLogo 3 http:/ 每个字母的高度 Height = fi * R ,其中 i=1,20 (f是出现频率) R = log2(20) (entropy + en) entropy = -fi*log2(fi)en = (20 - 1) /(2 * ln 2

15、 * n)entropy: 熵(熵越大越混乱)en: 小样本检验修正n:序列个数20:残基种类,蛋白质是20,核酸是4TRVGNYEMGRTLGEGSFAKVKYAKNTVTGDQAAIK TRVGNYEMGRTLGEGSFAKVKYAKNTVTGDQAAIK TRVGNYEMGRTLGEGSFAKVKYAKNTVTGDQAAIK KQTISYMAERVVGTGSFGIVFQAKCLETGESVAIK KQTISYMAERVVGTGSFGIVFQAKCLETGESVAIK VVGGKFKLGRKLGSGSFGEIFLGVNVQTGEEVAVK VIGGKFKLGRKIGSGSFGELYLGIN

16、VQTGEEVAVK VSKKYVPPLRPIGRGASGIVCAAWNSETGEEVAIK MGADDFELLTMIGKGAFGEVRVVREINTGHVFAMK 序列标识图:序列标识图:WebLogoWebLogohttp:/ FASTA格式的多序列比对结果20-30这一段有明显的序列特征,其他地方没有。在真核生物和古细菌的转录启动子上,有一个特殊的DNA片段,叫做TATA box。这段序列通常是 5-TATAAT-3 或者略有变化。TATA box是RNA聚合酶的结合位点。利用WebLogo,可以快速、直观地找到这一结合位点的位置。在核酸/蛋白质序列中存在有特定模式(pattern)的序列片段,这些片段称为序列的基序(基序(motifmotif)。序列基序与生物功能密切相关。例如,N-糖基化位点基序(N-glycosylation site motif)总是符合以下特定模式:Asn开始, 然后紧跟除了Pro之外的任何一个氨基酸,再紧跟Ser或者Thr,再紧跟除Pro外的任何一个氨基酸。这个特定模式可通过正则表达式(Regular expression)来表述:NPSTP 其中 N

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 生物学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号