《Clustalx多序列比对-生物信息学》由会员分享,可在线阅读,更多相关《Clustalx多序列比对-生物信息学(5页珍藏版)》请在金锄头文库上搜索。
1、1实验三:多条序列比对实验三:多条序列比对ClustalxClustalx实习目的:了解掌握Clustalx软件的应用,学会做多条序列比对并分析。 实习内容: 一、ClustalX 的使用Clustal 是一种利用渐近法(progressive alignment)进行多条序列比对的软件。即从多条序列中最相似(距离最近)的两条序列开始比对,按照各个序列在进化树上的位置,由近及远的将其它序列依次加入到最终的比对结果。1.准备要比对的序列请查找至少存在于5个物种中的同源序列(核酸或蛋白质皆可) ,并保存为fasta格式,存为文本文件(所有的序列请粘贴到同一个文本文件中) 。选择NM、XM或NP打头
2、的序列,不要选择NC或NW打头的序列,那是全基因组序列。建议关键词:hemoglobin,trypsin, peroxidase, p53, Superoxide Dismutase, h5n1, etc. 2. 打开 clustalX 程序开始菜单程序clustalX2- clustalX23. 载入序列点最上方的 File 菜单,选择 Load Sequence-选择你刚保存的序列文件,点打开。在左侧窗口里是 fasta 格式序列的标识号,取自序列第一行“”后的字符。注意:ClustalX 程序无法识别汉字,无法识别带空位的文件夹名,如 my document。各位同学的序列文件不要保存在
3、桌面上或带汉字的文件夹中,推荐保存在 D 盘根目录下。4. 比对参数的选择可以对两条序列比对的参数和多条序列比对的参数进行设置。a. 两条序列比对的参数设置 点击 Alilgnment 菜单,选择 Alignment Parameters,再选择 Pairwise Alignment Parameters。首先可 以选择比对的效果,是 slow/accurate 还是 fast/approximate。第一种模式采用的是动态规划算法进行 比对的,第二种模式采用的是启发式的算法。除非序列非常长,一般采用第一种模式。可以选择空位罚 分系统,要使用的 DNA 或蛋白质替换矩阵,也可以自己上传某个替换
4、矩阵进行比对。 b. 多条序列比对参数设置 点击 Alilgnment 菜单,选择 Alignment Parameters,再选择 Multiple Alignment Parameters。 5. 更改输出格式 点击 Alignment 菜单,选择 Output Format Options。 默认的是输出 clustal format,如果需要其它格式,可在复选框里打勾。PHYLIP 格式是利用 PHYLIP 软件 进行建树时,需要输入的格式。6. 进行比对点击 Aliglnment 菜单,选择 Do Complete Alignment.此时出现一个对话框,提示你比对结果保存的位置,你
5、在上一步选择了多少种输出格式,这里就需要给出多少个文件的路径。选择好了点 OK 即可。要得到理想的比对结果,你可能需要选择不同的参数,进行多次比对,最后再对各种比对结果进行分析,选择哪个是最合理的结果(the result making biological sense) 。比对结束后生成的 aln 文件是多条序列比对的结果,可以用记事本打开浏览。在某一列比对结果下方如果出现*,说明这列是完全匹配。dnd 文件是比对过程中生成的进化树,可以用 treeview 打开浏览。7. 迭代比对如果序列比对结果不理想,可以采用迭代选项,多次迭代寻找最佳比对结果。点击 Alignment 菜单,选择 it
6、eration,选择 iterate each alignment step 或 iterate final alignment.然后再点击 Aliglnment 菜单,选择 Do Complete Alignment 进行比对。8. 概型(Profile)比对模式以上介绍的都是 Multiple alignment Mode,ClustalX 还提供了一个概型比对模式,在菜单栏下方选择 Profile 2Alignment Mode,可以对两个比对结果(alignment, termed profile here)进行再比对,或将一条序列与一个比对结果(profile)进行比对。二、Tree
7、viewClustalx 产生的 guide tree(即后缀为 dnd 文件),可以通过 treeview 软件浏览。解压缩并安装 treev32.rar 文件。双击后缀为 dnd 文件,选择 treeview 程序打开即可。作业:1.Clustalx 是多条序列比对软件,为什么需要设置两条序列比对的参数?答:Clustal 是一种利用渐近法(progressive alignment)进行多条序列比对的软件。即从多条序列中最相似(距离最近)的两条序列开始比对,按照各个序列在进化树上的位置,由近及远的将其它序列依次加入到最终的比对结果,既是采用两两比较后再继续进行比较的方法,所以,需要设置两
8、条序列比对的参数。2.利用 entrez 或 srs 搜索来自于不同物种的同源序列(othologs),利用 clustalX 进行比对,给出所选序列简要信息(fasta 格式第一行) ,比对所用的参数,比对过程中产生的 guide tree(dnd 文件),并分析比对结果(序列之间相似度关系,保守位点所在位置等) 。答:简要信息: gi|23466358|gb|AF349413.3| Danio rerio estrogen receptor beta b mRNA, complete cds gi|145308317|gb|EF530592.1| Paramisgurnus dabryan
9、us estrogen receptor beta mRNA, partial cds gi|32186925|gb|AY305027.1| Halichoeres tenuispinis estrogen receptor beta mRNA, complete cds gi|2073112|dbj|AB003356.1| Anguilla japonica mRNA for estrogen receptor, complete cds gi|89037528|ref|NW_925528.1| Homo sapiens chromosome 14 genomic contig, alter
10、nate assembly (based on Celera), whole genome shotgun sequence gi|30962102|emb|AJ314602.1| Candidia barbatus mRNA for putative estrogen receptor gi|61097789|dbj|AB190290.1| Rutilus rutilus ERb mRNA for estrogen receptor beta, complete cds 比对所用参数:Guide tree:比对结果见附表 1: 附表 1:3Candidia TATCACTATGGTGTCTG
11、GTCATGTG-AGGGATGCAAGGCT-TTTTTCAAARutilus TATCACTATGGTGTCTGGTCATGTG-AGGGGTGCAAGGCT-TTCTTCAAADanio TATCACTATGGTGTCTGGTCATGTG-AAGGGTGCAAGGCT-TTCTTCAAGParamisgurnus TATCACTACGGGGTGTGGTCATGCG-AGGGGTGCAAGGCT-TTCTTCAAAHalichoeres TATCACTACGGTGTGTGGTCCTGCG-AGGGCTGTAAAGCA-TTTTTCAAGAnguilla TATCACTACGGGGTGTGG
12、TCCTGCG-AAGGCTGCAAGGCC-TTCTTCAAGHomo TA-CACTGAGGGACTGAGCCTGGTGTATATGGCAGCAAGACTGGATGGTGGCTTTGCAGC* * * * * * * * * * * * * * * Candidia -CGGAGCATTCAAGGACACAATGACT-ATATGTG-TCCAGCCACCAACC-Rutilus -CGGAGCATTCAAGGACACAATGACT-ATATTTG-TCCAGCCACCAACC-Danio -CGTAGCATTCAAGGTCACAATGACT-ATATTTG-TCCAGCCACCAACC-
13、Paramisgurnus -CGAAGCATTCAAGGACACAATGACT-ACATTTG-TCCAGCCACCAACC-Halichoeres -AGGAGTATCCAAGGACACAACGACT-ACATCTG-CCCTGCAACAAATC-Anguilla -AGGAGCATCCAAGGGCACAATGGCT-ACATCTG-CCCCGCCACCAACC-Homo AGTCTCCAGAGCATTCCATGAGATCCGGGCTCGAAATCCAGCATTTCAGCCACAAACTTT* * * * * * * * * * * * * * Candidia AGTGCACCATTG-
14、ACAAGAGCCGACGCAAAAGCTG-CCAGGCCTGTCGACTCCGRutilus AGTGCACTATTG-ACAAGAGCCGACGCAAGAGCTG-CCAGGCCTGTCGACTCCGDanio AGTGCACTATTG-ACAAGAGCAGACGCAAGAGCTG-TCAGGCCTGTCGACTCCGParamisgurnus AGTGCACCATCG-ACAAGAGTCGTCGTAAGAGCTG-TCAGGCCTGTCGATTCCGHalichoeres AATGCACTATCG-ACAAGAACCGGCGTAAGAGCTG-CCAAGCCTGCCGCCTACGAnguilla AGTGCACCATCG-ACAAGAACCGGCGCAAGAGCTG-CCAGGCCTGCCGACTCCGHomo GATGGACTTTGGCTCAGGTACTGGTTCTGTCACCTGGGCTGCTCACAGTATTTGGGGCCA* * * * * * * * * * * * Candidia CAAGTGCTATGAA-ATGGGCATGATGAAGTGTGGTGTGAGGCGGG-AACGCTGCARutilus CAAGTGCTATGAA-ACAGGCATGATGAAGTGTGGTGTGAGGCGGG-AACGCTGCADanio CAAGTG