实习1基因组数据分析课件

上传人:我*** 文档编号:145763166 上传时间:2020-09-23 格式:PPT 页数:72 大小:2.70MB
返回 下载 相关 举报
实习1基因组数据分析课件_第1页
第1页 / 共72页
实习1基因组数据分析课件_第2页
第2页 / 共72页
实习1基因组数据分析课件_第3页
第3页 / 共72页
实习1基因组数据分析课件_第4页
第4页 / 共72页
实习1基因组数据分析课件_第5页
第5页 / 共72页
点击查看更多>>
资源描述

《实习1基因组数据分析课件》由会员分享,可在线阅读,更多相关《实习1基因组数据分析课件(72页珍藏版)》请在金锄头文库上搜索。

1、课程内容,基因组学,转录物组学,蛋白质组学,系统生物学,实习一:基因组数据注释和功能分析,韩 序 冯 晔 楼小燕 莫 凡,通过序列比对工具BLAST学习,了解蛋白编码基因的功能注释原理 介绍多序列联配工具ClustalX 分子进化分析软件MEGA4的基本知识,掌握系统发生树绘制的基本方法,序列比对的进化基础,序列比对的目的: 从核酸以及氨基酸的层次去分析序列的相同点和不同点,以推测他们的结构、功能以及进化上的联系 通过判断两个序列之间的相似性来判定两者是否具有同源性 相似性:直接的数量关系,如:序列之间相似部分的百分比 同源性:质的判断,两个基因在进化上是否曾有共同祖先的推断,BLAST,基本

2、局部比对搜索工具(Basic Local Alignment Search Tool) NCBI上BLAST服务的网址: http:/www.ncbi.nlm.nih.gov/blast/ NCBI的BLAST程序及数据库下载网址: ftp:/ftp.ncbi.nlm.nih.gov/blast,选择物种,选择blast程序,QuerySequence,AminoacidSequence,DNASequence,tBLASTx,BLASTx,BLASTn,tBLASTn,BLASTp,Nucleotide Database,Protein Database,Nucleotide Databas

3、e,Nucleotide Database,Protein Database,Translated,Translated,Translated,以Blastx为例:,目标序列为ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC,6个读码框翻译,5端到3端 第一位起始: ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC 第二位起始: TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG

4、CGA CCA ATC TGC TTT ATA CCC GC 第三位起始: GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C 3端到5端 第一位起始: GCG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT 第二位起始: CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT 第三位起始: GGG TAT AAA GCA GAT TG

5、G TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T,与核酸相关的数据库,与蛋白质相关的数据库,选择数据库,序列或目标序列的GI号,以文件格式上传,配对与错配,空位罚分,打分矩阵: PAM30 PAM70 BLOSUM80 BLOSUM62 BLOSUM45,选择打分矩阵(scoring matrix),The PAM family Based on global alignments(总体(序列)对比) The PAM1 is the matrix calculated from comparisons of sequences with no mo

6、re than 1% divergence. PAM1是通过对比差异小于1%的序列之间得出矩阵打分的 Other PAM matrices are extrapolated from PAM1.其他的矩阵打分形式是从PMA1延伸而来的The BLOSUM family Based on local alignments.(局部(序列)对比) BLOSUM62 is a matrix calculated from comparison s of sequences with no less than 62% divergence. All BLOSUM matrices are based o

7、n observed alignments(比较,对照) ;they are not extrapolated(延伸; 推延) from comparisons of closely related proteins(关联蛋白).,进行比对的数据库,图形化结果,The Expect value (E) is a parameter(参数) that describes the number of hits(采样数) one can expect“ to see just by chance when searching a database of a particular size.,上机实习

8、1:网上运行blastx和blastn,(NCBIblast网址:http:/www.ncbi.nlm.nih.gov/BLAST/) lesson.seq.screen.Contig34 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTT

9、CAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCC

10、CAGCCACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGAT

11、AACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC 对contig34进行

12、网上blastn(演示), blastx(自行操作)比对 *由于时间关系,请参见预存结果。,本地运行BLAST,下载(http:/www.ncbi.nlm.nih.gov/blast/download.shtml) 安装(安装到C:) 数据库的格式化(formatdb) 程序运行(blastall),双击安装到D盘 产生三个文件夹 bin data doc,将数据库文件及目标序列 文件保存在Blast/bin文件 夹下,bin含可执行程序(将数据库及需要比对操作的数据放入该文件); data文件夹含打分矩阵及演示例子的序列数据信息; doc文件夹含关于各子程序的说明文档。,本地数据库的构建,查

13、看db文件,由fasta格式的序列组成,数据库的格式化,formatdb命令用于数据库的格式化: Formatdb option1 option2 option3 formatdb常用参数 -i database_name 需要格式化的数据库名称 -p TF 待格式化数据库的序列类型 (核苷酸选F;蛋白质选T;默认值为T) 例:format dbi dbp T,对蛋白质数据库“db”进行格式化,程序运行,blastall命令用于运行五个blast子程序: Blastall option1 option2 option3 *可在dos下输入blastall查看各个参数的意义及使用 blastal

14、l常用参数 四个必需参数 -p program_name,程序名,根据数据库及搜索文件序列性质进行选择; -d database_name,数据库名称,比对完成格式化的数据库; -i input_file,搜索文件名称; -o output_file,BLAST结果文件名称; 两个常用参数 -e expectation,期待值,默认值为10.0,可采用科学计数法来表示,如2e-5; -m alignment view options:比对显示选项,其具体的说明可以用以下的比对实例说明 例:blastall p blastx d db i in o out e 2e-5 m 9 (表格显示比对结

15、果),采用blastx程序,将in中的序列到数据库bd中进行比对,结果以表格形式输入到out文件,上机实习2:本地运行blastx,进入DOS命令行提示符状态(“运行”cmd) 进入C盘“cd” 进入包含序列数据的bin目录下“cd Blastbin” 察看目录下内容“dir” 格式化数据库db“formatdbi dbp T” 运行blastx “blastall p blastx i ind dbo out” 察看结果“more out ”或在 windows下双击打开,输入,数据库类型:F/T,Blast程序 序列输入 数据库 结果输出,输入“cd”-回车 回到安装目录C盘,输入“cd

16、blastbin”-回车 到达blast程序下bin文件夹,输入“dir”-回车 察看bin文件夹下内容,bin文件夹下包含以.exe为后缀的程序文件以及这次实习需要用到的数据可文件“bd”和目标序列文件“in”,输入“more db”-回车察看db文件内容,空格键翻页 输入“q”跳出,输入“formatdb i db p T”-回车 对db数据库进行格式化,输入“dir”-回车 察看bin文件夹下内容,格式化以后产生的文件,输入“blastall p blastx i in d db o out m 9” -回车 运行blastx程序,产生的结果文件“out”,用”more out” 察看结果文件,不使用m参数时 比对结果显示序列两两比对,用”more out” 察看结果文件,多序列比对的目的,从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。 通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。,多序列比

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号