如何做序列的blast分析

资源描述

《如何做序列的blast分析》由会员分享，可在线阅读，更多相关《如何做序列的blast分析（25页珍藏版）》请在金锄头文库上搜索。

1、1,如何做序列的BLAST分析,2,内容提要,Blast简介 Blast相关问题 Blast的应用示例,Blast简介,BLAST 是NCBI中用来将一个蛋白质或DNA序列和各种数据库中的其他序列进行比对的主要工具。 BLAST搜索是研究一个蛋白质和基因的最基本的方法之一。 Blast具有非常广泛的运用确定特定的蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列确定哪些蛋白质和基因在特定的物种中出现确定一个DNA或蛋白质序列身份发现新基因确定一个特定基因或蛋白质有哪些已经发现了的变种研究可能存在多种剪切方式的表达序列标签寻找对于一个蛋白质的功能和/或结构起关键作用的氨基酸残基,

2、3,主要的blast程序,4,5,主要的blast程序,6,具体步骤,1. 登陆blast主页 http:/www.ncbi.nlm.nih.gov/Blast.cgi 2. 根据已有序列类型和搜索目标，选择合适的blast程序 Blastn，Blastp，Blastx等 3. 填写表单信息选择要搜索的数据库，并修改一些可选参数等 4. 提交任务 5. 查看和分析结果,具体步骤,输入要分析的序列,7,三种主要的输入方式剪切然后粘贴DNA或蛋白质序列使用FASTA格式的序列简单地使用索引号码(如一个RefSeq 或GenBank (GI)的序号),具体步骤,选择要搜索的数据库（blas

3、tp）,8,Nr数据库合并了若干个主要的蛋白质或DNA数据库数据库有相同的序列，但nr 数据库只收录一个典型和常用的数据库,具体步骤,选择要搜索的数据库（blastn）,9,具体步骤,调整可选参数 1. Limit by Entrez Query,10,可以用任何一种范围限定词来限定NCBI BLAST搜索的范围,具体步骤,调整可选参数 2. Max target sequences：比对之后显示的最大的比对序列的数目,11,具体步骤,调整可选参数 3. Expect threshold：期望值E是得分大于或等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。,12,默

4、认值是10，表示随机出现得分等于或高于比对得分S的期望数为10个。当将期望选项值调小时，返回的数据库搜索结果将变少，匹配被搜索到的概率也会变小。增大E值将返回更多的结果。,具体步骤,调整可选参数 4. Word size（字段长度）,13,蛋白质搜索，默认值是3 核酸序列搜索，默认值是11 改变字段长度可以影响搜索精度和速度,具体步骤,调整可选参数 5. Matrix （打分矩阵）,14,在一次BLAST搜索中，可以尝试使用几种不同的打分矩阵高PAM值取代矩阵适合于差异较大的序列低BLOSUM62值的取代矩阵适合于差异较大的序列,具体步骤,调整可选参数 6. Compositi

5、onal adjustments，默认选择，一般来说可改善E值的统计计算和提高灵敏度(减少返回的假阳性结果的数目),15,具体步骤,调整可选参数 7. Filter （选择性过滤条件）, 过滤器将锁定诸如组成低复杂序列区(如Alu序列)，用一系列N（任意碱基）替代这些程序,16,过滤对绝大多数序列是有利的，可以帮助避免那些假的数据库匹配但某些情况下可信的匹配也会过滤掉,具体步骤,Blast输出结果上部 BLAST搜索的类型、关于查询内容和所搜索的数据库的描述以及一个分类连接可以将结果按照物种进行分类中部数据库中序列与查询序列相匹配的项的列表，分为图像和列表两种描述方式下部一系列的

6、两两序列比对， 4种衡量的分数：比特分数、期望分数、一致性百分比、正性(相似性百分比),17,具体步骤,Blast输出结果,18,具体步骤,Blast输出结果,19,每一个条带表示数据库中的一个与查询序列相匹配的蛋白质或核酸序列，被标以不同颜色表示亲缘关系的远近(根据比对的分)，最接近匹配用红色表示。,High scores low e values,20,具体步骤,Blast输出结果 Score 使用打分矩阵对匹配的片段进行打分，这是对各对氨基酸残基（或碱基）打分求和的结果，一般来说，匹配片段越长、相似性越高则Score值越大。 E value 在相同长度的情况下，两个氨基酸残基（或

7、碱基）随机排列的序列进行打分，得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。,具体步骤,Blast输出结果，改变格式,21,BLAST搜索策略总图示例,如何处理过多的结果在“limit Entrez query”窗口输入“refseq”，这样所有返回结果都带有一个refseq号，可去掉冗余的数据库匹配结果。利用生物体的种类对数据库返回结果作出限制。利用序列的一部分进行搜索。如利用独立的结构域序列就可进行多结构域蛋白的检索。调整打分矩阵使其更恰当地体现你的query和数据库匹配之间的相似度。调整期望值。降低E值可减少返回的数据库中的匹配项。,BLAST 搜索的一些策略,如何处理过少的结果很多基因或蛋白在数据库中没有或只有极少数的匹配项。当新的微生物基因组测序完成时，预测到的蛋白质有一半不和其他任何蛋白相匹配。用于提高BLAST搜索得到的数据库匹配项数目的策略：去掉Entrez限制，提高期望值，尝试更高PAM值或更低BLOSUM值的打分矩阵。还可从更多附加数据库中搜索。在NCBI站点上，可搜索所有可提供的数据库如HTGS和GSS，很多基因组序列中心保存着不同的数据库可通过BLAST 进行搜索。,BLAST 搜索的一些策略,谢谢!,25,

展开阅读全文