文档详情

BLAST相似序列的数据库搜索

汽***
实名认证
店铺
DOC
241KB
约5页
文档ID:416443692
BLAST相似序列的数据库搜索_第1页
1/5

实习 4 : BLAST相似序列的数据库搜索 学号 20090**** 姓名 ****** 专业年级 生命生技**** 实验时间 2012.6.19 提交报告时间 2012.6.20 实验目的:学习使用BLAST在数据库中搜索相似序列实验内容:使用NCBI上面的BLAST程序进行相似性序列搜索:1. 把核酸序列利用BLASTN搜索相似核酸序列;2. 把蛋白质序列对应的蛋白质利用BLASTP搜索相似蛋白质序列;3. 把核酸序列利用BLAST搜索相似蛋白质序列并与BLASTP比较,体会差异:4. 把蛋白质序列利用TBLASTN搜索相似核酸序列并与BLASTN比较,体会差异:5. 把核酸序列利用TBLASTX搜索相似核酸序列并与BLASTN比较,体会差异作业:1. 找一条你感兴趣的核酸序列(可以是前面搜索到的同源核酸序列中任意一条),通过BLASTN搜索NR数据库,说明你的参数如何设置,分析搜索结果包含哪些信息答:使用的序列为:智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA。

Algorithm parameters设置如下:参数:Enter Query Sequence——NM_001185098Choose Search Set——Database: Nucleoctide collection(nr); Exclude: √Models(XM/XP),√Uncultured/environmental ample sequencesProgram Selection——Optimize fot: Highly similar sequences展开“Algorithm parameters”,依次设置:General Parameters——Max target sequence:100; Short queries:√ ; Expect threshold:10;Word size:28; Max matches in a query range:0Scoring Parameters——Matrix/Mismatch Scores:1,-2; Gap Costs: LinearFilters and Masking——Filter: √Low complexity regions; √Mask: mask for lookup table only搜索结果分析:使用智人胰岛素(INS)>gi|297374822|ref|NM_001185098.1| Homo sapiens insulin (INS), transcript variant 3, mRNA搜索NR数据库,搜索出100条符合条件的序列,序列来自的物种包括了Homo sapiens,Pan troglodytes,Gorilla gorilla,Pongo abelii,Pongo pygmaeus,Mus musculus等,其中根据得分高低排列,前7条序列如下所示:NM_001185098.1 Homo sapiens insulin (INS), transcript variant 3, mRNANM_001185097.1 Homo sapiens insulin (INS), transcript variant 2, mRNANM_000207.2 Homo sapiens insulin (INS), transcript variant 1, mRNANG_007114.1 Homo sapiens insulin (INS), RefSeqGene on chromosomeAC132217.15 Homo sapiens chromosome 11, clone RP11-889I17, complete sequenceBC005255.1 Homo sapiens insulin, mRNAJ00265.1 Human insulin gene, complete cds上述序列的“Max ident”均为100%或99%,且E-Value值很低,可见搜索出来的序列与QUERY序列匹配的相似度很高。

2. 将上题中核酸序列对应的蛋白质序列,分别进行BLASTP和PSI-BLAST搜索,说明你的参数设置,简明操作步骤,分析搜索结果,体会PSI-BLAST的优势答:对应的蛋白质序列为:>gi|297374823|ref|NP_001172027.1| insulin preproprotein [Homo sapiens](1)BLASTP搜索简明步骤:在搜索到的NP_001172027.1页面选择“Run BLAST”链接,进入blastp搜索界面,设置合适参数,点击BLAST按钮参数:Enter Query Sequence——NP_001172027.1Choose Search Set——Database: Non-redundant protein sequences(nr);Exclude: √Models(XM/XP),√Uncultured/environmental ample sequencesProgram Selection——Algorithm: blastp展开“Algorithm parameters”,依次设置:General Parameters——Max target sequence:100;Short queries:√ ;Expect threshold:10;Word size:3;Max matches in a query range:0Scoring Parameters——Matrix:BLOSUM62;Gap Costs:Existence:11Extension:1;Compositional adjustments: Conditional compositional score matrix adjustmentFilters and Masking——Filter: √Low complexity regions结果分析:预测的保守结构域如下图所示:用insulin preproprotein [Homo sapiens].蛋白序列搜索到了Homo sapiens insulin [synthetic construct,insulin preproprotein [Pan troglodytes],insulin (predicted) [Oryctolagus cuniculus]等序列,其中打分最高的七条序列截图所示如下:上述序列Query coverage均为78%,Max ident均为100%,可见搜索到的序列和QUERY序列相似性很大,且其中一些为人工合成序列(synthetic construct),一些为其他物种的相似性匹配序列,由E-Value等参数看出,上述序列的相似性都很高,但是是否同源应该通过系统发育分析来进一步判断。

2)PSI-BLASTP搜索:简明步骤同BLASTP类似,仅仅在Program Selection处选Algorithm——PSI-BLAST (Position-Specific Iterated BLAST),其他参数与BLASP相同第一次搜索后结果和BLASTP结果一致,接着进行第1轮迭代搜索:Run PSI-Blast iteration 2 with max100,结果如下所示:由搜索出的结果看出,搜索出的上述序列和QUERY序列相似性很大,和QUERY序列具有同源关系PSI-BLASTP搜索结果和BLASTP搜索结果的排列顺序有所改变,说明通过迭代矩阵搜索出来的结果和通过BLOSUM62打分矩阵搜索出来的结果有差异,但是打分较高的序列中均为第一次已经搜索出来的序列,仅在在打分值较低的序列中出现很多第一次搜索时没搜索出来的新序列进行第2轮迭代搜索,Run PSI-Blast iteration 3with max100,得到的结果中,搜索出来的新基因比上一次明显减少,虽然搜索结果中序列排列不一样,但是相似度高的序列依然是排在前面这也说明上次迭代矩阵搜索出来的结果准确度较高同时,从利用PSI-BLASTP搜索的结果看出,PSI-BLASTP可以搜索出一些BLASTP搜索不出来的序列,同时由于PSI-BLASTP考虑了核酸替换的概率差异性问题,可以使得搜索结果更接近蛋白质进化的真实情况。

3. 将第2题中的蛋白质序列利用TBLASTN程序进行搜索,说明你的参数设置,比较它与BLASTN结果有无差异答:在blastp程序界面输入序列ID:NP_001172027.1,设置参数,运行BLAST参数设置如下所示:Enter Query Sequence——NP_001172027.1Choose Search Set——Database: Nucleoctide collection(nr)Exclude: √Models(XM/XP),√Uncultured/environmental ample sequencesAlgorithm parameters参数设置和BLASTN一致搜索结果如下图所示:由以上搜索结果看出,TBLASTN搜索结果和BLASTN搜索结果存在差异性,虽然大部分BLASTN搜索出来的相似性核酸序列通过TBLASTN都能搜索出来,但是由于打分的差异导致搜索排列不一致,同时由上图看出,TBLASTN搜索出来的结果中很多人工合成的序列排在了前面通过改变选择的数据库比如选refseq数据库,可以消除这种现象另外,BLASTN搜索结果和TBLASTN搜索结果的不一致之处在于匹配的序列起始位点不一致,比如下图为BLASTN搜索结果:下图为TBLASTN搜索结果:BLASTN搜索结果和TBLASTN搜索结果显示匹配信息的不一致可能是由于核酸序列中仅有编码区翻译成相应的蛋白质,所以TBLASTN搜索相当于利用了核酸序列的编码区搜索,而BLASTN搜索则是把核酸序列的全长搜索核酸数据库。

4. 将第1题中的核酸序列利用BLASTX程序进行搜索,说明你的参数设置,比较它与BLASTP搜索结果有无差异答:在blastx程序界面输入序列ID:NM_001185098.1,设置参数,运行BLAST参数设置为:Enter Query Sequence——NM_001185098Genetic code:Standard(1)Choose Search Set——Database: Non-redundant protein sequences(nr);Exclude: √Models(XM/XP),√Uncultured/environmental ample sequences其他参数设置和第2题相同搜索结果如下图所示:BLASTX搜索是把核酸序列按6条链翻译为蛋白质后搜索蛋白质序列数据库BLASTX搜索通过搜索蛋白质数据库进行序列相似性搜索,可以更好地匹配功能上有联系的核酸序列上述搜索结果显示,和BLASTP搜索结果相比,BLASTX搜索结果相似,但是也存在差异下图分别显示了BLASTP搜索结果和BLASTX搜索结果通过上述搜索结果的对比可以发现,BLASTP搜索的时候是利用蛋白质序列的全长在蛋白质数据库里。

下载提示
相似文档
正为您匹配相似的精品文档