Windows平台下新版blast(2.2.24+)本地化构建+数据库下载+序列间的相似性检索从这个版本开始,本地化blast的参数有了很大改变,NCBI新近对blast程序做了一些修改推出了blast+,目前最新版本为ncbi-blast-2.2.24+-ia32-win32与之前的blast相比,新的blast+将blastn,blastx等合作与blastall命令分隔开来,对各个命令的参数定制更加方便而网上相关的一些教程大同小异,一部分操作已经不适用了,遂整理如下,仅供参考,不当之处,敬请指正blast+的本地化构建1.1程序下载链接至H:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST下载最新的BLAST+程序包,推荐版本(绿色版windows32位系统),其他版本:ncbi-blast-2.2.24+-win32.exe适用于windows32位系统,ncbi-blast-2.2.24+-win64.exe适用Windows64位系统,请注意选择1.2安装流程建议安装在非系统盘,如将下载的BLAST程序安装到E:\blast,生成bin、doc两个子目录,其中bin是程序目录,doc是文档目录,这样就安装完毕了。
UninstBlIingfrom:詡I□N匚印BLAST2J.24+UninstallEiyalastyhdlsoftInsldl为咳umv2:.36CancelUhinstHINCBI+yewenrrputer.NCBiBLAST22.2*14Mlbeuninstslled-franithefolawingfolder・CickUninatdltsstarttheuninstdlaiion・1.3用户环境变量设置右键点击“我的电脑”一“属性”,然后选择“高级系统设置”标签一“环境变量”(图1),在用户变量下方“Path”随安装过程已自动添加其变量值,即“E:\Blast\bin”此时点击“新建”一变量名“BLASTDB”,变量值为“E:\Blast\db”(即数据库路径,图2)1.4查看程序版本信息点击Windows的“开始”菜单,输入“cmd”(XP系统在运行中输入cmd)(图3)调出MS-DOS命令行,转到Blast安装目录,输入命令“blastn-version”即可查看版本(图4):cmd贰卜J:Xblast>blastn-uersiontlastn:+*ackage:blast2.2.24^buildAug132&1&13:34:38看到图4显示说明本地blast已经安装成功。
2.blast+本地数据库的构建2.1数据的获取法1:直接从NCBI或者其他数据库网站下载所需序列做成数据库,或者自己已有的测序数据(格式必须是fasta,名字可以自己随便命名,具体做法下面有说明)法2:从NCBI中的ftp库下载所需要的某一个库或几个库,其链接为其中nr.gz为非冗余的数据库,nt.gz为核酸数据库,为最近一个月的核酸序列数据下载的先用winrar解压缩,然后用makeblastdb.exe格式化法3:利用新版blast自带的update_blastdb.pl进行下载,这需要安装perl程序上述三种方法各有优缺点,前两种下载速度较快,但是每次进行检索都需要对数据库进行格式化(转化成二进制数据),第三种方法下载速度较慢,但是是NCBI中已经格式化好的,在进行本地检索时不需再进行格式化,直接用即可2.2数据的格式化本文以ratwy.fasta作为查询序列,以rat.fasta作为数据库文件为例进行讲解首先将rat.fasta放到E:\blast\db文件夹下,然后调出MS-DOS命令行,转到E:\blast\db文件夹下运行以下命令:格式化rat.fasta命令:-in参数后面接将要格式化的数据库,-parse_seqids,-hash_index两个参数一般都带上,主要是为blastdbcmd取子序列时使用,-dbtype后接所格式化的序列的类型,核酸用nucl,蛋白质用prot;如图至此,本地数据库已经建立完毕!!!3.序列间的相似性检索BLAST+系列程序均要求查询序列以fasta格式存在,fasta格式已经程序事实上的序列标准被广泛采用,几乎所有的序列处理程序都要求fasta格式。
所谓FASTA格式是指DNA序列第一行开始于一个标识符:"〉”,紧接着(没有空格)是对该序列的唯一描述(即ID),然后一个空格,接着是对该序列的描述(也可以没有)从第二行开始就是一行行的序列,中间的空格,换行没有影响为了方便阅读,每一行序列最好不要超过80个字母详细的说明请看着这里本文以ratwy.fasta作为查询序列,以rat.fasta作为数据库文件为例进行讲解首先将ratwy.fasta放到E:\blast文件夹下,然后调出MS-DOS命令行,转到E:\blast文件夹下运行以下命令:相关参数说明:blastp.exe程序执行命令,exe前的程序根据自己的需要而换;-task后面选择你所要用的程序,blastn,blatp,tblastx等;-query后接查询序列的文件名称;-db后接格式化好的数据库名称;-out后接要输出的文件名称及格式;如图:E:\blas七》bias七卩■吕>:巳—taskhlas七p—que_£as七曰—dbrat.fasta-outi'a七七■七x七E:\hlast>比对结束后可在blast文件夹下查看结果,本文存结果的文件名为ratwy_rat.txt。
4.从格式化本地数据库到序列比对如图:1=11回DB,cLii'penttime:03/25/201114:18:28rat-fas:tarat-fas:taProteintmiC:\Windows\system32\cmcdblast\dbE:XblastXdb>makeblastdb.exe—inrat=.fasta-parse_seqids-liash_index-dbtypeprotBuildinganewNeuDBname:NeuDBtitle:Sequencetype:KeepLinkouts:KeepMBit=s:TMaximumfilesize:1073741824BAddingsequencesft'omFASTA;added202sequencesin0-0784839seconds.E:Xblaet\db>cd..IE:Xblast>blastp.exe-t=askblastp-queryratwy■:-dbrat已-outratwy_rat-txt核酸的比对与蛋白质相似,用blastn.exe。
blastn的相关命令参数可用blastn-help命令查询,blastp的相关命令参数可用blastp-help查询,依次类推,如图这里面有很多参数,比上网找参数的意义省事的多,这个就得自己研究吧!E:\h1-as七1-as七卩—lielpJSAGE1j1cl$七¥[—JiJ[—310lpJ[—inpoi'-t_sc-arcJi___si;£±lcn-Linc][—exporx_searcli_sXrare_yfilenane][—xasTtraslt_naiie][—dbdarabase_nane][—dJisizenuii__letters][—gilistfilenane]L—seqicllistfilenane][—negativeQilistfilenane][—entrez_<(uerentrez_querij][—dh__sof±_vm^sJcfiltaaa*in*j_l^fO3*l±lmn][—su.hje!C±suhjeict_Irt卫ut:_file1[—43r.i1jJcc七_loo]L—Inpu七_JF1lc][—ou七打口七卫」七_Jf1lc][—evalueev-cilue][—祁o於白_斗IzeinX_vlue][—
这确实又是BLAST+新版另外一个最大的提高,非常非常方便本人的一些工作就依赖于BLAST结果的解析,有了这个参数,就不需要解析BLAST结果了,确实很好很强大具体如何使用,各位可以摸索一下,非常简单希望各位战友将自己的经验分享以将blast越用越好附:以下来自于网友个人在使用blastn的过程中总结了一些自认为常用的参数,总结如下:blastn-dbdatabase_name-queryinput_file-outoutput_file-evalueevalue-max_target_seqsnum_sequences-num_threadsint_value-outfmtformatformat_stringblastn-dbdatabase_name-queryinput_file-outoutput_file-evalueevalue-max_target_seqsnum_sequences-num_threadsint_value-outfmtformat"7qaccsaccevaluelengthpident"例如:0.00001-max_target_seqs5-num_threads4-outfmtformat"7qaccsaccevaluelengthpident"blastn:这个不用说了吧,核酸对核酸的比对-db:指定blast搜索用的数据库,详见上篇文章-query:用来查询的输入序列,fasta格式-out:输出结果文件-evalue:设置e值cutoff-max_target_seqs:设置最。