第三章 序列对比和数据库搜索 (下),,4 BLAST程序简介,BLAST是现在应用最广泛的序列相似性搜索工具,相比FASTA有更多改进,速度更快 它建立在严格的统计学基础之上 http://www.ncbi.nlm.nih.gov/blast/,BlAST 工具主页面,4.1 BLAST搜索主界面,BLAST 2.2.12, 具体功能包括: (1)核酸数据库搜索:分为标准的核酸与核酸数据库搜索,MEGABLAST提供大量长序列的比较,完全匹配的短序列的搜索 (2)蛋白数据库搜索:分为标准的蛋白与蛋白数据库搜索;PSI-and PHI-BLAST,其中PSI用于搜索证实远源进化关系是否存在,进一步获取这个蛋白家族中的功能信息而PHI用于搜索蛋白基序;同样包括蛋白的完全匹配的短序列搜索 (3)已翻译蛋白的BLAST搜索包括:blastx、tblastn,Ctblastx4)保守区域的搜索:主要使用RPS-BLAST (5)配对序列的两两比较:用于核酸和蛋白的两两比较分析 (6)针对特定数据库的搜索:比如人类基因组、微生物基因组等 (7)检索已提交的申请结果:主要用于申请比较的序列较长,等待时间长时,只需记住申请的编号,在ID框中输入即可,但结果只保留24h。
4.2 BLAST 程序及其数据库名称和意义,,1) BLAST 程序,BLAST 蛋白质数据库,BLAST 的核酸数据库,4.3 BLAST搜索格式,BLAST搜索框中允许3种输入格式: FASTA 格式 单纯序列输入格式 标识符格式,FASTA格式,FASTA格式第1行是描述行,第1个字符必须是““字符;随后的行是序列本身,一般每行序列不要超过80个字符,各行之间不允许有空行,回车符不会影响程序对序列连续性序列由标准的IUB/IUPAC氨基酸和核酸代码代表;小写字符会全部转换成大写,序列可由基因库中调出,亦可输入如: gi|129295|splP01013|OVAX-CHICK GENE X PROTEIN (OVALBUMIN-RE-LATED) QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTR- EMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEVSDLERIEIKTINFEIKLTEJTNPNTMEIKRRVIKVYLPQMIKIEEIKYNVLMALGMTDLFIPSANLIBSQAVEHfGAFMELSEDGIEMAGSTGVIEDIHIK,核酸表示字符:,BLASTP、TBLASTN接受的氨基酸输入代码,A alanine (丙氨酸) P proline(脯氨酸) B aspartate or asparagine (天门冬氨酸) Q glutamine (谷氨酰胺) C cystine(胱氨酸) R arginine(精氨酸) D aspartate(天冬氨酸) S serine(丝氨酸) E glutamate(谷氨酸盐) T threonine(苏氨酸) F phenylalanine(苯丙氨酸) U selenocysteine(晒代半胺氨酸) G glycine(甘氨酸) V valine(缬氨酸) H histidine(组氨酸) W tryptophan(色氨酸〉 I isoleucine(异亮氨酸) Y tyrosine(酪氨酸) K lysine (赖氨酸) Z glutamate or glutamine L leucine (亮氨酸) X any(任何一种氨基酸) M methionine(蛋氨酸) *translation stop(翻译终止符) N asparagine(天冬酰胺) -gap of indeterminate length,2.单纯序列数据输入格式,该格式无FASTA描述定义行,亦可是GenBank/GMPept中的单纯文本格式。
如: QKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAEKMKEELPFASGDLSMLVLLPBEVSDLERIEKTIMEKLTEWTNPNTMEKRRVKVYLPQMIGEEKYNLTSVLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGEMAGSTGVIEDKHSPESEQFRADHP 1 qikdllvsss tdldttlviv naiyfkgmwk tafruedtre mpfhvtkqes kpvqmmcmm 61 sfnvatlpae lmkilelpfa sgdlsmlvll pdevsdleri ektideklt ewtnpImek 121 rrvkvylpqm kieelqnlts vlmalgmtdl fipsanltgi ssaesikhq avhgafmels 181 edgemagst gviedikhsp eseqfradhp flflildnpt ntivyfgryw sp,标识符格式,通常只输入NCBI存取号、存取号版号或基因库中的标识符号,如: p01013、AAA68881.1、129295 亦可有NCBI中带有分隔竖线的序列标识符,如: 1 gcttgcggaa gtcagttcag actccagecc gctccagecc ggcccgaccc gaccgcaccc 61 ggcgcctgcc ctcgctcggc gtccccggcc ageeatgggc ccttggagec gcagectctc 121 ggcgctgctg ctgctgctgc aggtctcctc ttggctctgc caggagecgg ageectgcca 181 ccctggcttt gacgccgaga gctacacgtt cacggtgccc 注意:3种输入格式输入时,蛋白质必须对应搜索蛋白质的程序,核酸必须对应搜索核酸的程序,5 同源性分析,以检索E-Cadherin部分序列为例: 打开BLAST搜索主页按以下选择: NCBI→BLAST→Nucleotide Nucleotid-nucleotide BLAST[blastn] 进入搜索界面,在“Search“框输入基因的标识符、单纯序列格式或FASTA格式,并可限制序列的起点和终点,根据需要选择数据类型(本例选nr),在高级选项中可进一步限定条件,设定好后点击BLAST按钮提交。
提示提交成功,进一步点击Format 可看结果5.1 待检核酸序列与整个核酸序列库中的序列进行类比,,,分别输入两个基因的标识符或FASTA格式的序列,碱基数不要超 过150kb,可进一步限定条件,然后点击BLAST按钮即可提交等待结果选择FORMAT 按钮显示结果,4.3 蛋白质与蛋白质数据库或蛋白质两两比较,(1)蛋白质与蛋白质数据库比较:选Protein BLAST中的Protein-Protein BLAST [blastp]与蛋白质数据库比较 输入方法基本与核酸比较相同,存取号或序列内容必须是蛋白质库中的 (2)蛋白质的两两比较: 在Alignment View 中选Pairwise , Matrix 选择比较矩阵(BLOSUM62)进行比较 序列输入格式同上其输出搜索结果,进一步点击Format按钮可看详细结果蛋白质两两比较结果,4.4 输出结果的解释,1)结果总览图,通用于蛋白质和核酸的结果表示图中列出了红、粉、绿、蓝、黑5种颜色,红色同源性最高,排在最上面,其他各种颜色同源性逐渐降低每条图代表搜索蛋白质匹配的序列如果出现阴影区,其对应的是2个或多个搜索数据库相似序列中的非相似区。
鼠标指在哪条图上,图上面的框中就会显示匹配蛋白质或核酸的名字结果总览图-----核酸,结果总览图-----蛋白质,显著性序列列表,最有显著性(同源性最高)的行排在最上面,其E值最低,排列行按E值增加排序,每行有4部分描述内容: ①数据序列标识符 ②对该序列简单描述 ③在每个数据库 中搜索得到的分数 ④E值,点击序列标识符可以连接到GenBank, 点击分数可连接到对应的序列比较行,行列比较,因申请者提交的要求不同,行列可有不同的输出形式,系统默认的是配对行列输出格式,即查询序列与数据库中匹配的序列垂直对应 针对蛋白质查询而言,相同的残基排在二序列之间,用“+”表示保守性残基 针对DNA而言,垂直线连接相同的碱基空位部分代表查询序列与检索匹配序列不一致 由于过滤作用,在低复杂区氨基酸查询序列可以包含Xs(核酸包含NS)HPSs中可列出每个检索数据库中的多个行列蛋白质行列比较结果,核酸行列比较结果,参数E的意义,相关的参数值E代表随机比较分值不低于实际比较分值的概率对于严格的比较, E值必须低于一定阈值,才能说明比较的结果具有足够的统计学显著性 界定值在搜索设置,系统默认为10,搜索的严谨度越高,E值越小。
若要比较短序列,获得更多的信息,则可增加E值到1000或更高;或降低字符大小(W),经验之法是查询序列至少是W的2倍,或禁止过滤功能的使用,或改变矩阵以优化搜索序列4.5 PSI-BLAST程序简介,PSI-BLAST----位点特异性反复比较BLAST(蛋白质) PSI-BLAST的特色是每次用Profile搜索数据库后再利用搜索的结果重新构建Profile,然后用新的Profile再次搜索数据库,如此反复直至没有新的结果产生为止PSI-BLAST先用带空位的BLAST搜索数据库,将获得的序列通过多序列比较来构建第一个Profile PSI-BLAST自然地拓展了BLAST方法,能寻找蛋白质序列中的隐含模式,这种方法可以有效地找到很多序列差异较大,而结构功能相似的相关蛋白,甚至可以与一些结构比较方法如Threading媲美,在BLAST查询页面有选择项也可以在FTP服务器上下载PSI--BLAST的独立程序PSI-BLAST选项,4.6 低复杂度区域与重复元件,不管是蛋白还是核酸都包含一些特殊的区域--低复杂度区域(LCRs),在进行序列数据库搜索时,这些区域可能会导致一些令人迷惑的结果。
数据库中的蛋白质有一半以上拥有至少一个LCRLCRs的进化、功能和结构 性质并不清楚在DNA中,有许多种简单的重复,其中一些已经知道是高度多态性的,并且在作基因图谱时经常使用的 对包含LCR的序列进行对比是不妥当的,因为这些序列不符合残基一残基序列守恒的模型有些时候与功能相关的属性可能仅仅是周期性或组成结构,而没有任何特异的序列 使用BLAST时,缺省情况下可以实行自动过滤如果对比的序列中有LCR,查询序列中会出现不明确的字符串(在原序列中没有出现)操作者可以使用BLAST程序来进行低复杂度区域的屏蔽当一个低复杂度区域被屏蔽掉的序列作为查询序列被提交给数据库进行检索时,在BLAST对比输出结果中,可能也会包括一些被屏蔽的分段序列这些过滤可以由BLAST程序完成低复杂度区域,重复元件,DNA序列的任何比较中,重复元件都必须引起足够的重视基因组序列可能会包含大量分散的重复序列,特别是一些多基因族,甚至mRNA序列中也可能含有重复序列,几乎都是非翻译区 重复元件在数据库序列中非常普遍,如果查询序列中也有这些重复,就会在对比中出现大量不正确的正分因此,在序列比较时必须屏蔽这些重复元件或手工删除。
工具软件包: CENSOR,辨别伪结果!,对比中注意与DNA序列编码区域相关的位点是非常重要的辨别伪结果的方法 如果非编码区域匹配而编码区域不匹配,那么反复序列就很令人怀疑 如果查询序列同大量序列匹配,这些序列相互之间没有什么关系,但是对比的分值都很相近,这样的结果就极为可疑。