《第三讲第二章Internet的核酸数据库资源》由会员分享,可在线阅读,更多相关《第三讲第二章Internet的核酸数据库资源(108页珍藏版)》请在金锄头文库上搜索。
1、Internet的核酸数据库资源生物信息学系王珍珍第二章第二章1分子生物学信息数据库分子生物学信息数据库1.核酸和蛋白质一级结构序列数据库核酸和蛋白质一级结构序列数据库2.基因组数据库基因组数据库3.生物大分子三维空间结构数据库生物大分子三维空间结构数据库4.上述三类数据库和文献资料为基础构建的二上述三类数据库和文献资料为基础构建的二级数据库级数据库2第一节第一节 核苷酸一级结构序列数据库核苷酸一级结构序列数据库GenBank,DDBJ,andEMBL是当前最全面、规模是当前最全面、规模最大的公共核酸数据库,收录了所有已知的核酸序列。最大的公共核酸数据库,收录了所有已知的核酸序列。这这3个中心
2、都可以独立地接受数据提交,而个中心都可以独立地接受数据提交,而3个中心之个中心之间则逐日交换信息,并制成相同的充分详细的数据库间则逐日交换信息,并制成相同的充分详细的数据库向公众开放向公众开放在这里以在这里以GenBank为例做详细介绍。为例做详细介绍。3一、一、 GenBank数据库数据库(一)GenBank的创建及维护1.创建于1982年,迅速发展于20世纪90年代2.1988年美国成立国立生物技术信息中心(NCBI)3.1992,NCBI承担起对GenBankDNA序列数据库的维护责任。4(二)GenBank的数据类型及来源数据类型数据类型1.任意长度的任意长度的cDNA片段片段2.单个
3、外显子单个外显子3.完整的完整的cDNA4.任意的基因片段,以致于包涵多个基因的片段任意的基因片段,以致于包涵多个基因的片段数据来源数据来源1.个人或大规模测序中心直接递交的数据个人或大规模测序中心直接递交的数据2.通过美国专利和商标局收集注册专利的序列信息通过美国专利和商标局收集注册专利的序列信息3.GenBank员工对员工对3400中杂志进行检索中杂志进行检索4.与与EMBL,DDBJ等大型数据库每日相互更新等大型数据库每日相互更新一、一、 GenBank数据库数据库5nGenBank每条数据包含对序列的精确描述,序列来源生物的科学名称及树状分类,以及特征数据栏,提供序列的蛋白编码区和具有
4、特殊生物学意义的位点,如转录单位(transcriptionunits)、突变或修饰位点(sitesofmutationsormodifications)及重复序列(repeats),还提供特定序列编码的蛋白质序列。参考文献还给出其在MEDLINE上的特定标识号。6网址:http:/www.ncbi.nlm.nih.gov/Genbank/7数据检索8910111213(三) GenBank数据库的结构14(三) GenBank数据库的结构151.EST数据库n分子生物学的中心法则就是指生物信息从DNA到RNA再到蛋白质,它构成了整个分子生物学的基础,反转录161.-表达序列标签,短的、单次(
5、测序)阅读的cDNA序列。也包括来自于差异显示和RACE实验的cDNA序列。2.长度经常介于200bp到500bp之间1.EST数据库17nhttp:/www.ncbi.nlm.nih.gov/dbEST/index.html18数据的提交n数据的提交n网址:http:/www.ncbi.nlm.nih.gov/BankIt/19t2021222324252627数据的访问形式1.访问GenBank-通过EntrezNucleotides来查询。用accessionnumber,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询。关于Entrez更多的信息请看下文。2.另外一种选择是
6、可以用FTP下载整个的GenBank和更新数据。3.用BLAST来在GenBank和其他数据库中进行序列相似搜索。用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器。281.通过Entrez Nucleotides来查询。293031322.通过ftp来访问dbEST。ftp:/ftp.ncbi.gov/repository/dbEST3334The following files are stored in this repository:35dbEST的数据格式ndbEST的数据格式nginumber(genInforidentifier)是一个唯一标识一个特
7、别序列的整数,每次当序列发生改变时gi编号将发生改变。n但是对应的EST的名字不一定会发生改变。36The following subdirectories exist:37nGenBank普通文件格式参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。nASN.1格式摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据。nFASTA格式定义行号后只跟随序列数据(示例),。FASTA格式38nFasta格式是一种相当标准的符合生物信息学的输出,很容易读取。nFASTA格式第一行是
8、描述行,第一个字符必须是“”字符;随后的行是序列本身,一般每行序列不要超过80个字符,回车符不会影响程序对序列连续性的看法。序列由标准的IUB/IUPAC氨基酸和核酸代码代表;小写字符会全部转换成大写;单个“-”号代表不明长度的空位;在氨基酸序列里允许出现“U”和“*”号;任何数字都应该被去掉或换成字母(如,不明核酸用“N”,不明氨基酸用“X”)。nFASTA格式是通常被用于序列比对的标准格式FASTA格式39nFASTA格式ngi|120475024|gb|DV935719.1|DV935719ART1LycopersiconesculentumcDNASolanumlycopersicum
9、cDNA,mRNAsequencenTCGAAACTTTTCAGTGATAAAAAGCTTGAGAGAAAGTGAAAATCTACAGGTAAAAGATGACACTGFASTA格式40n我如何将一条序列以Fasta格式输出?nFasta格式是一种相当标准的符合生物信息学的输出,很容易读取。Biojava中有一个SeqIOTools的类提供很多方便的静态方法,能够完成很多通用的符合生物信息学的输入输出任务。下面的例子展示如何将一条序列甚至整个SequenceDB以Fasta格式输出到一个输出流如System.out中FASTA格式数据的应用41nSeqnConverter3.0n将不同格式的序列
10、文件转换成FASTA格式软件FASTA格式数据的应用42n1转换多个文本文档中的序列为转换多个文本文档中的序列为FASTA格式:格式:所测序列保存在文本文档中,而且每个文档中只有一条序列,该功能可将其转换为通用格式FASTA格式,并将这些分散到多个文档中的序列合并到一个文本文档中,以便于操作。n2提取多个文本文档中的提取多个文本文档中的ncbiBLAST结果:结果:将Blast结果中Score值最高的同源基因信息保存在一个文本文档中,每个文本文档只保存一条同源基因的信息。然后,提取关键信息项(gi号、注释、SOURCE、Score值、bits、Expect值、Identities、Gaps、S
11、trand、function、product、chromosome)。n3提取一个文本文档中的提取一个文本文档中的ncbiBLAST结果:结果:从保存于一个文本文档里的批量Blast结果中选出Score值最高的同源基因信息,然后,提取关键信息项(注释、SOURCE、Score值、bits、Expect值、Identities、Gaps、Strand)。n4从总序列文件库中提取目标序列:从总序列文件库中提取目标序列:只需要目标序列的文件名列表文件(不包括扩展名的文本文档),可一次性自动地将这些条件序列从的所有查询序列文本文档库中提取出来。n应用实例FASTA格式数据的应用43The follow
12、ing subdirectories exist:44nDailyreportn拟南芥The following subdirectories exist:45The following subdirectories exist:46nBcpreadmeThe following subdirectories exist:47GenBank数据格式详解48(1)LOCUS表示的是序列在本数据库中的名称,它包含了此序列的功能信息。“6905121bp”表示序列长度“mRNA”代表本记录是一个RNA分子,(2)DEFINITION,在一个检索结果中列出的通常就是这一栏目的信息。包含了对此序列简单而
13、又明确的解释。(3)ACCESSION,序列收录号。它是数据库中序列永久性的编号,对于同一序列在所有的核酸数据库中,它都是统一的。.491.基本概念相似性,同源性2.Blast介绍Blast资源和相关问题3.Blast的应用网络版单机版4.深入了解Blast(改进程序,算法基础)5.其他的序列相似性搜索工具(fasta)3.用BLAST来在数据库中进行序列相似搜索50生物序列的相似性相似性:相似性:是指一种很直接的数量关系数量关系,比如部分相同或相似的百分比或其它一些合适的度量。比如说,A序列和B序列的相似性是80,或者4/5。这是个量化的关系。当然可进行自身局部比较。51同源性:同源性:指从
14、一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断质的判断。就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80都是不科学的。生物序列的同源性52相似性和同源性关系序列的相似性和序列的同源性有一定的关系,一般来说序列间的相似性越高的话,它们是同源序序列间的相似性越高的话,它们是同源序列的可能性就更高列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。 正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词。所以有出现A序列和B序列的同源性为80一说。53序列相似性比较和序列相似性比较
15、和序列同源性分析序列同源性分析序列相似性比较:序列相似性比较:就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等;序列同源性分析:序列同源性分析:是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等;54Blast简介(一)BLAST是由美国国立生物技术信息中心是由美国国立生物技术信息中心(NCB
16、I)开发的一个基于开发的一个基于序列相似性序列相似性的数据库搜索程的数据库搜索程序。序。BLAST是是“局部相似性基本查询工具局部相似性基本查询工具”(BasicLocalAlignmentSearchTool)的的缩写。缩写。55Blast是一个序列相似性搜索的程序包,其中是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序是根据查包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的。比如说查询的对象和数据库的不同来定义的。比如说查询的序列为核酸,查询数据库亦为核酸序列数询的序列为核酸,查询数据库亦为核酸序列数据库,那么就应该选择据库,那么就应该选择blast
17、n程序。程序。下表列出了主要的下表列出了主要的blast程序。程序。Blast简介(二)56主要的blast程序程序名程序名查询序列序列数据数据库搜索方法搜索方法Blastn核酸核酸核酸核酸核酸序列搜索逐一核酸数据核酸序列搜索逐一核酸数据库中的序列中的序列Blastp蛋白蛋白质蛋白蛋白质蛋白蛋白质序列搜索逐一蛋白序列搜索逐一蛋白质数据数据库中的序列中的序列Blastx核酸核酸蛋白蛋白质核酸序列核酸序列6框翻框翻译成蛋白成蛋白质序列后和蛋白序列后和蛋白质数数据据库中的序列逐一搜索。中的序列逐一搜索。Tblastn蛋白蛋白质核酸核酸蛋白蛋白质序列和核酸数据序列和核酸数据库中的核酸序列中的核酸序列6
18、框翻框翻译后的蛋白后的蛋白质序列逐一比序列逐一比对。TBlastx核酸核酸核酸核酸核酸序列核酸序列6框翻框翻译成蛋白成蛋白质序列,再和核酸数序列,再和核酸数据据库中的核酸序列中的核酸序列6框翻框翻译成的蛋白成的蛋白质序列序列逐一逐一进行比行比对。57Blast相关的问题n怎么获得blast服务,怎么使用的问题?n为什么使用blast,可以获得什么样的信息?n其他问题:实际使用时选择哪种方式(网络,本地化),参数的选择,结果的解释58Blast资源1.NCBI主站点:http:/www.ncbi.nlm.nih.gov/BLAST/(网络版)ftp:/ftp.ncbi.nlm.nih.gov/b
19、last/(单机版)2.其他站点:http:/ id)可以修改显示结果格式修改完显示格式后点击进入结果界面67结果页面(一)图形示意结果68结果页面(二)目标序列描述部分带有genbank的链接,点击可以进入相应的genbank序列匹配情况,分值,e值69结果页面(三)详细的比对上的序列的排列情况70一个具体的例子(blastp)假设以下为一未知蛋白序列query_seqMSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYY
20、LGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMS
21、GASADSTQA我们通过blast搜索来获取一些这个序列的信息。71具体步骤1.登陆blast主页http:/www.ncbi.nlm.nih.gov/BLAST/2.根据数据类型,选择合适的程序3.填写表单信息4.提交任务5.查看和分析结果72分析过程(一)1.登陆ncbi的blast主页2.选择程序,因为查询序列是蛋白序列可以选择blastp,点击进入也可以选择tblastn作为演示,我们这里选blastp73分析过程(二)3.填入序列(copypaste)Fasta格式,或者纯序列4.选择搜索区域,这里我们要搜索整个序列,不填5.选择搜索数据库,这里我们选nr(非冗余的蛋白序列库)。是
22、否搜索保守区域数据库(cdd),蛋白序列搜索才有。我们选上74分析过程(三)6.限制条件,我们限制在病毒里面找。7.其他选项保持默认值打分矩阵75分析过程(四)8.输出格式选项保持默认值9.点击开始搜索76分析过程(五)10.查询序列的一些相关信息在cdd库里面找到两个保守区域,点击可以进入77分析过程(六)图形结果78分析过程(七)匹配序列列表79分析过程(八)具体匹配情况80为什么使用单机版的Blast?1.特殊的数据库要求。2.涉及序列的隐私与价值。3.批量处理4.其他原因?单机版的Blast使用(一)81单机版Blast的基本操作过程1.下载单机版的Blast程序ftp:/ftp.nc
23、bi.nlm.nih.gov/blast/executables/目录下,下载对应的操作系统版本。2.解压程序包(blast.tar.gz)命令是:$tarzxvfblast.tar.gz单机版的Blast使用(二)823.获取Blast数据库a.直接从ncbi下载ftp:/ftp.ncbi.nlm.nih.gov/blast/db/b.用Blast程序包提供的formatdb工具自己格式化序列数据成数据库。假设有一序列数据(sequence.fa,多序列,fasta格式),欲自己做成Blast数据库,典型的命令如下:单机版的Blast使用(三)83核酸序列:$./formatdbiseque
24、nce.fapFoT/Fndb_name蛋白序列:$./formatdbisequence.fapToT/Fndb_name单机版的Blast使用(四)844.执行Blast比对获得了单机版的Blast程序,解压开以后,如果有了相应的数据库(db),那么就可以开始执行Blast分析了。单机版的Blast程序包,把基本的blast分析,包括blastn,blastp,blastx等都整合到了blastall一个程序里面。单机版的Blast使用(五)85以下是一个典型的blastn分析命令:(待分析序列seq.fa,数据库nt_db)$./blastallpblastniseq.fa-dnt_db
25、w7e10o程序名输入数据库窗口e值输出seq.blastn.out该命令的意思是,对seq.fa文件中的核酸序列对nt_db数据库执行blastn搜索,窗口大小是7,e值限制是10,输出的结果保存到文件seq.blastn.out中。单机版的Blast使用(六)865.Blastall的常用参数-p程序名应该是blastn,blastp,blastx,tblastn,tblastx中的一个-d数据库名称,默认nr-i查询序列文件,默认stdin-eE值限制,默认10-o结果输出文件,默认stdout-F过滤选项,默认T单机版的Blast使用(七)87进一步深入Blast1.blast22.M
26、egablast3.Psi-blast4.其他(rpsblast,blastclust等)88Blast2两个序列的blast比对,给定两个序列,相互进行blast比对。能快速检查两个序列是否存在相似性片断或者是否一致。这比起全序列比对要快很多。89Megablast nmegablast采用了贪婪算法(greedyalgorithm),它连接了多个查询序列进行一次搜索比对,这样节省了很多搜索数据库的时间。主要针对核酸序列。是blast经过优化后,适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较,比一般的相似性搜索程序要快10倍,可以很快的完成两组大数据的比对。90PSI-blast
27、PositionspecificiterativeBLAST(PSI-BLAST)位点特异的迭代blast搜索,主要针对蛋白序列。第一次blast搜索后,结果中最相似的序列重新构建PSSM(位点特异性打分矩阵),然后再使用该矩阵进行第二轮blast搜索,再调整矩阵,搜索,如此迭代。最终高度保守的区域就会得到比较高的分值,而不保守的区域则分数降低,趋近0。这样可以提高提高blast搜索的灵敏度。搜索的灵敏度。91Blast的算法基础n基本思想是:通过产生数量更少的但质量更好的增强点来提高速度。nBALST算法是建立在严格的统计学的基础之上的。它集中于发现具有较高的相似性的局部比对,且局部比对中不
28、能含有空位(blast2.0引入了允许插入gap的算法)。n由于局部比对的限制条件,在大多数情况下比对会 被 分 解 为 若 干 个 明 显 的 HSP(High-scoreSequencePairs)。92Blast的算法流程93其他的序列相似性搜索工具 fasta FastA算法是由Lipman和Pearson于1985年发表的(Lipman和Pearson,1985)。FastA的基本思路是识别识别与代查序列相匹配的很短的序列片段与代查序列相匹配的很短的序列片段,称为k-tuple。以下链接是EBI提供的fasta服务。 http:/www.ebi.ac.uk/fasta33/ 94帮助
29、信息各个参数选项填入搜索序列95n基本思想是:一个能够揭示出真实的序列关系的比对至少包含一个两个序列都拥有的字(片断),把查询序列中的所用字编成索引,然后在数据库搜索时查询这些索引,以检索出可能的匹配,这样那些命中的字很快被鉴定出来。FASTA算法基础96注意nFASTA对DNA序列搜索的结果要比对蛋白质序列搜索的结果更敏感。它对数据库的每一次搜索都只有一个最佳的比对,一些有意义的比对可能被错过。97两个保守区域的信息返回98作业 (一)1.使用entrez获取登录号为P26374的蛋白序列,然后通过blastp,搜索nr库中最相似的10个序列(只显示10个最相似的序列)。2.获取M25113序列,blastp搜索SwissProt库中的相似序列。3.获取P03958序列,进行psi-blast搜索,看看结果和blastp搜索有什么不同。994.序列U93237,blastn搜索人类的est库,5.通过entrez随机获取一个蛋白激酶(proteinkinase)的序列(核酸序列),然后通过blastn搜索该序列的同源序列。作业 (二)1001. GSS数据库1.GSS(GenomeSurverySequence)101102103104105106107108