《生物学数据库及其检索》由会员分享,可在线阅读,更多相关《生物学数据库及其检索(62页珍藏版)》请在金锄头文库上搜索。
1、第二章第二章 生物学数据库及其检索生物学数据库及其检索第一节第一节 生物学数据库简介生物学数据库简介Chapter 2一、什么是数据库?一、什么是数据库?数据库(database) 是一类用于存储和管理数据的计算机文档,是统一管理的相关数据的集合,其储存形式有利于数据信息的检索与调用。二、生物学数据库二、生物学数据库 在生物信息学者们的努力下,人类基因组序列数据连同其它多种模式生物的序列数据及各自相应的基因结构与功能信息皆可供众多生物学家们免费接入与使用。humanArabidopsisThermotoga maritimaEscherichia coliBuchnerasp. APSRick
2、ettsia prowazekiiUreaplasma urealyticumBacillus subtilisDrosophila melanogasterThermoplasma acidophilumPlasmodium falciparumHelicobacter pylori mouseCaenorhabitis elegansratBorrelia burgorferiBorrelia burgorferiAquifex aeolicusNeisseria meningitidis Z2491Mycobacterium tuberculosis 模式生物模式生物模式生物基因组计划模
3、式生物基因组计划模式生物基因模式生物基因模式生物基因模式生物基因组计组计划划划划 酵酵母母、线虫虫、果果蝇、细菌菌、拟南南芥芥等等共共约5050多多多多种种种种已完成,已完成,7070余种余种余种余种正在正在进行。目前行。目前总量已达量已达6060亿亿碱基碱基对! virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsGenome sizes in nucleotide pairs (base-pairs)10410810510610710111010109bony fishamphibians生物学
4、数据库的分类生物学数据库的分类根据数据存放类型:根据数据存放类型:序列(三维)结构文献序列特征基因组图谱表达谱 。根据数据存储的根据数据存储的具体内容:具体内容:一级数据库二级数据库专用数据库(一)一级数据库和二级数据库(一)一级数据库和二级数据库一一级级数数据据库库(Primary database):库中的主要内容来源于实验室操作所得到的原始数据(例如:测序得到的序列、X射线晶体衍射所得到的三维结构数据等),也包含一些基本的说明(序列所属的物种、类型、序列发表的文献出处等)。核酸序列数据库GenBank, EMBL, DDBJ及蛋白结构数据库PDB就是典型的一级数据库。二二级级数数据据库库
5、( Secondary database ):在一级数据库的信息基础上进行计算机加工处理并增加了许多的人为注释而构成的(例如:NCBI的RefSeq数据库等)。ATTGACTAPrimary vs. Secondary DatabasesACGTGCTTGACACGTGAATTGACTATATAGCCGACGTGCACGTGCACGTGCTTGACATTGACATTGACACGTGACGTGACGTGAATTGACTAATTGACTAATTGACTAATTGACTATATAGCCGTATAGCCGTATAGCCGTATAGCCGGenBankTATAGCCGTATAGCCGTATAGCCGTA
6、TAGCCGATGACATTGAGAATTATTCCGAGAATTCCGAGAATTATTCCGAGAATTCCSequencingCentersGAGAATTCCGAGAATTCCUniGeneRefSeqGenomeAssemblyLabsCuratorsAlgorithmsTATAGCCGAGCTCCGATACCGATGACAA(二)如何查找与研究相关的生物学资源(二)如何查找与研究相关的生物学资源1 利用公共搜索引擎利用公共搜索引擎2 了解重要的生物信息学门户站点了解重要的生物信息学门户站点3 利利用用Nucleic Acid Research杂杂志志每每年年的的数数据据库专辑、网络服
7、务器专辑。库专辑、网络服务器专辑。第二节第二节 常用数据库常用数据库Chapter 2n常用数据库常用数据库类类 型型名名 称称网网 址址 核核酸酸序序 列列一次数据库一次数据库Genebankhttp:/www.ncbi.nlm.nih.gov/Genbank/EMBLhttp:/www.ebi.ac.uk/embl/DDBJhttp:/www.ddbj.nig.ac.jp/Welcome.html.ja/基因组基因组一次数据库一次数据库GDBhttp:/www.gdb.org/蛋蛋白白质质序序 列列一次数据库一次数据库SWISS-PROThttp:/www.expasy.org/sprot
8、/PIRhttp:/pir.georgetown.edu/TrEMBLhttp:/www.ebi.ac.uk/trembl/UniProthttp:/www.ebi.uniprot.org/index.shtml/MIPShttp:/mips.gsf.de/GenPeptftp:/ftp.ncifcrf.gov/pub/genpept/NRL-3Dhttp:/www.psc.edu/general/software/packages/nrl_3d/nrl_3d.html/复合数据库复合数据库NRDBhttp:/www.nrdb.co.uk/OWLhttp:/www.bioinf.manches
9、ter.ac.uk/dbbrowser/OWL/SWISS-PROTTrEMBLhttp:/www.ebi.ac.uk/clustr/ 二次数据库二次数据库PROSITEhttp:/www.expasy.org/prosite/PRINTShttp:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/BLOCKShttp:/blocks.fhcrc.org/Pfamhttp:/pfam.sanger.ac.uk/IDENTIFYhttp:/dna.stanford.edu/identify/COGshttp:/www.ncbi.nlm.nih.gov/COG/ProD
10、omhttp:/www.toulouse.inra.fr/prodom.html/结结 构构一次数据库一次数据库PDBhttp:/www.rcsb.org/pdb/home/home.doMMDBhttp:/www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtml/ 二次数据库二次数据库DSSPhttp:/www.sander.embl-heidelberg.de/dssp/HSSPhttp:/www.sander.embl-heidelberg.de/hssp/FSSPhttp:/www.ebi.ac.uk/dali/fssp/PSdbhttp:/www.
11、psc.edu/geigel/PSdb/PSdb.html/ 结构分类结构分类SCOPhttp:/scop.mrc-lmb.cam.ac.uk/scop/CATHhttp:/www.cathdb.info/latest/index.html/PDBsumhttp:/www.ebi.ac.uk/thornton-srv/databases/pdbsum/ 分类分类二次数据库二次数据库ProtoMaphttp:/protomap.cornell.edu蛋白质组蛋白质组 蛋白质组蛋白质组 氨基酸索引氨基酸索引AAindexhttp:/www.genome.ad.jp/dbget/蛋白质间功能关蛋白质
12、间功能关系系Predictomehttp:/visant.bu.edu/蛋白质组分析蛋白质组分析Proteome Analysishttp:/www.ebi.ac.uk/integr8/EBI-Integr8-HomePage.do/二维凝胶电泳二维凝胶电泳GELBANKhttp:/gelbank.anl.gov/SWISS-2DPAGE http:/www.expasy.org/ch2d/酵母蛋白质定位酵母蛋白质定位YPL.dbhttp:/ypl.tugraz.at/模式生物蛋白质模式生物蛋白质组组Bioknowledge Librnaryhttp:/www.biobase- 目目前前,国国
13、际际上上主主要要有有Genbank、EMBL、DDBJ三三大大核核酸酸序序列列数数据据库库,三三大大核核酸酸数数据据库库之之间每天相互交换数据,保持数据同步更新。间每天相互交换数据,保持数据同步更新。PublicfreeAvailableviaInternetEMBL Data LibraryDDBJ (DNA Data Bank of Japan)三大基因数据三大基因数据库之之间的关系的关系Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(National Center of Biotechnology Informa
14、tion,NCBI)建立和维护的。 Genbank网址:http:/www.ncbi.nlm.nih.gov/Genbank/1.GenbankuGenbank数据直接来源数据直接来源 测测序序工工作作者者提提交交的的序序列列、测测序序中中心心提提交交的的大大量量EST序序列列、其它测序数据以及与其它数据机构协作交换的数据。其它测序数据以及与其它数据机构协作交换的数据。uGenbank内容内容 所所有有已已知知的的核核酸酸序序列列和和蛋蛋白白质质序序列列,还还包包括括对对序序列列的的简简要要描描述述、科科学学命命名名、物物种种分分类类名名称称、参参考考文文献献、序序列列特特征征表表等辅助信息。
15、等辅助信息。uGenbank对数据记录的处理对数据记录的处理 划划分分为为 细细菌菌类类、病病毒毒类类、灵灵长长类类、啮啮齿齿类类, EST数数据据、基因组测序数据、大规模基因组序列数据等基因组测序数据、大规模基因组序列数据等16类。类。http:/www.ncbi.nlm.nih.gov/Genbank/Genbank由由美美国国国国立立生生物物技技术术信信息息中中心心(NCBI)建建立立维维护护,其其主主页页如如图所示。图所示。NCBI全全称称National Center of Biotechnology Information(美国国家生物技(美国国家生物技术信息中心)信息中心)NCB
16、I是是美美国国国国立立卫生生研研究究院院(NIH)的的美美国国国立医学国立医学图书馆(NLM)的一个分支。)的一个分支。1988年成立。年成立。网址:网址:http:/www.ncbi.nlm.nih.gov/NCBI 简介介当当今今世世界界最最大大的的基基于于Internet的的用用于于分子生物学研究的生物医学研究中心分子生物学研究的生物医学研究中心2. EMBL核酸序列数据库核酸序列数据库1982年年创创建建,由由欧欧洲洲生生物物信信息息学学研研究究所所(European Bioinformaties Institute, EBI)管管理理维维护护。使使用用序序列列提提取取系系统统(SRS
17、)进进行行查查询询检检索索,利利用用基基于于网网络络的的WEBIN工工具具,或或利利用用Sequin软软件件向向EMBL核核酸酸序序列列数据库提交序列。数据库提交序列。 EMBL网址:网址: http:/www.ebi.ac.uk/embl/ SRS的网址:的网址: http:/srs.ebi.ac.uk/ WEBIN网址:网址: http:/www.ebi.ac.uk/webin-align/webinalign_help.html/ Sequin网址:网址: http:/www.ebi.ac.uk/Sequin/1986年创建,年创建,由日本国家遗传学研究所(由日本国家遗传学研究所(DNA
18、 Data Bank of Japan,DDBJ)负责维护和管理。负责维护和管理。使用使用SRS工具进行数据检索和序列分析,利用工具进行数据检索和序列分析,利用Sequin软件向该数据库提交序列。为方便检索软件向该数据库提交序列。为方便检索DDBJ主页可进行日文和英文互换。主页可进行日文和英文互换。DDBJ的日文版网址:的日文版网址: http:/www.ddbj.nig.ac.jp/index-j.html/ DDBJ的英文版网址:的英文版网址: http:/www.ddbj.nig.ac.jp/index-e.html/3. DDBJ数据库数据库国际上最权威的核酸序列数据库 日本国立遗传研
19、究所的DDBJ http:/www.ddbj.nig.ac.jp/searches-e.html(二)基因组数据库(二)基因组数据库GDB基因组数据库基因组数据库(GDB)创建于创建于1990年,是一个专门年,是一个专门汇集汇集人类基因组数据人类基因组数据的数据库,的数据库,为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的网址是:的网址是: http:/www.gdb.org/(一)蛋白质序列数据库(一)蛋白质序列数据库 常常用用的的蛋蛋白白质质序序列列数数据据库库有有SWISS-PROT、PIR、TrEMBL、UniProt、GenPept等等,分分述如下。述如下。 1SWISS
20、-PROT SWISS-PROT数据库提供蛋白质序列查数据库提供蛋白质序列查询及相似蛋白质序列搜索等服务。询及相似蛋白质序列搜索等服务。 二、蛋白质数据库二、蛋白质数据库Swiss-Prot数据库网站主页数据库网站主页SWISS-PROT数据库内容数据库内容 核心数据:包括蛋白质序列、引用文献、分类信核心数据:包括蛋白质序列、引用文献、分类信息等。息等。 注注 释:包括结构域、功能位点、跨膜区域、释:包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、与其它蛋白质的相似二硫键位置、翻译后修饰、与其它蛋白质的相似性等。性等。SWISS-PROT将广泛收集的相关数据进行合并,将广泛收集的相关数
21、据进行合并,且与蛋白质三维结构数据库(且与蛋白质三维结构数据库(PDB)等其他数据)等其他数据库交互索引。库交互索引。通过通过SWISS-PROT数据库可以得到某蛋白质的序数据库可以得到某蛋白质的序列,再通过交互引用从列,再通过交互引用从PDB数据库得到其结构。数据库得到其结构。SWISS-PROT数据由数据行排列组成,数据格式数据由数据行排列组成,数据格式与与EMBL数据库数据格式基本相同。数据库数据格式基本相同。2. PIR PIR的子数据库:的子数据库: 蛋白质序列数据库(蛋白质序列数据库(PIR-PSD) 蛋白质分类数据库(蛋白质分类数据库(iProClass) 非冗余的蛋白质参考资料
22、数据库(非冗余的蛋白质参考资料数据库(PIR-NREF)PIR数据库按照数据性质和注释层次分四个部分:数据库按照数据性质和注释层次分四个部分: PIR1序列已经验证,注释最为详尽序列已经验证,注释最为详尽; PIR2为尚未确定的冗余序列;为尚未确定的冗余序列; PIR3序列既未检验,也未注释;序列既未检验,也未注释; PIR4序列来自其它渠道,既未验证,也无注释。序列来自其它渠道,既未验证,也无注释。美国国家生物医学研究基金会与国美国国家生物医学研究基金会与国际蛋白蛋白质信息中心信息中心(PIR-International)共同)共同维护。PIR是第一个蛋白是第一个蛋白质分分类和功能注和功能注
23、释数据数据库 PIR作用:作用: 提供基于文本的交互式检索、序列相提供基于文本的交互式检索、序列相似性似性 搜索以及结合序列相似性、注释信息搜索以及结合序列相似性、注释信息和蛋白质家族信息的高级检索。和蛋白质家族信息的高级检索。PIR网址:网址:http:/pir.georgetown.edu/ 3.TrEMBL是一个经计算机注释的蛋白质数据库,采用是一个经计算机注释的蛋白质数据库,采用SWISS-PROT数据库格式。数据库格式。主要包含从主要包含从EMBL/ Genbank/DDBJ三大核三大核酸数据库中根据编码序列翻译的、尚未集成到酸数据库中根据编码序列翻译的、尚未集成到SWISS-PRO
24、T数据库中的蛋白质序列。数据库中的蛋白质序列。TrEMBL为为SWISS-PROT数据库及时提供补数据库及时提供补充。充。 TrEMBL网址:网址:http:/www.ebi.ac.uk/trembl/4. UniProt UniProt将将SWISS-PROT、PIR、TrEMBL三个数据库合并。通过文本三个数据库合并。通过文本检索、序列相似检索以及检索、序列相似检索以及UniProt Ftp网站可获得蛋白质序列。网站可获得蛋白质序列。UniProt网站主页网站主页UniProt包含包含UniProtKB、UniRef 和和UniParc 3个部个部分:分:(1)UniProtKB数据库(数
25、据库(UniProt Knowledgebase):蛋白质序列、功能、分类、交叉):蛋白质序列、功能、分类、交叉引用等信息存取中心;引用等信息存取中心;(2)UniRef数据库(数据库(UniProt Reference Clusters):为提高检索的速度,将紧密相关的蛋白):为提高检索的速度,将紧密相关的蛋白质序列合并到同一条记录中。目前,根据序列相似程质序列合并到同一条记录中。目前,根据序列相似程度可将度可将UniRef数据库分为数据库分为UniRef100、UniRef90和和UniRef50 3个子库个子库(3)UniParc(UniProt Archive):储存大量蛋白):储存大
26、量蛋白质研究的历史信息。质研究的历史信息。UniProt网址:网址:http:/www.ebi.uniprot.org/index.shtml5. GenPept数据库数据库GenPept数据库特点数据库特点 由由Genebank数据库的核酸序列经翻译后产生。数据库的核酸序列经翻译后产生。GenPept数据量大,随核酸数据库的更新而更新,数据量大,随核酸数据库的更新而更新,但未经实验证实,也未有详细注释。但未经实验证实,也未有详细注释。(二)蛋白质序列二次数据库(二)蛋白质序列二次数据库 1.PROSITEn PROSITE是蛋白质家族保守区域和功能位点数是蛋白质家族保守区域和功能位点数据库,
27、也是第一个蛋白质序列二次数据库,据库,也是第一个蛋白质序列二次数据库,收录蛋白收录蛋白质家族中同源序列多重比对所确定的保守性区域质家族中同源序列多重比对所确定的保守性区域:如:如酶活性位点、配体结合位点、金属离子结合位点、其酶活性位点、配体结合位点、金属离子结合位点、其它蛋白质结合位点等已知具有重要生物学功能蛋白质它蛋白质结合位点等已知具有重要生物学功能蛋白质位点和序列模式。位点和序列模式。n PROSITE数据库组成数据库组成 包含包含Prosite(数据文件)和(数据文件)和PrositeDoc(说明(说明文件)两个文件数据库。文件)两个文件数据库。PROSITE数据库主页数据库主页htt
28、p:/prosite.expasy.org/nPROSITE数据库作用数据库作用:可确定一段新蛋白质序列中:可确定一段新蛋白质序列中包含的功能位点以及其归属的蛋白质家族。包含的功能位点以及其归属的蛋白质家族。nPROSITE的网址:的网址:http:/www.expasy.ch/prosite/ 或或 http:/www.expasy.org/prosite/nPROSITE的中国镜像网址的中国镜像网址是:是:http:/cn.expasy.org/prosite/2.PRINTS PRINTS蛋白质指纹图谱数据库蛋白质指纹图谱数据库将多个保守的将多个保守的序列模式作为识别蛋白质家族的特征序列
29、模式作为识别蛋白质家族的特征,与,与PROSITE数据库的单个序列模式相比,数据库的单个序列模式相比,PRINTS具有更好的识具有更好的识别率。别率。PRINTS 网址:网址:http:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/3.BLOCKSu 序列模块(序列模块(block):):是通过序列比对得到是通过序列比对得到的若干蛋白质序列中的若干蛋白质序列中具有较高相似性的序列片段具有较高相似性的序列片段。u BLOCKS由通过自动检测由通过自动检测PROSITE数据库数据库和和PRINTS蛋白质指纹图谱数据库蛋白质指纹图谱数据库中蛋白质家族高度中蛋白质家族高
30、度保守区域产生的序列模块组成。保守区域产生的序列模块组成。 u BLOCKS的网址:的网址:http:/blocks.fhcrc.org/(三)蛋白结构数据库(三)蛋白结构数据库1.PDBPDB(Protein Data Bank)蛋白质结构数)蛋白质结构数据库是国际上据库是国际上最完整的最完整的蛋白质、核酸、糖蛋白质、核酸、糖类、蛋白质类、蛋白质-核酸复合物及病毒等核酸复合物及病毒等生物大分生物大分子三维结构数据库。子三维结构数据库。 PDB数据库主页数据库主页http:/www.rcsb.org/pdb/home/home.don PDB数据库作用数据库作用 提供序列详细信息、原子坐标、三
31、提供序列详细信息、原子坐标、三维结构、交叉检索等与结构相关的信息。维结构、交叉检索等与结构相关的信息。2. MMDB(Molecular Modeling Database)n 是是Entrez的组成部分。的组成部分。n 只收录通过只收录通过X射线晶体衍射和核磁共振实验测射线晶体衍射和核磁共振实验测定的生物大分子结构数据。定的生物大分子结构数据。n 增加了附加信息如增加了附加信息如:大分子的生物学功能及产大分子的生物学功能及产生机制、分子进化历史、生物大分子之间关系等。生机制、分子进化历史、生物大分子之间关系等。n 具有生物大分子三维结构模型展示、结构分具有生物大分子三维结构模型展示、结构分析
32、和结构比较等功能析和结构比较等功能(四)蛋白质结构二次数据库(四)蛋白质结构二次数据库1.DSSP (Database of Secondary Structure of Protein)是是一一个个二二级级结结构构推推导导数数据据库库,用用于于研研究究蛋蛋白白质质序序列列与与蛋白质结构的关系。蛋白质结构的关系。针针对对PDB数数据据库库中中蛋蛋白白质质的的原原子子坐坐标标,计计算算其其各各个个氨氨基基酸酸残残基基中中氢氢键键、二二面面角角、二二级级结结构构类类型型等等二二级级结结构构构构象象参参数数,从从而而根根据据三三维维结结构构推推导导出出其其对对应应的的二二级级结结构。构。2.HSSP
33、 (Homology-Derived Secondary Structure of Protein) n是一个蛋白质同源序列比对数据库,将相似序列是一个蛋白质同源序列比对数据库,将相似序列的蛋白质聚集成结构同源的家族,并隐含二级结的蛋白质聚集成结构同源的家族,并隐含二级结构和空间结构信息。构和空间结构信息。nHSSP用于分析蛋白质保守区域、确定序列模式用于分析蛋白质保守区域、确定序列模式及蛋白的折叠、进化关系、分子设计等研究。及蛋白的折叠、进化关系、分子设计等研究。nHSSP的网址是:的网址是:http:/www.sander.embl-heidelberg.de/hssp/(五)蛋白质结构分
34、类数据库(五)蛋白质结构分类数据库1.SCOP (Structural Classification of Proteins)性质性质:是一个蛋白质结构分类数据库。:是一个蛋白质结构分类数据库。功能功能:提供蛋白质之间的结构和进化关系的信息。:提供蛋白质之间的结构和进化关系的信息。 提提供供PDB链链接接、蛋蛋白白质质序序列列、空空间间结结构构图图像像展示、参考文献链接等服务。展示、参考文献链接等服务。2. CATH n CATH数据库层次数据库层次: 类型层次类型层次:分为:分为 主类、主类、 主类、主类、 - 类(类( / 型和型和 + 型)型)、低二级结构类、低二级结构类4类。类。 构架
35、层次构架层次:依据由:依据由螺旋和螺旋和折叠形成的超二级结构排列方折叠形成的超二级结构排列方式进行分类,而不考虑它们之间的连接关系。式进行分类,而不考虑它们之间的连接关系。 拓扑层次拓扑层次:为二级结构的形状和二级结构间的联系。:为二级结构的形状和二级结构间的联系。 同源性层次同源性层次:通过序列比较和结构比较确定。:通过序列比较和结构比较确定。 序列层次序列层次:根据序列同源性不同分为:根据序列同源性不同分为S、O、L、I、D五种。五种。n CATH的网址的网址:http:/www.cathdb.info/latest/index.html/3. PDBsum n 通过对通过对PDB数据库中
36、所有蛋白质结构信息进行总结数据库中所有蛋白质结构信息进行总结和分析,给出蛋白质的主链数目、配体、金属离子、二和分析,给出蛋白质的主链数目、配体、金属离子、二级结构、折叠图等相关信息。级结构、折叠图等相关信息。n 提供检索蛋白质各级结构信息的统一界面。提供检索蛋白质各级结构信息的统一界面。 n PDBsum的网址:的网址:http:/www.ebi.ac.uk/thornton-srv/databases/pdbsum/(六)蛋白质分类数据库(六)蛋白质分类数据库ProtoMap蛋蛋白白质质分分类类数数据据库库是是利利用用计计算算机机对对SWISS-PROT、TrEMBL 和和TrEMBL-new数数据据库库中中全全部部蛋蛋白白质质进进行行层层次次分分类类,将将相相关关的的蛋蛋白白质质聚聚类分组而成。类分组而成。ProtoMap数数据据库库有有助助于于对对已已知知蛋蛋白白质质家家族族进进行行精精细划分,阐释家族间的相互关系。细划分,阐释家族间的相互关系。ProtoMap网址:网址:http:/protomap.cornell.edu/第三节第三节 EntrezEntrez检索实例检索实例Chapter 2Entrez 是美国国家生物技术信息中心NCBI所提供的在线资源检索器。http:/www.ncbi.nlm.nih.gov/sites/gquery