生物信息数据库课件

资源描述

《生物信息数据库课件》由会员分享，可在线阅读，更多相关《生物信息数据库课件（69页珍藏版）》请在金锄头文库上搜索。

1、,生物信息数据库,一、引言,生物分子数据高速增长,分子生物学及相关领域研究人员迅速获得最新实验数据,建立生物分子数据库,v生物信息数据库应满足5个方面,的主要需求,v（1）时间性 v（2）注释,v（3）支撑数据 v（4）数据质量 v（5）集成性,生物信息数据库几个明显的特征：,（1）数据库的更新速度不断加快,数据量呈指数增长趋势,（2）数据库使用频率增长更快,（3）数据库的复杂程度不断增加,（4）数据库网络化,（5）面向应用,（6）先进的软硬件配置,一个数据库记录(entry)一般由两部分组成：,1.原始序列数据(sequencedata),2.描述这些数据生物学信息的注释(annot

2、ation),注释中包含的信息与相应的序列数据同样重要和有应用,价值。,数据的完整性和注释工作量：,1.序列数据广，序列注释不够完整 2.库数据面窄，序列注释全面,数据库的动态更新：,1.不断增加 2.不断修正,分子生物信息数据库种类繁多。归纳起来，大体可以分为4个大类，即基因组数据库、核酸和蛋白质一级结构数据库、生物大分子(主要是蛋白质)三维空间结构数据库、以及由上述3类数据库和文献资料为基础构建的二次数据库。,基因组数据库来自基因组作图，序列数据库来自序列测定，结构数据库来自X射线衍射和核磁共振等结构测定。这些数据库是分子生物学的基本数据资源，通常称为基本数据库、初始数据库，

3、也称一次数据库。,v生物信息数据库,一级数据库,v数据库中的数据直接来源于实验获得的原始,数据，只经过简单的归类整理和注释,二级数据库,v对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。,生物信息数据库,染色体核酸蛋白质,基因组作图序列测定结构测定,基因组图谱 DNA序列蛋白质序列蛋白质结构,基因组数据库核酸序列数据库蛋白质序列数据库蛋白质结构数据库,NCBI NationalCenterforBiotechnologyInformation(US) EBI EuropeanBioinformati

4、csInstitute(EU) HGMP HumanGenomeMappingProjectResourceCentre (UK） ExPASy ExpertofProteinAnalysisSystem(Switzerland) CMBI CentreofMolecularandBiomolecule(TheNetherlands) ANGIS NationalGenomeInformationService(Australia) NIG NationalInstituteofGenetics(Japan) BIC NationalBioinformaticsCentre(Singapore

5、),国际著名的生物信息中心,一级数据库简介,1、核酸序列数据库,国际上权威的核酸序列数据库（1）欧洲分子生物学实验室的EMBL http:/www.embl.de/ （2）美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html （3）日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp,相互合作，每天交换更新核苷酸序列数据, 三个数据库中的数据基本一致，仅在数据格式上有所差别，对于特定的查询，三个数据库的响应结果一样。, 这三个数据库是综合性的DNA和RNA序列数据库，每条记录代表一

6、个单独、连续、附有注释的DNA或RNA片段。,美国的核酸数据库GenBank 从1979年开始建设,1982年正式运行Banson,D.A.etal.(1998)NucleicAcidsRes.26,17,欧洲分子生物学实验室的EMBL数据库也于1982年开始服务,日本于1984年开始建立国家级的核酸数据库DDBJ，并于1987年正式服务。,2、基因组数据库,来源于人类基因组计划及各种模式生物基因组计划,1977年，最早获得的生物基因组全序列是噬菌体(53kb),1995年，第一个自由生物体流感嗜血菌(H.inf)被完全测被完全测序,部分生物基因组计划网址,老鼠(Mouse) 小鼠(Rat

7、) 狗(Dog) 牛(Cow) 猪(Pig) 羊(Sheep) 鸡(Chicken),http:/www.informatics.jax.org/mgd.html http:/ratmap.gen.gu.se http:/mendel.berkeley.edu/dog.html http:/locus.jouy.inra.fr/cgibin/bovmap/intro2.pl http:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html http:/dirk.invermay.cri.nz http:/www.ncbi.nlm.nih.gov/Web/

8、Genbank/index.html,斑马鱼(Zebrafish)http:/zfish.uoregon.edu 线虫(C.elegans) http:/www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html 果蝇(Drosophila)http:/morgan.harvard.edu 蚊子(Mosquito) http:/www.ddbj.nig.ac.jp/ 拟南芥(Arabidopsis)http:/genomewww.stanford.edu/Arabidopsis,棉花(Cotton) 玉米(Maize) 水稻(Rice) 大豆(So

9、ya) 树(Trees),http:/algodon.tamu.edu http:/www.agron.missouri.edu http:/www.staff.or.jp http:/mendel.agron.iastate.edu:8000/main.html http:/www.ebi.ac.uk/genomes/,GDB（美国、加拿大）,1990年，JohnHopkins大学建立，后由加拿大儿童医院生物信息,中心管理.,数据内容：,基因单位、PCR位点、细胞遗传标记、EST、contig、重复片段、基因组图谱,与其它分子生物信息网络资源（EMBL、GenBank）的链接,AceDB,

10、线虫基因组数据库。既是一个数据库，又是一个数据库管理系统。提供很好的图形界面，用户能够从大到整个基因组小到序列的各,个层次观察和分析基因组数据。,http:/www.acedb.org,数据内容：,限制性图谱，基因结构信息，质粒图谱，序列数据，参考文献,3、蛋白质序列数据库,SWISSPROT,1. 瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI),合作维护（1986年）； 2. 在EMBL和GenBank数据库上均建立了镜像站点 3. 数据库包括了从EMBL翻译而来的蛋白质序列，这些序列经过检验和注释； 4. 数据记录包括两部分：序列注释(结构域、功能位点、跨膜区域、二硫

11、键位置、翻译后的修饰、突变体等) 5. 数据存在滞后性数据库的建立 SWISSPROT的网址：http:/cn.expasy.org/sprot TrEMBL的网址：http:/www.ebi.ac.uk/trembl/index.html,SWISSPROT(http:/www.expasy.ch/sprot/sprottop.html）是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的,SWISS-PROT中的数据来源于不同源地：,(1) 从核酸数据库经过翻译推导而来； (2) 从蛋白质数据库PIR挑选出合适的数据； (3) 从科学文献中摘录； (4) 研究人员直

12、接提交的蛋白质序列数据,SWISS-PROT有三个明显的特点 :,（1）注释,在SWISS-PROT中，数据分为核心数据和注释两大类。,核心数据包括：,序列数据、参考文献、分类信息（蛋白质生物来源的描述）,注释包括：,（A)蛋白质的功能描述；,(B)翻译后修饰；,(C)域和功能位点，如钙结合区域、ATP结合位点等； (D)蛋白质的二级结构；,(E)蛋白质的四级结构，如同构二聚体、异构三聚体等； (F)与其它蛋白质的相似性；,(G)由于缺乏该蛋白质而引起的疾病； (H)序列的矛盾、变化等。,（2）最小冗余, 尽量将相关的数据归并，降低数据库的冗余程度。如果不同来源的原始数据有矛盾，则在相应序列

13、特征表中加以注释。,（3）与其它数据库的连接,对于每一个登录项，有许多指向其它数据库相关数据的指针，这便于用户迅速得到相关的信息。现有的交叉索引有：到EMBL核酸序列数据库的索引，到PROSITE模式数据库的索引，到生物大分子结构数据库PDB的索引等。,TrEMBL (http:/www.ebi.ac.uk/trembl/index.html) 是与 SWISS-PROT相关的一个数据库。,包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT数据库中。,TrEMBL有两个部分：,（1）SP-TrEMBL(SWISS-

14、PROT TrEMBL),包含最终将要集成到SWISS-PROT的数据，所有的SP-TrEMBL 序列都已被赋予SWISS-PROT的登录号。,（2）REM-TrEMBL(REMaining TrEMBL),包括所有不准备放入SWISS-PROT的数据，因此这部分数据都没有登录号。,进入网站，后在搜索栏里键入关键词，点击“”图标,Example,在搜索结果里找需要的信息即可,PIR(proteininformationresource) 1. 由美国NCBI翻译自GenBank的DNA序列(1984年)； 2. 在EMBL和GenBank数据库上均建立了镜像站点； 3. 数据依据注释的质量

15、分为4类。网址：http:/wwwnbrf.georgetown.edu/ PIR数据库的分类情况 (Release51.03),分类名称 (Name) PIR1 PIR2 PIR3 PIR4,说明 (Comment) 已分类、已注释 (Classifiedandannotated) 已注释(Annotated) 未核实(Unverified) 未翻译(Unencodedor untranslated),记录数 (Numberofentries) 13572 69368 7508 196,PIR（Protein Information Resource）, 目的：,帮助研究者鉴别和解释蛋白质

16、序列信息，研究分子进化、功能基因组。, 它是一个全面的、经过注释的、非冗余的蛋白,质序列数据库。, 所有序列数据都经过整理，超过99%的序列已按蛋白质家族分类，一半以上还按蛋白质超家族进行了分类。,除了蛋白质序列数据之外，PIR还包含以下,信息：,(1)蛋白质名称、蛋白质的分类、蛋白质的来,源；,(2)关于原始数据的参考文献；,(3)蛋白质功能和蛋白质的一般特征，包括基因,表达、翻译后处理、活化等；,(4)序列中相关的位点、功能区域。,PIR提供三种类型的检索服务:,一是基于文本的交互式查询，用户通过关键字进行数据查询。,二是标准的序列相似性搜索，包括BLAST、FastA等。,三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索，包括按注释分类的相似性搜索、结构域搜索等。,三个子数据库,

展开阅读全文

生物信息数据库课件

最新文档