生物信息数据库课件

上传人:我*** 文档编号:142009382 上传时间:2020-08-15 格式:PPT 页数:69 大小:6.35MB
返回 下载 相关 举报
生物信息数据库课件_第1页
第1页 / 共69页
生物信息数据库课件_第2页
第2页 / 共69页
生物信息数据库课件_第3页
第3页 / 共69页
生物信息数据库课件_第4页
第4页 / 共69页
生物信息数据库课件_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《生物信息数据库课件》由会员分享,可在线阅读,更多相关《生物信息数据库课件(69页珍藏版)》请在金锄头文库上搜索。

1、,生物信息数据库,一、 引言,生物分子数据 高速增长,分子生物学 及相关领域研究人员 迅速获得最新实验数据,建立生物分子数据库,v生物信息数据库应满足5个方面,的主要需求,v(1)时间性 v(2)注释,v(3)支撑数据 v(4)数据质量 v(5)集成性,生物信息数据库几个明显的特征:,(1)数据库的更新速度不断加快,数据量呈指数增长趋势,(2)数据库使用频率增长更快,(3)数据库的复杂程度不断增加,(4)数据库网络化,(5)面向应用,(6)先进的软硬件配置,一个数据库记录(entry)一般由两部分组成:,1.原始序列数据(sequencedata),2.描述这些数据生物学信息的注释(annot

2、ation),注释中包含的信息与相应的序列数据同样重要和有应用,价值。,数据的完整性和注释工作量:,1.序列数据广,序列注释不够完整 2.库数据面窄,序列注释全面,数据库的动态更新:,1.不断增加 2.不断修正,分子生物信息数据库种类繁多。归纳起来,大体 可以分为4个大类,即基因组数据库、核酸和蛋白 质一级结构数据库、生物大分子(主要是蛋白质)三 维空间结构数据库、以及由上述3类数据库和文献 资料为基础构建的二次数据库。,基因组数据库来自基因组作图,序列数据库来自 序列测定,结构数据库来自X射线衍射和核磁共振 等结构测定。这些数据库是分子生物学的基本数据 资源,通常称为基本数据库、初始数据库,

3、也称一 次数据库。,v生物信息数据库,一级数据库,v数据库中的数据直接来源于实验获得的原始,数据,只经过简单的归类整理和注释,二级数据库,v对原始生物分子数据进行整理、分类的结 果,是在一级数据库、实验数据和理论分析 的基础上针对特定的应用目标而建立的 。,生物信息数据库,染色体 核酸 蛋白质,基因组作图 序列测定 结构测定,基因组图谱 DNA序列 蛋白质序列 蛋白质结构,基因组 数据库 核酸序列 数据库 蛋白质序列 数据库 蛋白质结构 数据库,NCBI NationalCenterforBiotechnologyInformation(US) EBI EuropeanBioinformati

4、csInstitute(EU) HGMP HumanGenomeMappingProjectResourceCentre (UK) ExPASy ExpertofProteinAnalysisSystem(Switzerland) CMBI CentreofMolecularandBiomolecule(TheNetherlands) ANGIS NationalGenomeInformationService(Australia) NIG NationalInstituteofGenetics(Japan) BIC NationalBioinformaticsCentre(Singapore

5、),国际著名的生物信息中心,一级数据库简介,1、核酸序列数据库,国际上权威的核酸序列数据库 (1)欧洲分子生物学实验室的EMBL http:/www.embl.de/ (2)美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html (3)日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp,相互合作,每天交换更新核苷酸序列数据, 三个数据库中的数据基本一致,仅在 数据格式上有所差别,对于特定的查 询,三个数据库的响应结果一样。, 这三个数据库是综合性的DNA和RNA序 列数据库,每条记录代表一

6、个单独、连 续、附有注释的DNA或RNA片段。,美国的核酸数据库GenBank 从1979年开始建 设,1982年正式运行Banson,D.A.etal.(1998)NucleicAcidsRes.26,17,欧洲分子生物学实验室的EMBL数据库也于1982年开始服务,日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。,2、基因组数据库,来源于人类基因组计划及各种模式生物基因组计划,1977年,最早获得的生物基因组全序列是噬菌体(53kb),1995年,第一个自由生物体流感嗜血菌(H.inf)被完全测被完全测序,部分生物基因组计划网址,老鼠(Mouse) 小鼠(Rat

7、) 狗(Dog) 牛(Cow) 猪(Pig) 羊(Sheep) 鸡(Chicken),http:/www.informatics.jax.org/mgd.html http:/ratmap.gen.gu.se http:/mendel.berkeley.edu/dog.html http:/locus.jouy.inra.fr/cgibin/bovmap/intro2.pl http:/www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html http:/dirk.invermay.cri.nz http:/www.ncbi.nlm.nih.gov/Web/

8、Genbank/index.html,斑马鱼(Zebrafish)http:/zfish.uoregon.edu 线虫(C.elegans) http:/www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html 果蝇(Drosophila)http:/morgan.harvard.edu 蚊子(Mosquito) http:/www.ddbj.nig.ac.jp/ 拟南芥(Arabidopsis)http:/genomewww.stanford.edu/Arabidopsis,棉花(Cotton) 玉米(Maize) 水稻(Rice) 大豆(So

9、ya) 树(Trees),http:/algodon.tamu.edu http:/www.agron.missouri.edu http:/www.staff.or.jp http:/mendel.agron.iastate.edu:8000/main.html http:/www.ebi.ac.uk/genomes/,GDB(美国、加拿大),1990年,JohnHopkins大学建立,后由加拿大儿童医院生物信息,中心管理.,数据内容:,基因单位、PCR位点、细胞遗传标记、EST、contig、重复片段、基 因组图谱,与其它分子生物信息网络资源(EMBL、GenBank)的链接,AceDB,

10、线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。 提供很好的图形界面,用户能够从大到整个基因组小到序列的各,个层次观察和分析基因组数据。,http:/www.acedb.org,数据内容:,限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献,3、蛋白质序列数据库,SWISSPROT,1. 瑞士日内瓦大学医学生物化学系和欧洲生物信息学研究所(EBI),合作维护(1986年); 2. 在EMBL和GenBank数据库上均建立了镜像站点 3. 数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过 检验和注释; 4. 数据记录包括两部分: 序列 注释(结构域、功能位点、跨膜区域、二硫

11、键位置、翻 译后的修饰、突变体等) 5. 数据存在滞后性 数据库的建立 SWISSPROT的网址:http:/cn.expasy.org/sprot TrEMBL的网址:http:/www.ebi.ac.uk/trembl/index.html,SWISSPROT(http:/www.expasy.ch/sprot/sprottop.html) 是目前国际上比较权威的蛋白质序列数据库,其中的蛋白 质序列是经过注释的,SWISS-PROT中的数据来源于不同源地:,(1) 从核酸数据库经过翻译推导而来; (2) 从蛋白质数据库PIR挑选出合适的数据; (3) 从科学文献中摘录; (4) 研究人员直

12、接提交的蛋白质序列数据,SWISS-PROT有三个明显的特点 :,(1)注释,在SWISS-PROT中,数据分为核心数据和注释两大类。,核心数据包括:,序列数据、参考文献、分类信息(蛋白质生物来源的描述),注释包括:,(A)蛋白质的功能描述;,(B)翻译后修饰;,(C)域和功能位点,如钙结合区域、ATP结合位点等; (D)蛋白质的二级结构;,(E)蛋白质的四级结构,如同构二聚体、异构三聚体等; (F)与其它蛋白质的相似性;,(G)由于缺乏该蛋白质而引起的疾病; (H)序列的矛盾、变化等。,(2)最小冗余, 尽量将相关的数据归并,降低数据库的冗余程度。 如果不同来源的原始数据有矛盾,则在相应序列

13、特征表 中加以注释。,(3)与其它数据库的连接,对于每一个登录项,有许多指向其它数据库相关数据的 指针,这便于用户迅速得到相关的信息。 现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。,TrEMBL (http:/www.ebi.ac.uk/trembl/index.html) 是与 SWISS-PROT相关的一个数据库。,包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白 质序列,并且这些序列尚未集成到SWISS-PROT数据库中。,TrEMBL有两个部分:,(1)SP-TrEMBL(SWISS-

14、PROT TrEMBL),包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL 序列都已被赋予SWISS-PROT的 登录号。,(2)REM-TrEMBL(REMaining TrEMBL),包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有 登录号。,进入网站,后在搜索栏里键入关键词,点击“”图标,Example,在搜索结果里找需要的信息即可,PIR(proteininformationresource) 1. 由美国NCBI翻译自GenBank的DNA序列(1984年); 2. 在EMBL和GenBank数据库上均建立了镜像站点; 3. 数据依据注释的质量

15、分为4类。 网址:http:/wwwnbrf.georgetown.edu/ PIR数据库的分类情况 (Release51.03),分类名称 (Name) PIR1 PIR2 PIR3 PIR4,说明 (Comment) 已分类、已注释 (Classifiedandannotated) 已注释(Annotated) 未核实(Unverified) 未翻译(Unencodedor untranslated),记录数 (Numberofentries) 13572 69368 7508 196,PIR(Protein Information Resource), 目的:,帮助研究者鉴别和解释蛋白质

16、序列信息, 研究分子进化、功能基因组。, 它是一个全面的、经过注释的、非冗余的蛋白,质序列数据库。, 所有序列数据都经过整理,超过99%的序列已 按蛋白质家族分类,一半以上还按蛋白质超家 族进行了分类。,除了蛋白质序列数据之外,PIR还包含以下,信息:,(1)蛋白质名称、蛋白质的分类、蛋白质的来,源;,(2)关于原始数据的参考文献;,(3)蛋白质功能和蛋白质的一般特征,包括基因,表达、翻译后处理、活化等;,(4)序列中相关的位点、功能区域。,PIR提供三种类型的检索服务:,一是基于文本的交互式查询, 用户通过关键字进行数据查询。,二是标准的序列相似性搜索, 包括BLAST、FastA等。,三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜索等。,三个子数据库,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号