生物数据库讲解

上传人:我** 文档编号:116803947 上传时间:2019-11-17 格式:PPT 页数:66 大小:12.49MB
返回 下载 相关 举报
生物数据库讲解_第1页
第1页 / 共66页
生物数据库讲解_第2页
第2页 / 共66页
生物数据库讲解_第3页
第3页 / 共66页
生物数据库讲解_第4页
第4页 / 共66页
生物数据库讲解_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《生物数据库讲解》由会员分享,可在线阅读,更多相关《生物数据库讲解(66页珍藏版)》请在金锄头文库上搜索。

1、生物信息数据库生物信息数据库 郭志云 bioinf Bioinformatics Database 什么是生物信息数据库?什么是生物信息数据库? n定义:能够进行自动查询和修改 的生物数据集 u例1: 图书馆用数据库保存书目和借阅 情况 u例2: 核酸序列数据库用来保存核酸序 列和功能注释信息 建立生物信息数据库动机建立生物信息数据库动机 建立生物分子数据库 生物分子数 据高速增长 研究人员迅速获 得最新实验数据 生物信息数据库的生物信息数据库的5 5个主要需求个主要需求 n时间性 n注释 n支撑数据 u实验数据 n数据质量 n集成性 u数据库间的交连 NARNAR杂志杂志 n核酸研究(Neu

2、cleic Acids Research,NAR)杂志从1994年起,每 年第一期刊登生物学数据库专集 n2000年起,出版核酸研究的牛津 大学出版社设立了数据库目录网页, 可以按字母或分类查找,并可链接到 所需要的数据库 NARNAR网站网站 http:/nar.oxfordjournals.org/ 数据库种类数据库种类 n核酸序列数据库( Nucleic Acid Sequence) n基因表达数据库( Gene Expression) n比较基因组学数据库(Comparative genomics) n基因识别与基因结构数据库(Gene Identification and Struc

3、ture) n遗传与物理图谱数据库(Genetic and physical maps) NAR (Nucleic Acid Research)NAR (Nucleic Acid Research)分类:分类: 数据库种类数据库种类 n基因组数据库(Genomic Databases) n分子相互作用数据库(Intermolecular interactions) n代谢途径和细胞调节数据库(Metabolic Pathways and Cellular Regulation) n突变数据库(Mutation Databases) n病理数据库(Pathology) n蛋白质数据库(Prote

4、in Databases) n蛋白质模体数据库(Protein sequence Motifs) n蛋白质组数据库(Proteome Resources) nRNA序列数据库(RNA Sequences) n结构数据库(Structure) 数据库种类数据库种类 n美国生物技术信息中心(NCBI)的GenBank n欧洲分子生物学实验室的EMBL n日本遗传研究所的DDBJ 国际上权威的核酸序列数据库国际上权威的核酸序列数据库 GenBankGenBank EBIEBI DDBJDDBJ 数据交换 NCBINCBI http:/www.ncbi.nih.gov/ EntrezEntrez H5

5、N1 EntrezEntrez 新的新的ENTREZENTREZ界面界面 PubMedPubMed nPubMed uNCBI维护的生物学、医学文献引用数 据库,提供对MEDLINE、Pre- MEDLINE等文献数据库的引用查询和 对大量网络科学类电子期刊的链接 u利用Entrez系统可以对PubMed进行方 便的查询检索 布尔布尔(Boolean)(Boolean)运算运算 n布尔运算符: AND, OR, NOT u这种限制可以将搜索限定在自己感兴 趣的范围内 n例如: u查询病毒传染方面的内容=Virus AND infection PubMedPubMed查询结果查询结果 FASTA

6、FASTA格式格式 n第一行到换行符间为序列描述行,以 “”开始 n在换行符后紧跟序列数据,可以是蛋白 质或DNA序列 n例: OPS2_DROPS Opsin Rh2 (Ocellar opsin). MERSLLPEPPLAMALLGPRFEAQTGGNRSVLD NVLPDMAPLVNPHWSRFAPMDPTMSKIL n n 序列下载序列下载 多序列格式多序列格式 nSMO_RAT Smoothened homolog precursor (SMO). MAAGRPVRGPELAPRRLLQLLLLVLLGGRGRGA ALSGNVTGPGPRSAGGSARRNAPVTSP nSMO_

7、MOUSE Smoothened homolog precursor (SMO). MAAGRPVRGPELAPRRLLQLLLLVLLGGPGRGA ALSGNVTGPGPHSASGSSRRNVP nOPS2_DROPS Opsin Rh2 (Ocellar opsin). MERSLLPEPPLAMALLGPRFEAQTGGNRSVLDN VLPDMAPLVNPHWSRFAPMDPTMSKIL 1.选择FASTA格式 序列类型 搜索框 2.保存文件 EMBLEMBL( (欧洲分子生物学实验室欧洲分子生物学实验室) ) EMBLEMBL简介简介 n于1982年建立,是全世界最早的 DNA序列

8、数据库 n序列信息包括:序列名称、位点、关 键字、来源、生物种类、参考文献、 注释等 nEMBL的数据来源: u序列发现者直接提交 u从生物医学期刊上收录已发表的序列资料 EMBLEMBL网站网站 http:/www.embl.org/ DDBJ (DNA Data Bank of Japan)DDBJ (DNA Data Bank of Japan) http:/ www.ddbj.nig.ac.jp/ 蛋白质数据库蛋白质数据库 n n 蛋白质序列数据库蛋白质序列数据库 n n 蛋白质结构数据库蛋白质结构数据库 n n 蛋白质结构域数据库蛋白质结构域数据库 蛋白质序列数据库蛋白质序列数据库

9、nPIR (Protein Information Resource)数据库 nSWISS-PROT数据库 nTrEMBL数据库 nPIR数据库由美国生物医学基金会NBRF (Nation Biomedical Research Foundation)于 1984年建立 n目的: 帮助研究者鉴别和解释蛋白质序列信息, 进行分子进化、功能基因组等生物信息学 分析。 n它是一个全面的、经过注释的、非冗余的 蛋白质序列数据库 PIRPIR数据库简介数据库简介 PIRPIR数据库网站数据库网站 http:/pir.georgetown.edu/ PIRPIR数据库主要信息数据库主要信息 (1)蛋白质序

10、列 (2)蛋白质名称、蛋白质的分类、蛋白 质的来源 (3)关于原始数据的参考文献 (4)蛋白质功能和蛋白质的一般特征, 包括基因表达、翻译后处理、活化等 (5)序列中相关的位点、功能区域 SWISS-PROTSWISS-PROT数据库数据库 n由瑞士日内瓦(Geneva)大学医学生 物化学系和欧洲生物信息学研究所 (EBI)于1986年联合建立 n蛋白质序列经过注释,冗余度小 n国际上权威的蛋白质数据库 nSince 2002, it is maintained by the UniProt consortium SWISS-PROTSWISS-PROT的数据来源的数据来源 n从核酸数据库翻译

11、推导而来 n从蛋白质数据库PIR挑选出合适的数 据 n从科学文献中摘录 n研究人员直接提交的蛋白质序列数据 UniProtUniProt nUniProt (Universal Protein Resource)数据库整合 了PIR、SWISS-PROT和TrEMBL数据库 n包含三个部分: uUniProt Knowledgebase(UniProtKB) 蛋白质序列、功能、分类、交叉引用等信 息存取中心 uUniProt Non-redundant Reference(UniRef) 将密切相关的蛋白质序列组合到一条记录 中以便提高搜索速度 uUniProt Archive(UniParc

12、) 资源库,记录所有蛋白质序列的历史 UniProtUniProt网站网站 www.uniprot.org/ 蛋白质结构数据库蛋白质结构数据库 n n 蛋白质结构蛋白质结构 数据库数据库 uPDB uMMDB n蛋白质分类 数据库 uSCOP uCATH 蛋白质结构数据来源蛋白质结构数据来源 nX晶体衍射(X-ray crystallography) n核磁共振(NMR spectroscopy) n低温电子显微镜(cryo-electron microscopy) NMR显微镜 克隆/表达/纯化 结晶 X射线衍射电子密度图 蛋白质结构数据来源蛋白质结构数据来源 X射线流程: 蛋白质结构测定总

13、流程蛋白质结构测定总流程 PDB(Protein Data Bank)PDB(Protein Data Bank) n目前最主要的蛋白质分子结构数据库 n1971建立,美国Brookhaven国家实验室维 护管理 n1988年,由美国RCSB(research collaboratory for structural biology)管理 n主要是蛋白质结构也含有核酸、糖类等结构 n以文本格式存放数据,包括原子坐标、物种 来源、测定方法、提交者信息、一级结构、 二级结构等 PDBPDB网站网站 http:/www.rcsb.org/pdb Available for: Windows Unix

14、/Linux MacOS http:/www.rasmol.org RasMolRasMol RasMolRasMol结构显示类别结构显示类别 Stick-modelBall & StickSpace-filled model Ball size: 0 Stick size: 0.2 Ball size: 0.4 Stick size: 0.2 Ball size: 0.8 Stick size: 0 RasMolRasMol结构显示类别结构显示类别 BackboneSchematicSurface only connections between C-alpha atoms helix cy

15、linder strand arrow 蛋白质结构分类数据库蛋白质结构分类数据库 uSCOP (Structural Classification of Proteins) uCATH(Class, Architecture, Topology, Homology) uProtoNet SCOPSCOP nSCOP数据库 (http:/scop.mrc-lmb.cam.ac. uk/scop/) n按结构和进化关系对蛋白质分类,分类结 果是一个具有层次结构的树,其主要的层 次为: u家 族:具有明显的进化关系 u超家族:具有远源进化关系,具有共同的进 化源 u折叠类:主要结构相似 ProtoN

16、etProtoNet n提供全面的蛋白质分类,对SWISS- PROT数据库进行层次聚类(Clustering) n网站提供详细的FLASH聚类教程 http:/www.protonet.cs.huji.ac.il/ InterProInterPro n一个整合的蛋白质综合数据库,包括 的数据库有: uPROSITE uPfam uPRINTS uProDom uSMART uTIGRFAMs InterProInterPro网站网站 http:/www.ebi.ac.uk/interpro/ 基因组数据库基因组数据库 nGDB u人类基因组数据库 nEnsembl u综合基因组数据库 GDBGDB n1990由美国Johns Hopkins大学建立 n主要内容: u人类基因组区域 基因、克隆、PCR标记物、细胞遗传学标记 、易碎位点、 EST、contigs、重复等 u人类基因组图谱 细胞遗传学图谱、contig图谱、集成图谱 u人类基因组中的变化 基因突变和基因多态性 GDBGDB http:/www.gdb.org

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号