生物信息数据库与生物信息中心上课讲义

上传人:youn****329 文档编号:242870564 上传时间:2022-01-19 格式:PPT 页数:71 大小:2.97MB
返回 下载 相关 举报
生物信息数据库与生物信息中心上课讲义_第1页
第1页 / 共71页
生物信息数据库与生物信息中心上课讲义_第2页
第2页 / 共71页
生物信息数据库与生物信息中心上课讲义_第3页
第3页 / 共71页
生物信息数据库与生物信息中心上课讲义_第4页
第4页 / 共71页
生物信息数据库与生物信息中心上课讲义_第5页
第5页 / 共71页
点击查看更多>>
资源描述

《生物信息数据库与生物信息中心上课讲义》由会员分享,可在线阅读,更多相关《生物信息数据库与生物信息中心上课讲义(71页珍藏版)》请在金锄头文库上搜索。

1、单击此处编辑母版标题样式单击此处编辑母版副标题样式*1王禄山计算机应用生物信息数据库与生物信息中心授课大纲l生命信息学生命科学与计算机技术的交叉。l生物信息学的研究内容: (1)生物信息中心(2)生物信息数据库及格式。l生物信息数据的检索工具Entrezl文献的检索与管理软件Reference managerl序列同源搜索分析工具Blastl核酸、蛋白质序列比对分析软件DS geneDNASISl生物大分子空间三维结构显示与分析软件Rasmoll生物图像对比分析软件Scion Image (NIH image)l生物科学数据处理软件Origin单击此处编辑母版标题样式单击此处编辑母版副标题样式

2、*4一、重要生物信息中心 Bioinformatics CentresNCBI National Center for Biotechnology Information (US) www.ncbi.nlm.nih.govEBI European Bioinformatics Institute (EU) www.ebi.ac.ukDDBJ DNA Data Bank of Japan (JP) www.ddbj.nig.ac.jpExPASy Expert of Protein Analysis System (Switzerland ) www.expasy.chPDB Protein D

3、ata Bank (US) www.rcsb.org/pdb/ CBIPKU 北京大学生物信息中心 (CN) 中国生物信息中心 (CN ) www.biosino.orgNCBI:http:/www.ncbi.nlm.nih.govhttp:/ (flat-file)信息在文件中顺序存放且具有特定格式记录(Entry)通过“获得号”(accession #)唯一确定同一文件间和不同文件间信息的联系均通过accession #实现l关系数据库 (relational DB)基于实体联系模型 (E-R模型)表中的记录(record/tuple)键唯一确定表之间通过外键建立联系信息表示:关系数据库s

4、emanticmappingAttributesRelations查询语义映射和处理过程结果语义匹配生物信息学数据存在的问题l信息源分布在世界各地不同的站点上l涉及多个数据源的全局问题无法立刻得到答案Painfully collecting unstructured information around the sitesManually putting pieces togetherHopefully getting the right picture.l总之,信息源的特点是:自治的 (autonomous)分布式的 (distributed)异构的 (heterogeneous)数据集成数

5、据集成DataData IntegrationIntegration数据集成XMLXMLSite ASite BData Integration生物信息学最重要的任务是从海量数据中提取新知识生物数据库的种类生物数据库的种类序列数据库 l核酸序列数据库 (EMBL、GenBank、DDBJ)l常用蛋白质序列数据库(Swissprot,PIR)结构数据库 l蛋白质结构数据库(PDB) l蛋白质分类数据库(SCOP、CATH )其它数据库 生物数据库的种类生物数据库的种类序列数据库l主要核酸序列数据库: GenBank、EMBL、 DDBJl主要蛋白质序列数据库:Swissprot, PIRl 美国

6、的核酸数据库GenBankBanson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7从1979年开始建设,1982年正式运行;l欧洲分子生物学实验室的EMBL数据库也于1982年开始服务l日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。核酸序列数据库核酸序列 核酸序列是由4种核苷酸的单字母(ATGC)符号排成的序列。蛋白质序列数据库lSWISS-PROT和PIR是国际上二

7、个主要的蛋白质序列数据库,目前这二个数据库在EMBL和GenBank数据库上均建立了镜像 (mirror) 站点。SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序列,这些序列经过检验和注释。PIR数据库的数据由美国家生物技术信息中心(NCBI)翻译自GenBank的DNA序列。 蛋白质序列lMNIQQLALQNIKGNWRNYKVFFLSSCFAIFASFAYMSVIVHPYMKETMWYQNVRWGLIICNIIIISFFIIFILYSTSIFIEARKKELGLYMLMGATKSNVIGVIMTEQMLIGVFANIFGIGLGIIFLKLFFMVFSMLLGLPKELPIIF

8、DVRAIGGTFIAYMVVFVVLSFISALRIWNIKIIRLLKEFRTDKKEKKTSMRLCIFGLICLGIGYALALQTTMPTIAFYFFPVSILVFFGTYFSFTHGTAQILELIKRNKKIMYTYPYLFIVNQLSHRMKENGRFFFLMSMATTFVVTATGTVFLYFSGMQDMWRGGGVHSFSYIEKGTSSHEVFAEGMVEQLLHQYGYDDFQSMSFVGVYASFQSSKGETEIATLMKESEYNQEARKQGQKTYHPKKGSVTLVYYNKYNHPNMYDQKEIQLQVMNQTYSFVFNGQKEGIQFNYHPSQING

9、LFFVMHDEDFDGIANKVPDSEKMIYRGYTLPNIENTKELNEDLRKHMKQDDNNAFRSNMELYVNMKAFGDITLFVGSFISILFFLTSCSIVYFKWFHNIASDRKEYGALSKLGMTKEEVWRISRWQLCMLFFAPIIVGSMHSAVALYTFHNTIFMDGSLRKVGLFILFYIAACIMYFFFAQREYRKHLDl蛋白质序列是由20种氨基酸的单字母符号排成的序列。蛋白质数据库种类和特点名称维护单位注释冗余度数据量更新PIRNCBI、JIPID、MIPS部分完善较大较大较慢SwissProtEBI、SIB完善小不大较慢NRL3DNC

10、BI完善小小较慢TrEMBLEBI、SIB不完善大大快GenPeptNCBI不完善大大快NRDBEBI一般小大较快OWLHGMP一般小大较慢生物大分子三维结构数据库l蛋白质结构数据库 lPDB l蛋白质分类数据库 lSCOP和CATH蛋白质结构库(PDB)l实验获得的三维蛋白质结构均贮存在蛋白质数据库PDB(http:/www.rcsb.org/pdb)中。PDB是国际上主要的蛋白质结构数据库,虽然它没有蛋白质序列数据库那么庞大,但其增长速度很快。PDB贮存有由X射线和核磁共振(NMR)确定的结构数据。蛋白质结构 蛋白质结构存放着构成蛋白质分子的所有原子的三维空间坐标值。蛋白质结构分类数据库l

11、SCOP (Structural Classification of Proteins)lCATH( Class, Architecture, Topology, Homology)蛋白质结构分类数据库SCOPl描述了结构和进化关系。lSCOP数据库从不同层次对蛋白质结构进行分类,以反映它们结构和进化的相关性。l第一个分类层次为家族,通常将序列相似性程度在30%以上的蛋白质归入同一家族,有比较明确的进化关系。l超家族:序列相似性较低,结构和功能特性表明它们有共同的进化起源,将其视作超家族。l折叠类型:无论有无共同的进化起源,只要二级结构单元具有相同的排列和拓扑结构,即认为这些蛋白质具有相同的折

12、叠方式。在这些情况下,结构的相似性主要依赖于二级结构单元的排列方式或拓扑结构。蛋白质结构分类数据库CATHl类型Class、构架Architecture 、拓扑结构Topology和同源性Homology 。l分类基础是蛋白质结构域。与SCOP不同的是,CATH把蛋白质分为4类,即a主类、b主类,a-b类(a/b型和a+b型)和低二级结构类。低二级结构类是指二级结构成分含量很低的蛋白质分子。lCATH数据库的第二个分类依据为由螺旋和折叠形成的超二级结构排列方式,而不考虑它们之间的连接关系。l第三个层次为拓扑结构,即二级结构的形状和二级结构间的联系。l第四个层次为结构的同源性,它是先通过序列比较

13、然后再用结构比较来确定的。lCATH数据库的最后一个层次为序列(Sequence)层次,在这一层次上,只要结构域中的序列同源性大于35%,就被认为具有高度的结构和功能的相似性。对于较大的结构域,则至少要有60%与小的结构域相同。蛋白质结构分类数据库CATH基因组数据库lGDB l人类基因组数据库lAceDB l线虫(Caenorhabditis elegans)基因组数据库四、数据库检索工具lEntrezlSRShttp:/www.ncbi.nlm.nih.giv/Entrez/http:/www.ncbi.nlm.nih.giv/Entrez/lEntrez-GenBankSRS(Seque

14、nce Retrieval System )SRS是欧洲分子生物学网EMBnet的主要检索工具。SRS, Sequence Retrieval System, is a powerful database management system developed specifically for biological databases. The goal of SRS is to provide an efficient access to databases with biological contents no matter in what format are they availabl

15、e and allowing for complex search criteria.数据库记录的格式与检索路口核酸/蛋白质数据库记录的组成l由于历史原因,各种生物数据库采用了不同的信息格式,许多生物计算机软件也要求特定的核酸和蛋白质序列输入格式。l一个数据库记录(entry)一般由两部分组成:原始序列数据和描述这些数据生物学信息的注释(annotation)。注释中包含的信息与相应的序列数据同样重要和有应用价值,值得注意。l序列部分和注释部分两者都有固定格式,以便计算机读取。各个数据库的具体格式又有所不同,大致分成GenBank和EMBL两种风格。 GenBank格式GenBank格式Gen

16、Bank格式:每个条目都是一份纯文本文件。每行左端或为空格或为识别字,识别字均为完整英文字,不用缩写。为了同embl对照,一并列在下表中。GenBank条目,使用一大批与EMBL和DDBJ数据库统一的关键字。格式可以分成3个部分:1)头部包含关于整个序列的信息(描述字符),从 LOCUS行到ORIGIN行;2)注释这一序列的特性(Feature Table ),为注释的核心部分;3)序列本身(Sequence)。注:所有的核苷酸数据库记录(EMBL/GenBank/DDBJ)都在最后一行以/结尾。EMBL格式EMBL格式EMBL格式:欧洲分子生物学EMBL数据库的每个条目是一份纯文本文件,每一行最前面是由两个大写字母组成的识别标志,常见的识别标志列举在后面的表中。识别标志“特性表”FT包含一批关键字,它们的定义已经与GenBank和DDBJ统一。下欧洲国家的许多数据库如SWISS-PROT、ENZYME、TRANSFAC等,都采用与EMBL一致的格式。 数据库记录注释代码和内容说明 EMBL识别标志 GenBank识别字 意义ID LOCUS 序列名称DEDEFINITION序列简单

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号