生物分子数据库管理知识.ppt

上传人:F****n 文档编号:97454693 上传时间:2019-09-04 格式:PPT 页数:107 大小:1.36MB
返回 下载 相关 举报
生物分子数据库管理知识.ppt_第1页
第1页 / 共107页
生物分子数据库管理知识.ppt_第2页
第2页 / 共107页
生物分子数据库管理知识.ppt_第3页
第3页 / 共107页
生物分子数据库管理知识.ppt_第4页
第4页 / 共107页
生物分子数据库管理知识.ppt_第5页
第5页 / 共107页
点击查看更多>>
资源描述

《生物分子数据库管理知识.ppt》由会员分享,可在线阅读,更多相关《生物分子数据库管理知识.ppt(107页珍藏版)》请在金锄头文库上搜索。

1、第四章 生物分子数据库,主讲人:孙 啸 制作人:刘志华,东南大学 吴健雄实验室,第一节 引言,生物分子数据 高速增长,分子生物学 及相关领域研究人员 迅速获得最新实验数据,建立生物分子数据库,生物分子数据库应满足5个方面的主要需求 (1)时间性 (2)注释 (3)支撑数据 (4)数据质量 (5)集成性,生物分子数据库 一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 二级数据库 对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的 。,生物分子数据库几个明显的特征:,(1)数据库的更新速度不断加快 数据量

2、呈指数增长趋势 (2)数据库使用频率增长更快 (3)数据库的复杂程度不断增加 (4)数据库网络化 (5)面向应用 (6)先进的软硬件配置,第二节 核酸序列数据库,国际上权威的核酸序列数据库 (1)欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de (2)美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html (3)日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/,三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结

3、果一样。 这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。 以下着重介绍EBML,“ID”为序列的标识符行,包括登录号、类型,分子的长度,“AC”为登录号行; “XX”为分隔符号行; “DT”为创建和更新日期行,“DE”为序列描述行; “KW”为关键字行; “OG”行描述细胞组织; “OS”行描述生物体种属; “OC”行描述生物体分类信息; “RN”描述参考文献的编号; “RP”描述参考文献的页码; “RA”描述参考文献的作者; “RT”描述参考文献的题目; “RL”描述参考文献的出处; “RC”描述参考文献的注解; “RX”、“DR”

4、行描述交叉引用信息; “FH” 为特征开始符号; “FT”为特征表行 (1)Feature Key,它是描述域生物功能的关键字; (2)Location,指明特征在序列中的特定位置; (3)Qualifiers,描述关于一个特征的辅助信息;,文件体由序列本身所组成,由“SQ”标志的行开始。 序列结束的标记是“/”。,EMBL核酸数据库中的每一个序列数据被赋予一个登录号,它是一个永久性的唯一标识,EMBL的序列数据用外在的ASCII文本文件来表示, 而每一个文件分为文件头和文件体两大部分,文件头由一系列的信息描述行所组成, 文件头实际上对应于一个序列的注释(annotation),提交数据,(1

5、)编辑电子表格,(2)利用Authorin程序,(3)利用基于WWW网络环境的序列提交系统,使用EMBL,(1)CD-ROM形式,(2)ftp服务器,(3)Gopher服务器,(4)WWW服务器,这是目前最常用的一种形式,EMBL提供一些与序列相关的检索操作(基于3W服务器),(1)序列查询,最简单的查询就是通过序列的登录号(如X58929) 或序列名称(如SCARGC)直接查询。,如果找到所查询的序列,则服务器将查询结果以HTML文件返回给用户 如果数据库中该序列有到MEDLINE的交叉索引,则系统同时返回与包含参考文献摘要等信息的MEDLINE链接 如果该序列有到其它数据库的交叉索引,也返

6、回相应的链接,例如: 登录号为J00231的核酸序列具有这样一个交叉索引行:,DR SWISS-PROT:P01860;GC3_HUMAN,(2)核酸同源性搜索,3W服务器支持用户使用FastA程序进行核酸同源搜索。 FastA根据给定的目标序列在数据库中搜索其同源序列。,2、基因组数据库(GDB),人类基因组计划所得到的图谱数据,目前GDB包含对下述三种对象的描述:,(1)人类基因组区域 包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、 EST、综合区域、contigs、重复等;,(2)人类基因组图谱, 包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱,

7、所有这些图谱都可以被直观地显示出来;,(3)人类基因组中的变化, 包括基因突变和基因多态性,加上等位基因频率数据。,与染色体相关的信息,其它模式生物基因组数据库 如:鼠基因组数据库 MGD (http:/www.informatics.jax.org/) 酵母基因组数据库 SGD (http:/genome-www.stanford.edu/Saccharomyces/),Ensembl (http:/www.ensembl.org/),3、人类基因组数据库Ensembl,Ensembl包括所有公开的人类基因组DNA序列,通过注释形成的关于序列的特征。 现在包括其他基因组,如大鼠、小鼠、线虫、

8、果蝇等。 例如:基因 通过实验发现的 或者是通过GenScan程序预测的 其他的特征: 单核苷酸多态性(SNP)、重复序列等,Ensembl 数据库结构图,Ensembl提供多种查询方式 通过关键字查询 用BLAST进行相似序列的搜索 另一种更直观的方式是显示各染色体 用户可以在染色体水平上选择感兴趣的位点, 逐层放大 浏览整个基因组,人的第9号染色体及大鼠对应的染色体片段,4、表达序列标记数据库dbEST,EST(Expressed Sequence Tags)方法已被证明是识别转录序列的最有效方法 ,EST序列大约覆盖了人类基因的90%。,DbEST (http:/www.ncbi.nlm

9、.nih.gov/dbEST/) 是GenBank的一个部分,该数据库包括不同生物的EST序列 数据及其它相关信息,主要是从大量不同组织和器官得到的短 mRNA片段。,WEB页面或email,FTP,有关EST的数据,dbEST数据库,5、序列标记位点数据库dbSTS,STS(Sequence Tagged Sites)是序列标记位点 dbSTS(http:/www.ncbi.nlm.nih.gov/dbSTS/) 是NCBI的一个数据源,包含基因组短标记序列(STS) 的组成和定位信息。 可以通过BLAST搜索STS序列。,6、面向基因聚类数据库UniGene,UniGene( http:/

10、www.ncbi.nlm.nih.gov/UniGene/) 数据库将GenBank中的序列进行自动分类,形成 面向基因群的非冗余集合。,每个UniGene群包含: 代表一个唯一基因的多个序列,附有该基因相关的信息, 如基因表达的组织类型、定位图谱 除了基因的序列之外,还包括大量的EST序列。,目前,UniGene中包括人类、大鼠、小鼠、牛的相关数据, 因为这些生物有大量的EST数据。,第三节 蛋白质序列数据库,目的: 帮助研究者鉴别和解释蛋白质序列信息, 研究分子进化、功能基因组。 它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。 所有序列数据都经过整理,超过99%的序列已按蛋白质家族

11、分类,一半以上还按蛋白质超家族进行了分类。,1、PIR(Protein Information Resource),除了蛋白质序列数据之外,PIR还包含以下信息: (1)蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等; (4)序列中相关的位点、功能区域。,PIR提供三种类型的检索服务: 一是基于文本的交互式查询, 用户通过关键字进行数据查询。 二是标准的序列相似性搜索, 包括BLAST、FastA等。 三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜

12、索等。,三个子数据库,2、SWISS-PROT,SWISS-PROT (http:/www.expasy.ch/sprot/sprot-top.html) 是目前国际上比较权威的蛋白质序列数据库,其中的蛋白 质序列是经过注释的,SWISS-PROT中的数据来源于不同源地: (1)从核酸数据库经过翻译推导而来; (2)从蛋白质数据库PIR挑选出合适的数据; (3)从科学文献中摘录; (4)研究人员直接提交的蛋白质序列数据,SWISS-PROT有三个明显的特点 :,(1)注释 在SWISS-PROT中,数据分为核心数据和注释两大类。 核心数据包括: 序列数据、参考文献、分类信息(蛋白质生物来源的描

13、述) 注释包括: (A)蛋白质的功能描述; (B)翻译后修饰; (C)域和功能位点,如钙结合区域、ATP结合位点等; (D)蛋白质的二级结构; (E)蛋白质的四级结构,如同构二聚体、异构三聚体等; (F)与其它蛋白质的相似性; (G)由于缺乏该蛋白质而引起的疾病; (H)序列的矛盾、变化等。,(2)最小冗余,尽量将相关的数据归并,降低数据库的冗余程度。 如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。,(3)与其它数据库的连接,对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。,现有的交叉索引有: 到EMBL核酸序列数据库的索引, 到PROSITE

14、模式数据库的索引, 到生物大分子结构数据库PDB的索引等 。,提交序列数据 (a)编辑电子表格 (b) 利用Authorin程序 (c)WWW服务器 使用SWISS-PROT (a)CD-ROM形式 (b)ftp服务器 (c)Gopher服务器 (d)WWW服务器(SRS) 与序列相关的操作 (a)序列查询 (b)搜索同源蛋白质序列,TrEMBL (http:/www.ebi.ac.uk/trembl/index.html) 是与SWISS-PROT相关的一个数据库。 包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。

15、TrEMBL有两个部分: (1)SP-TrEMBL(SWISS-PROT TrEMBL) 包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL 序列都已被赋予SWISS-PROT的 登录号。 (2)REM-TrEMBL(REMaining TrEMBL) 包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。,3、TrEMBL,包括: Swiss-Prot TrEMBL PIR 用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP 下载数据。,4、蛋白质数据仓库UniProt,UniProt包含3个部分: (1)UniProt

16、 Knowledgebase(UniProt) 蛋白质序列、功能、分类、交叉引用等信息存取中心 (2)UniProt Non-redundant Reference(UniRef)数据库 将密切相关的蛋白质序列组合到一条记录中 以便提高搜索速度; (3)UniProt Archive(UniParc) 资源库,记录所有蛋白质序列的历史。,第四节 生物大分子结构数据库,1、PDB(Protein Data Bank) PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构 蛋白质 核酸 糖类 其它复合物,一种是显式序列信息(explicit sequence) 在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。 一种是隐式序列信息(implicit sequence) PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。,HEADER HYDROLASE 19-FEB-97 1ADZ

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号