第二章、生物分子数据库课件

上传人:ni****g 文档编号:588970297 上传时间:2024-09-09 格式:PPT 页数:80 大小:4.07MB
返回 下载 相关 举报
第二章、生物分子数据库课件_第1页
第1页 / 共80页
第二章、生物分子数据库课件_第2页
第2页 / 共80页
第二章、生物分子数据库课件_第3页
第3页 / 共80页
第二章、生物分子数据库课件_第4页
第4页 / 共80页
第二章、生物分子数据库课件_第5页
第5页 / 共80页
点击查看更多>>
资源描述

《第二章、生物分子数据库课件》由会员分享,可在线阅读,更多相关《第二章、生物分子数据库课件(80页珍藏版)》请在金锄头文库上搜索。

1、第二章第二章分子生物信息数据库分子生物信息数据库 9/9/20241生物信息学第二章分子生物信息数据库 9/24/2022第一节第一节 分子生物信息数据库分子生物信息数据库第二节第二节 核酸与蛋白质序列格式核酸与蛋白质序列格式转换转换简简 介介9/9/20242生物信息学第一节 分子生物信息数据库第二节 核酸与蛋白第一节、分子生物信息数据库第一节、分子生物信息数据库一、分子生物信息数据库简介一、分子生物信息数据库简介二、各大类主要数据库介绍二、各大类主要数据库介绍9/9/20243生物信息学第一节、分子生物信息数据库一、分子生物信息数据库简一、分子生物信息数据库简介一、分子生物信息数据库简介生

2、物分子数据生物分子数据高速增长高速增长 分子生物学分子生物学及相关领域研究人员及相关领域研究人员迅速获得最新实验数据迅速获得最新实验数据 建立生物分子数据库建立生物分子数据库 9/9/20244生物信息学一、分子生物信息数据库简介生物分子数据分子生物学建一、分子生物信息数据库简介一、分子生物信息数据库简介 生物分子数据库应满足生物分子数据库应满足5个方面的主要个方面的主要需求需求v(1 1)时间性)时间性v(2 2)注释)注释 v(3 3)支撑数据)支撑数据 v(4 4)数据质量)数据质量 v(5 5)集成性)集成性 9/9/20245生物信息学一、分子生物信息数据库简介 生物分子数据库应满一

3、、分子生物信息数据库简介一、分子生物信息数据库简介生物分子数据库几个明显的特征:(1)数据库的更新速度不断加快,)数据库的更新速度不断加快, 数据量呈指数增长趋势;数据量呈指数增长趋势; (2)数据库使用频率增长更快,接近)数据库使用频率增长更快,接近500; (3)数据库的复杂程度不断增加)数据库的复杂程度不断增加 ;(4)数据库网络化)数据库网络化 ;(5)面向应用;)面向应用;(6)先进的软硬件配置。)先进的软硬件配置。9/9/20246生物信息学一、分子生物信息数据库简介生物分子数据库几个明显的一、分子生物信息数据库简介一、分子生物信息数据库简介9/9/20247生物信息学一、分子生物

4、信息数据库简介9/24/20227二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库核酸序列数据库核酸序列数据库蛋白质序列数据库蛋白质序列数据库蛋白质结构数据库蛋白质结构数据库蛋白质结构分类数据库蛋白质结构分类数据库功能数据库功能数据库生物信息学数据库导航系统生物信息学数据库导航系统9/9/20248生物信息学二、各大类主要数据库介绍基因组数据库9/24/20二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库基基因因组组数数据据库库的的主主体体是是模模式式生生物物基基因因组组数数据据库库,其其中中主主要要有有世世界界各各国国人人类类基基因因组组研研究

5、究中中心心,测测序序中中心心构构建建的的各各种种人人类类的的基基因因组组数数据据库库。还还有有模模式式生生物物基基因因组组数数据据库库,如如小小鼠鼠、线线虫虫、果果蝇蝇、酵酵母母等等。一一些些动动物物与与植植物物基基因因组组数据库也纷纷上网。数据库也纷纷上网。 基基因因组组信信息息资资源源除除了了基基因因组组本本身身信信息息外外,还还包包括括染染色色体体、基基因因突突变变、遗遗传传疾疾病病、分分类类学学、比比较较基基因因组组、基基因因的调控与表达、放射杂交、基因图谱等各种数据库的调控与表达、放射杂交、基因图谱等各种数据库9/9/20249生物信息学二、各大类主要数据库介绍基因组数据库 基因二、

6、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库(一)(一) GDB The GDB Human Genome Database gdb.org/于于1990年由美国年由美国JOHNS HOPKINS大学建立,现大学建立,现在由加拿大儿童医院生物信息学中心负责管理。在由加拿大儿童医院生物信息学中心负责管理。基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述9/9/202410生物信息学二、各大类主要数据库介绍

7、基因组数据库(一) GDB二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库(一)(一) GDB The GDB Human Genome Database gdb.org/目前目前GDB中有:人类基因组区域中有:人类基因组区域(包括基因、克隆、包括基因、克隆、amplimers PCR 标记、断点标记、断点breakpoints、细胞遗、细胞遗传标记传标记cytogenetic markers、易碎位点、易碎位点fragile sites、EST序列、综合区域序列、综合区域syndromic regions、contigs和重复序列和重复序列); 人类基因组图谱人类基因

8、组图谱(包括细胞遗传图谱、连接图谱、包括细胞遗传图谱、连接图谱、放射性杂交图谱、放射性杂交图谱、content contig图谱和综合图谱等图谱和综合图谱等);人类基因组内的变异;人类基因组内的变异(包括突变和多态性,加上等包括突变和多态性,加上等位基因频率数据位基因频率数据)。9/9/202411生物信息学二、各大类主要数据库介绍基因组数据库(一) GDB二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库9/9/202412生物信息学二、各大类主要数据库介绍基因组数据库9/24/20二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库9/9/2024

9、13生物信息学二、各大类主要数据库介绍基因组数据库9/24/20二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库9/9/202414生物信息学二、各大类主要数据库介绍基因组数据库9/24/20二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库(二)(二)人类基因组数据库人类基因组数据库Ensemblensembl.org/Ensembl 试图跟踪所有人类基因组的序列片段,并将试图跟踪所有人类基因组的序列片段,并将序列片段组装成单个长序列,进而分析这些经过组装的序列片段组装成单个长序列,进而分析这些经过组装的DNA 序列,搜索其中的基因,发现生物学家

10、或医学工作者序列,搜索其中的基因,发现生物学家或医学工作者感兴趣的特征。感兴趣的特征。 Ensembl 包括所有公开的基因组包括所有公开的基因组DNA 序列,如人类基序列,如人类基因组、小鼠和大鼠基因组等。通过注释形成的关于序列的因组、小鼠和大鼠基因组等。通过注释形成的关于序列的特征。基因就是一种特征,基因或者是通过实验发现的,特征。基因就是一种特征,基因或者是通过实验发现的,或者是通过或者是通过Ensembl 的程序预测的。的程序预测的。 Ensembl 所用的基因预测程序为所用的基因预测程序为GenScan。其他的特。其他的特征包括单核苷酸多态性(征包括单核苷酸多态性(SNP)、重复序列与

11、其它序列高)、重复序列与其它序列高度相似(或同源)的序列。度相似(或同源)的序列。9/9/202415生物信息学二、各大类主要数据库介绍基因组数据库(二)人类基因二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库(二)(二)人类基因组数据库人类基因组数据库Ensembl9/9/202416生物信息学二、各大类主要数据库介绍基因组数据库(二)人类基因第二章、生物分子数据库课件二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库(二)(二)人类基因组数据库人类基因组数据库Ensembl9/9/202418生物信息学二、各大类主要数据库介绍基因组数据库(二)

12、人类基因二、各大类主要数据库介绍二、各大类主要数据库介绍基因组数据库基因组数据库(三)其他基因组数据库(三)其他基因组数据库1、EcoGene大肠杆菌(E.coli)K-12的序列bmb.med.miami.edu/2、MITOMAP人类线粒体基因组mitomap.org/3、SGD酵母基因组数据库genome-stanford.edu/Saccharomyces9/9/202419生物信息学二、各大类主要数据库介绍基因组数据库(三)其他基因二、各大类主要数据库介绍二、各大类主要数据库介绍核酸序列数据核酸序列数据 核酸序列是了解生物体结构、功能、发育和进化的出发核酸序列是了解生物体结构、功能、

13、发育和进化的出发点。国际上权威的核酸序列数据库有三个,分别是点。国际上权威的核酸序列数据库有三个,分别是美国生物技术信息中心(美国生物技术信息中心( NCBI )的)的GenBank欧洲分子生物学实验室的欧洲分子生物学实验室的EMBL-Bank日本遗传研究所的日本遗传研究所的DDBJ 三个组织相互合作,各数据库中的数据基本一致,仅在三个组织相互合作,各数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。结果一样。 这三个数据库是综合性的这三个数据库是综合性的DNA 和和RNA序列数据库,其数序列数据库,其

14、数据来源于众多的研究机构和核酸测序小组,来源于科学文献。据来源于众多的研究机构和核酸测序小组,来源于科学文献。用户可以通过各种方式将核酸序列数据提交给这三个数据库用户可以通过各种方式将核酸序列数据提交给这三个数据库系统。系统。9/9/202420生物信息学二、各大类主要数据库介绍核酸序列数据 (一)(一)GenbankGenbank库包含了所有已知的核酸序列和蛋白质序列,以库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心它是由美国国立生物技术信息中心(NCBI)建立和维护的。它建立和维护的。它的数据

15、直接来源于测序工作者提交的序列;由测序中心提交的数据直接来源于测序工作者提交的序列;由测序中心提交的大量的大量EST序列和其它测序数据;以及与其它数据机构协作序列和其它测序数据;以及与其它数据机构协作交换数据而来。交换数据而来。Genbank每天都会与欧洲分子生物学实验室每天都会与欧洲分子生物学实验室(EMBL)的数据的数据库,和日本的库,和日本的DNA数据库数据库(DDBJ)交换数据,使这三个数据交换数据,使这三个数据库的数据同步。库的数据同步。Genbank的数据可以从的数据可以从NCBI的的FTP服务器上免费下载完整服务器上免费下载完整的库,或下载积累的新数据。的库,或下载积累的新数据。

16、NCBI还提供广泛的数据查询、还提供广泛的数据查询、序列相似性搜索以及其它分析服务,用户可以从序列相似性搜索以及其它分析服务,用户可以从NCBI的主的主页上找到这些服务。页上找到这些服务。 9/9/202421生物信息学(一)GenbankGenbank 库包含了所有已知Genbank库里的数据按来源于约库里的数据按来源于约55,000个物种,个物种,其中其中56%是人类的基因组序列是人类的基因组序列(所有序列中的所有序列中的34%是人类的是人类的EST序列序列)。每条。每条Genbank数据记录包含数据记录包含了对序列的简要描述,它的了对序列的简要描述,它的科学命名,物种分类科学命名,物种分

17、类名称,参考文献,序列特征表,以及序列本身名称,参考文献,序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及细菌类、病毒类、灵长类、啮齿类,以及EST数数据、基因组测序数据、大规模基因组序列数据等据、基因组测序数据、大规模基因组序列数据等16类,其中类,其中EST数据等又被各自分成若干个文件。数据等又被各自分成若干个文件。 (一)(一

18、)Genbank9/9/202422生物信息学 Genbank库里的数据按来源于约55,0ncbi.nlm.nih.gov(一)(一)Genbank9/9/202423生物信息学ncbi.nlm.nih.gov(一)Genban(一)(一)Genbank9/9/202424生物信息学(一)Genbank9/24/202224(二)(二)EMBL EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。该数据库由Oracal数据库系统管理维护,查询检索可以通过因特网上的序列提取系统(SRS)服务完

19、成。 9/9/202425生物信息学(二)EMBL EMBL核酸序列数ebi.ac.uk/embl/(二)(二)EMBL9/9/202426生物信息学ebi.ac.uk/embl/(二)EMBL9/2(三)(三)DDBJ数据库数据库 日日本本DNA数数据据仓仓库库(DDBJ)也也是是一一个个全全面面 的的 核核 酸酸 序序 列列 数数 据据 库库 , 与与 Genbank和和EMBL核核酸酸库库合合作作交交换换数数据据。可可以以使使用用其其主主页页上上提提供供的的SRS工工具具进进行行数数据据检检索索和和序序列列分析。分析。 DDBJ的网址是:ddbj.nig.ac.jp/index-e.ht

20、ml9/9/202427生物信息学(三)DDBJ数据库 日本DNA数据(三)(三)DDBJ数据库数据库9/9/202428生物信息学(三)DDBJ数据库9/24/202228二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库1、PIR(Protein Information Resource)pir.georgetown.edu/由美国生物医学基金会由美国生物医学基金会NBRF(National Biomedical Research Foundation)于)于1984 年建立的。年建立的。目的是帮助研究者鉴别和解释蛋白质序列信息,研究目的是帮助研究者鉴别和解释

21、蛋白质序列信息,研究分子进化、功能基因组,进行生物信息学分析。分子进化、功能基因组,进行生物信息学分析。它是一个全面的、经过注释的、非冗余的蛋白质序列它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。数据库。w 所有序列数据都经过整理,超过所有序列数据都经过整理,超过99%的序列已按蛋的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。白质家族分类,一半以上还按蛋白质超家族进行了分类。9/9/202429生物信息学二、各大类主要数据库介绍蛋白质序列数据库1、PIR二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库1、PIR(Protein Infor

22、mation Resource)pir.georgetown.edu/除了蛋白质序列数据之外,除了蛋白质序列数据之外,PIR还包含以下信息:还包含以下信息: (1)蛋白质名称、蛋白质的分类、蛋白质的来源;蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献;关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因表蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;达、翻译后处理、活化等; (4)序列中相关的位点、功能区域。序列中相关的位点、功能区域。9/9/202430生物信息学二、各大类主要数据库介绍蛋白质序列数据库1、PIR二、各大类主要数据库

23、介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库1、PIR(Protein Information Resource)PIR提供三种类型的检索服务:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FASTA等。三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。目前,目前,PIR 包括三个子数据库,分别是:包括三个子数据库,分别是:蛋白质序列数据库蛋白质序列数据库PIR-PSD蛋白质分类数据库蛋白质分类数据库iProClass以及非冗余的蛋白质参考资料数据库以及非冗余的蛋白质参考资料数据库

24、PIR-NREF。9/9/202431生物信息学二、各大类主要数据库介绍蛋白质序列数据库1、PIR二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库1、PIR(Protein Information Resource)9/9/202432生物信息学二、各大类主要数据库介绍蛋白质序列数据库1、PIR二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库2、SWISS-PROT (ebi.ac.uk/swissprot/ 曾经的网址)曾经的网址)uniprot.org/是由是由Geneva 大学和欧洲生物信息学研究所(大学和欧洲生物信息学研究

25、所( EBI)于)于1986 年联合建立年联合建立的,它是目前国际上权威的蛋白质序列数据库。的,它是目前国际上权威的蛋白质序列数据库。SWISS-PROT 中的蛋白质中的蛋白质序列是经过注释的。序列是经过注释的。SWISS-PROT中的数据来源于不同源地:中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库)从蛋白质数据库PIR挑选出合适的数据;挑选出合适的数据;(3)从科学文献中摘录;)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据)研究人员直接提交的蛋白质序列数据 与其它蛋白质序列数据库相比较,与其它蛋白质序列数据库相比

26、较,SWISS-PROT 有三个明显的特点:有三个明显的特点:(1)注释)注释(2)最小冗余)最小冗余(3)与其它数据库的连接)与其它数据库的连接9/9/202433生物信息学二、各大类主要数据库介绍蛋白质序列数据库2、SWI二、各大类主要数据库介绍二、各大类主要数据库介绍2、SWISS-PROT (ebi.ac.uk/swissprot/)9/9/202434生物信息学二、各大类主要数据库介绍2、SWISS-PROT 二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库3、 TrEMBL (ebi.ac.uk/trembl/index.html 曾经的网址曾经的网

27、址) uniprot.org/ TrEMBL是一个计算机注释的蛋白质数据库,作为是一个计算机注释的蛋白质数据库,作为SWISS-PROT 数据库的补充。该数据库主要包含从数据库的补充。该数据库主要包含从EMBL/ Genbank/DDBJ 核酸数核酸数据库中根据编码序列据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚翻译而得到的蛋白质序列,并且这些序列尚未集成到未集成到SWISS-PROT 数据库中。数据库中。 TrEMBL 有两个部分有两个部分SP-TrEMBL(SWISS-PROT TrEMBL)包含最终将要集成到包含最终将要集成到SWISS-PROT 的数据,所有的的数

28、据,所有的SP-TrEMBL 序列都已被赋予序列都已被赋予SWISS-PROT 的的 登录号。登录号。REM-TrEMBL(REMaining TrEMBL)包括所有不准备放入包括所有不准备放入SWISS-PROT 的数据,因此这部分数据都没有登录号。的数据,因此这部分数据都没有登录号。9/9/202435生物信息学二、各大类主要数据库介绍蛋白质序列数据库3、 Tr二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库3、TrEMBLTrEMBL(曾经的网址和界面)9/9/202436生物信息学二、各大类主要数据库介绍蛋白质序列数据库3、 Tr二、各大类主要数据库介绍

29、二、各大类主要数据库介绍蛋白质序列数据库蛋白质序列数据库4、UniProt蛋白质数据仓库将将 Swiss-Prot、 TrEMBL、PIR 3 个蛋白质数据库统一起来,个蛋白质数据库统一起来,建立了一个蛋白质数据仓库建立了一个蛋白质数据仓库UniProt。UniProt包含包含4 个部分:个部分:(1)UniProt Knowledgebase(UniProtKB),这是蛋白质序列、),这是蛋白质序列、功能、分类、交叉引用等信息存取中心;功能、分类、交叉引用等信息存取中心;(2)UniProt Non-redundant Reference(UniRef)数据库,该)数据库,该数据库将密切相关

30、的蛋白质序列组合到一条记录中,以便提高搜索数据库将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;速度;(3)UniProt Archive(UniParc),是一个资源库,记录所有蛋),是一个资源库,记录所有蛋白质序列的历史。白质序列的历史。(4)UniProt Metagenomic and Environmental Sequence(UniMES),记录),记录metagenomic和环境微生物序列数和环境微生物序列数据。据。用户可以通过文本查询数据库,可以利用用户可以通过文本查询数据库,可以利用BLAST 程序搜索数据程序搜索数据库,也可以直接通过库,也可以直接通过FTP 下

31、载数据。下载数据。9/9/202437生物信息学二、各大类主要数据库介绍蛋白质序列数据库4、Uni第二章、生物分子数据库课件二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构数据库蛋白质结构数据库1、PDBPDBProtein Data Bank rcsb.org/pdb蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和

32、下载服务,以及关于PDB数据文件格式和其它文档的说明,PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。9/9/202439生物信息学二、各大类主要数据库介绍蛋白质结构数据库1、 PD二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构数据库蛋白质结构数据库1、PDBPDBProtein Data Bank rcsb.org/pdbPDB中的每条记录有两种序列信息一种是显式序列信息(explicitsequence)在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。一种是隐式序列信息(

33、implicitsequence)PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。9/9/202440生物信息学二、各大类主要数据库介绍蛋白质结构数据库1、 PD二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构数据库蛋白质结构数据库9/9/202441生物信息学二、各大类主要数据库介绍蛋白质结构数据库9/24/二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构数据库蛋白质结构数据库PDB 显示分子结构(显示分子结构(RasMol , ChemView )9/9/202442生物信息学二、各大类主要数据库介绍蛋白质结构数据库PDB 显二、各大类主要数据库介

34、绍二、各大类主要数据库介绍蛋白质结构数据库蛋白质结构数据库2、MMDB(Molecular Modeling Database) 分子模型分子模型MMDB 是(是(NCBI)所开发的生物信息数据)所开发的生物信息数据库集成系统库集成系统Entrez的一个部分,数据库的内容包括来自于的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。实验的生物大分子结构数据。 与与PDB相比,对于数据库中的每一个生物大分子结构,相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等功能的机制、

35、分子的进化历史等 。 还提供生物大分子三维结构模型显示、结构分析和结构还提供生物大分子三维结构模型显示、结构分析和结构比较工具。比较工具。9/9/202443生物信息学二、各大类主要数据库介绍蛋白质结构数据库2、 MM第二章、生物分子数据库课件第二章、生物分子数据库课件二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构数据库蛋白质结构数据库2、MMDB(Molecular Modeling Database) 9/9/202446生物信息学二、各大类主要数据库介绍蛋白质结构数据库2、 MM二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构分类数据库蛋白质结构分类数据库1、 SC

36、OP蛋白质结构分类数据库(蛋白质结构分类数据库(STRUCTURAL CLASSIFICATION OF PROTEINS) scop.mrc-lmb.cam.ac.uk/scop/ 详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:详细描述了已知的蛋白质结构之间的关系。分类基于若干层次: 家族,描述相近的进化关系;家族,描述相近的进化关系; 超家族,描述远源的进化关系;超家族,描述远源的进化关系;折叠子折叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归,描述空间几何结构的关系;折叠类,所有折叠子被归于全于全、全、全、/、多结构域蛋白、膜蛋白和细胞表面蛋白、小、多结构域蛋

37、白、膜蛋白和细胞表面蛋白、小蛋白分类等。在此基础上按折叠类型、超家族、家族三个参次主级分蛋白分类等。在此基础上按折叠类型、超家族、家族三个参次主级分类。类。9/9/202447生物信息学二、各大类主要数据库介绍蛋白质结构分类数据库1、 二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构分类数据库蛋白质结构分类数据库1、 SCOP蛋白质结构分类数据库蛋白质结构分类数据库9/9/202448生物信息学二、各大类主要数据库介绍蛋白质结构分类数据库1、 二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构分类数据库蛋白质结构分类数据库1、 SCOP蛋白质结构分类数据库蛋白质结构分类数据库

38、9/9/202449生物信息学二、各大类主要数据库介绍蛋白质结构分类数据库1、 二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构分类数据库蛋白质结构分类数据库1、 SCOP蛋白质结构分类数据库蛋白质结构分类数据库9/9/202450生物信息学二、各大类主要数据库介绍蛋白质结构分类数据库1、 二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构分类数据库蛋白质结构分类数据库、 蛋白质结构分类数据库蛋白质结构分类数据库Class(C), Architecture(A), Topology(T) and Homologous superfamily (H).cathdb/CATH数据

39、库的分类基础是蛋白质结构域。与SCOP不同的是,CATH把蛋白质分为4类,即主类、主类,-类(/型和+型)和低二级结构类。低二级结构类是指二级结构成分含量很低的蛋白质分子。CATH数据库的第二个分类依据为由螺旋和折叠形成的超二级结构排列方式,而不考虑它们之间的连接关系。形象地说来,就是蛋白质分子的构架,如同建筑物的立柱、横梁等主要部件,这一层次的分类主要依靠人工方法。9/9/202451生物信息学二、各大类主要数据库介绍蛋白质结构分类数据库、 二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构分类数据库蛋白质结构分类数据库、 蛋白质结构分类数据库蛋白质结构分类数据库Class(C),

40、Architecture(A), Topology(T) and Homologous superfamily (H).第三个层次为拓扑结构,即二级结构的形状和二级结构间的联系。第四个层次为结构的同源性,它是先通过序列比较然后再用结构比较来确定的。CATH数据库的最后一个层次为序列(Sequence)层次,在这一层次上,只要结构域中的序列相似性大于35%,就被认为具有高度的结构和功能的相似性。对于较大的结构域,则至少要有60%与小的结构域相同。9/9/202452生物信息学二、各大类主要数据库介绍蛋白质结构分类数据库、 二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构分类数据库蛋白质

41、结构分类数据库、 蛋白质结构分类数据库蛋白质结构分类数据库Class(C), Architecture(A), Topology(T) and Homologous superfamily (H).9/9/202453生物信息学二、各大类主要数据库介绍蛋白质结构分类数据库、 二、各大类主要数据库介绍二、各大类主要数据库介绍蛋白质结构分类数据库蛋白质结构分类数据库、 蛋白质结构分类数据库蛋白质结构分类数据库Class(C), Architecture(A), Topology(T) and Homologous superfamily (H).9/9/202454生物信息学二、各大类主要数据库介

42、绍蛋白质结构分类数据库、 二、各大类主要数据库介绍二、各大类主要数据库介绍功能数据库功能数据库lKEGG lDIP lASDB lTRRD lTRANSFAC lEPDl lPROSITE9/9/202455生物信息学二、各大类主要数据库介绍功能数据库KEGG 9/2KEGG 京都基因和基因组百科全书京都基因和基因组百科全书(KEGG)(KEGG)是系统分析基因功是系统分析基因功能,联系基因组信息和功能信息的知识库。能,联系基因组信息和功能信息的知识库。 基因组信息存储在基因组信息存储在GENESGENES数据库里,包括完整和部分数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在

43、测序的基因组序列;更高级的功能信息存储在PATHWAYPATHWAY数数据库里,包括图解的细胞生化过程如代谢、膜转运、信号据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;传递、细胞周期,还包括同系保守的子通路等信息;KEGGKEGG的另一个数据库是的另一个数据库是LIGANDLIGAND,包含关于化学物质、酶分子、,包含关于化学物质、酶分子、酶反应等信息。酶反应等信息。 KEGG KEGG提供了提供了JavaJava的图形工具来访问基因组图谱,比较的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比基因组图谱和操作表

44、达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。较和通路计算的工具,可以免费获取。 9/9/202456生物信息学KEGG 京都基因和基因组百科全书(KEGGKEGG kegg.jp/9/9/202457生物信息学KEGG kegg.jp/9/24/202257DIP 相互作用的蛋白质数据库(DIP)收集了由实验验证的蛋白质蛋白质相互作用。数据库包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分。用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询DIP数据库。 DIP的网址是:dip.doe-mbi.ucla.edu/9/9/20245

45、8生物信息学DIP 相互作用的蛋白质数据DIPdip.doe-mbi.ucla.edu/dip/main.cgi9/9/202459生物信息学DIPdip.doe-mbi.ucla.edu/dASDB(旧)(旧) 可变剪接数据库可变剪接数据库(ASDB)包括蛋白质库和包括蛋白质库和核酸库两部分。核酸库两部分。ASDB(蛋白质蛋白质)部分来源于部分来源于SWISS-PROT蛋白质序列库,通过选取有可蛋白质序列库,通过选取有可变剪接注释的序列,搜索相关可变剪接的序列,变剪接注释的序列,搜索相关可变剪接的序列,经过序列比对、筛选和分类构建而成。经过序列比对、筛选和分类构建而成。ASDB(核酸核酸)部

46、分来自部分来自Genbank中提及和注释的可变中提及和注释的可变剪接的完整基因构成。数据库提供了方便的搜剪接的完整基因构成。数据库提供了方便的搜索服务。索服务。ASDB的网址是:cbcg.nersc.gov/asdb9/9/202460生物信息学ASDB(旧) 可变剪接数ASDB-ASTD9/9/202461生物信息学ASDB-ASTD9/24/202261TRRD 转录调控区数据库转录调控区数据库(TRRD)是在不断积累的真核生物基是在不断积累的真核生物基因调控区结构功能特性信息基础上构建的。每一个因调控区结构功能特性信息基础上构建的。每一个TRRD的条目里包含特定基因各种结构功能特性:转录

47、的条目里包含特定基因各种结构功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。调控模式等。 TRRD包括五个相关的数据表:包括五个相关的数据表:TRRDGENES(包含包含所有所有TRRD库基因的基本信息和调控单元信息库基因的基本信息和调控单元信息);TRRDSITES(包括调控因子结合位点的具体信息包括调控因子结合位点的具体信息);TRRDFACTORS(包括包括TRRD中与各个位点结合的调控因中与各个位点结合的调控因子的具体信息子的具体信息);TRRDEXP(包括对基因表达模式的具体包括对基因表达模式的具体描述描述

48、);TRRDBIB(包括所有注释涉及的参考文献包括所有注释涉及的参考文献)。TRRD主页提供了对这几个数据表的检索服务。主页提供了对这几个数据表的检索服务。 TRRD的网址是:的网址是:wwwmgs.bionet.nsc.ru/mgs/dbases/trrd4/9/9/202462生物信息学TRRD 转录调控区数据库(TRTRRD9/9/202463生物信息学TRRD 9/24/202263EPDEPD(epd.isb-sib.ch/) 是真核基因启动子数据库提供从是真核基因启动子数据库提供从EMBL中得中得到的真核基因的启动子序列,目标是帮助实验到的真核基因的启动子序列,目标是帮助实验研究人

49、员、生物信息学研究人员分析真核基因研究人员、生物信息学研究人员分析真核基因的转录信号。的转录信号。9/9/202464生物信息学EPDEPD(epd.isb-sib.ch/)9/EPD9/9/202465生物信息学EPD9/24/202265PROSITE PROSITE数据库收集了生物学有显著意义的蛋白质数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序族。有

50、的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过的序列模式,这样就可能通过PROSITE的搜索找到隐含的搜索找到隐含的功能的功能motif,因此是序列分析的有效工具。,因此是序列分析的有效工具。 PROSITE中涉及的序列模式包括酶的催化位点、配中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,与小分子或其它蛋白质结合的区域等;除了序

51、列模式之外,PROSITE还包括由多序列比对构建的还包括由多序列比对构建的profile,能更敏感地,能更敏感地发现序列与发现序列与profile的相似性。的相似性。PROSITE的主页上提供各种的主页上提供各种相关检索服务。相关检索服务。 9/9/202466生物信息学PROSITE PROSexpasy.ch/prosite/PROSITE9/9/202467生物信息学expasy.ch/prosite/PROSITE二、各大类主要数据库介绍二、各大类主要数据库介绍生物信息学数据库导航系统生物信息学数据库导航系统1、DBCatDBCat是生物信息数据库的目录数据是生物信息数据库的目录数据库

52、,它收集了库,它收集了500多个生物信息学数据库的信多个生物信息学数据库的信息,并根据它们的应用领域进行了分类。包息,并根据它们的应用领域进行了分类。包括括DNA、RNA、蛋白质、基因组、图谱、蛋、蛋白质、基因组、图谱、蛋白质结构、文献著作等基本类型。数据库可白质结构、文献著作等基本类型。数据库可以免费下载或在网络上检索查询以免费下载或在网络上检索查询。DBCat的网址是:infobiogen.fr/services/dbcat/9/9/202468生物信息学二、各大类主要数据库介绍生物信息学数据库导航系统1数据对象数据库个数DNA87RNA29Protein94Genomic58Mappin

53、g29Proteinstructure18Literature43Miscellaneous153DBCatDBCat中分类数据库个数中分类数据库个数中分类数据库个数中分类数据库个数9/9/202469生物信息学数据库个数DNA87RNA29Protein94G二、各大类主要数据库介绍二、各大类主要数据库介绍生物信息学数据库导航系统生物信息学数据库导航系统1、DBCat9/9/202470生物信息学二、各大类主要数据库介绍生物信息学数据库导航系统1二、各大类主要数据库介绍二、各大类主要数据库介绍生物信息学数据库导航系统生物信息学数据库导航系统、生物软件网:bio-soft9/9/202471生

54、物信息学二、各大类主要数据库介绍生物信息学数据库导航系统二、各大类主要数据库介绍二、各大类主要数据库介绍生物信息学数据库导航系统生物信息学数据库导航系统3、核酸研究杂志(NUCLEICACIDsRESEARCH)每年第一期公布的生物学数据库资源The2019NucleicAcidsResearchDadabaseissueandtheonlinemolecularbiologydatabasecollection.NucleicAcidsRes.2019;39:D1-D6.9/9/202472生物信息学二、各大类主要数据库介绍生物信息学数据库导航系统3二、各大类主要数据库介绍二、各大类主要数据

55、库介绍生物信息学数据库导航系统生物信息学数据库导航系统3、核酸研究杂志(NUCLEICACIDsRESEARCH)9/9/202473生物信息学二、各大类主要数据库介绍生物信息学数据库导航系统3第二节、序列格式转换第二节、序列格式转换进行生物信息学的研究时,常常需要进行序列格式的转换,以满足不同生物信息学分析软件的需要。9/9/202474生物信息学第二节、序列格式转换9/24/202274 Fasta/pearsonDnastriderEMBI常见的序列格式常见的序列格式9/9/202475生物信息学 Fasta/pearsonDnastrider常见的序列格式常见的序列格式 GCG Phy

56、lipGenebank9/9/202476生物信息学常见的序列格式 GCG PhylipGeneban常见的序列格式常见的序列格式Paup NEXUSNBRFPir codata9/9/202477生物信息学常见的序列格式Paup NEXUSNBRFPir 如何进行序列格式转换如何进行序列格式转换1、利用软件、利用软件9/9/202478生物信息学如何进行序列格式转换1、利用软件9/24/2022如何进行序列格式转换如何进行序列格式转换2、利用网络www-bimas.cit.nih.gov/molbio/readseq/9/9/202479生物信息学如何进行序列格式转换2、利用网络www-bimas第二章、生物分子数据库课件

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号