生物信息学第1章ppt课件

上传人:鲁** 文档编号:587365436 上传时间:2024-09-05 格式:PPT 页数:66 大小:3.92MB
返回 下载 相关 举报
生物信息学第1章ppt课件_第1页
第1页 / 共66页
生物信息学第1章ppt课件_第2页
第2页 / 共66页
生物信息学第1章ppt课件_第3页
第3页 / 共66页
生物信息学第1章ppt课件_第4页
第4页 / 共66页
生物信息学第1章ppt课件_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《生物信息学第1章ppt课件》由会员分享,可在线阅读,更多相关《生物信息学第1章ppt课件(66页珍藏版)》请在金锄头文库上搜索。

1、第一章第一章 DNADNA、RNARNA和和蛋白质序列信息资源蛋白质序列信息资源DNA、RNA And Protein Sequence Information Resources生物信息学(bioinformatics) 在生命科学研究中发展起来的一门由分子在生命科学研究中发展起来的一门由分子生物学与计算机信息处理技术相结合,以生物学与计算机信息处理技术相结合,以计算机为研究工具对生物信息进行获取、计算机为研究工具对生物信息进行获取、处理、储存、传播、分析、模拟和解释的处理、储存、传播、分析、模拟和解释的交叉学科。交叉学科。 生物信息学研究内容它利用数据库技术和软件技术对大量积累它利用数据库

2、技术和软件技术对大量积累的生物大分子序列数据进行比较和分析,的生物大分子序列数据进行比较和分析,揭示出生物大分子的分子结构、功能和进揭示出生物大分子的分子结构、功能和进化关系以及基因组构成与基因表达等生物化关系以及基因组构成与基因表达等生物学事件对生命活动的影响。学事件对生命活动的影响。 生物信息学研究重点主要体现在基因组学(主要体现在基因组学(genomics)和蛋白)和蛋白质组学(质组学(proteomics)两方面。它从核酸)两方面。它从核酸和蛋白质序列出发,分析序列中与结构、和蛋白质序列出发,分析序列中与结构、功能相关的生物信息的表达。功能相关的生物信息的表达。生物信息学数据库生物信息

3、学中的各类数据库几乎覆盖了生生物信息学中的各类数据库几乎覆盖了生命科学的各个领域,如核酸序列数据库,命科学的各个领域,如核酸序列数据库,蛋白质序列数据库,蛋白质、核酸、多糖蛋白质序列数据库,蛋白质、核酸、多糖的三维结构数据库,基因组数据库,文献的三维结构数据库,基因组数据库,文献数据库和其他种类数据库。数据库和其他种类数据库。 生物信息学数据库分类 生物信息数据库种类繁多,就目前来看,生物信息数据库种类繁多,就目前来看, 大体可大体可以分为四个大类:以分为四个大类: 1.1.基因组数据库;基因组数据库; 2.2.核酸和蛋白质一级结构序列数据库;核酸和蛋白质一级结构序列数据库; 3.3.生物大分

4、子(主要是蛋白质)三维空间生物大分子(主要是蛋白质)三维空间 结构数据库;结构数据库; 4.4.根据以上三类数据库和文献资料为基础构根据以上三类数据库和文献资料为基础构建的二次数据库。也称专门数据库、建的二次数据库。也称专门数据库、专业数据库或专用数据库。专业数据库或专用数据库。 一一次次数数据据库库第二节 核酸序列数据库Section 2 Nucleic Acid sequence Databases自自自自2020世纪世纪世纪世纪8080年代第一个核酸数据库建立以来,核年代第一个核酸数据库建立以来,核年代第一个核酸数据库建立以来,核年代第一个核酸数据库建立以来,核酸数据库迅速发展。在互联网

5、上不仅有核酸序列酸数据库迅速发展。在互联网上不仅有核酸序列酸数据库迅速发展。在互联网上不仅有核酸序列酸数据库迅速发展。在互联网上不仅有核酸序列数据库,还出现了基因组相关数据库、核酸三维数据库,还出现了基因组相关数据库、核酸三维数据库,还出现了基因组相关数据库、核酸三维数据库,还出现了基因组相关数据库、核酸三维结构数据库、基因表达数据库、人类基因突变及结构数据库、基因表达数据库、人类基因突变及结构数据库、基因表达数据库、人类基因突变及结构数据库、基因表达数据库、人类基因突变及疾病相关数据库、进化相关数据库及其他与核酸疾病相关数据库、进化相关数据库及其他与核酸疾病相关数据库、进化相关数据库及其他与

6、核酸疾病相关数据库、进化相关数据库及其他与核酸有关的数据库。有关的数据库。有关的数据库。有关的数据库。 三大核酸序列数据库 GenBankEMBLDDBJ 特殊类型核酸序列数据库:非编码RNA数据库(ncRNA);表达序列标签数据库(dbEST);序列标签位点数据库(dbSTS);miRBase ;tRNAdb等。 基因组相关数据库:人类基因组数据库(HGD);基因组序列数据库(GSDB);基因组在线数据库(GOLD)等。核酸三维结构数据库:核苷酸三维结构数据库(NDB);普纳大学核酸结构数据库(BNASDB)等。基因表达数据库:基因表达库(GEO);斯坦福微阵列数据库(SMD);ArrayE

7、xpress;CGED;GXD;BodyMap 等。人类基因突变及疾病相关数据库:人类基因变异数据库(人类基因变异数据库(人类基因变异数据库(人类基因变异数据库(HMGDHMGD)、人类遗传双等位基因序)、人类遗传双等位基因序)、人类遗传双等位基因序)、人类遗传双等位基因序列数据库(列数据库(列数据库(列数据库(HGBASEHGBASE)、人类孟德尔遗传在线()、人类孟德尔遗传在线()、人类孟德尔遗传在线()、人类孟德尔遗传在线(OMIMOMIM)、)、)、)、国际单体型计划(国际单体型计划(国际单体型计划(国际单体型计划(HapMapHapMap)、人类单核苷酸多态性数据)、人类单核苷酸多态

8、性数据)、人类单核苷酸多态性数据)、人类单核苷酸多态性数据库(库(库(库(dbSNPdbSNP)、肿瘤基因数据库()、肿瘤基因数据库()、肿瘤基因数据库()、肿瘤基因数据库(TGDBTGDB)、疾病关联数)、疾病关联数)、疾病关联数)、疾病关联数据库(据库(据库(据库(GADGAD)、癌症基因数据库()、癌症基因数据库()、癌症基因数据库()、癌症基因数据库(CGAPCGAP)、人类表观遗)、人类表观遗)、人类表观遗)、人类表观遗传数据库(传数据库(传数据库(传数据库(HEPHEP)、人类)、人类)、人类)、人类DNADNA甲基化与癌症数据库甲基化与癌症数据库甲基化与癌症数据库甲基化与癌症数据

9、库(MethylCancerMethylCancer)等。)等。)等。)等。一、GenBank数据库 GenBank(http:/www.ncbi.nlm.nih.gov/genbank/)是一个综合数据库,该)是一个综合数据库,该数据库中包含了已经公开的数据库中包含了已经公开的30万余种不同万余种不同物种生物的核酸序列,这些数据主要来源物种生物的核酸序列,这些数据主要来源于全世界不同实验室和大规模测序计划项于全世界不同实验室和大规模测序计划项目。目。 GenBankGenBank是具有目录和生物学注释的核酸序列综是具有目录和生物学注释的核酸序列综是具有目录和生物学注释的核酸序列综是具有目录和

10、生物学注释的核酸序列综合数据库,由美国国家医学图书馆的国家生物技术合数据库,由美国国家医学图书馆的国家生物技术合数据库,由美国国家医学图书馆的国家生物技术合数据库,由美国国家医学图书馆的国家生物技术信息中心构建、维护和管理。该中心位于美国马里信息中心构建、维护和管理。该中心位于美国马里信息中心构建、维护和管理。该中心位于美国马里信息中心构建、维护和管理。该中心位于美国马里兰国家健康研究所(兰国家健康研究所(兰国家健康研究所(兰国家健康研究所(NIHNIH)。)。)。)。GenBankGenBank数据库的数据库的数据库的数据库的序列数据来源于序列发现者提交的序列、批量提交序列数据来源于序列发现

11、者提交的序列、批量提交序列数据来源于序列发现者提交的序列、批量提交序列数据来源于序列发现者提交的序列、批量提交的表达序列标签(的表达序列标签(的表达序列标签(的表达序列标签(expressed sequence tag, expressed sequence tag, ESTEST)、基因组测序序列()、基因组测序序列()、基因组测序序列()、基因组测序序列(genome survey genome survey sequence, GSSsequence, GSS)和其他测序中心提供的高通量)和其他测序中心提供的高通量)和其他测序中心提供的高通量)和其他测序中心提供的高通量数据,还包括美国专

12、利商标局提供的已发表专利的数据,还包括美国专利商标局提供的已发表专利的数据,还包括美国专利商标局提供的已发表专利的数据,还包括美国专利商标局提供的已发表专利的序列数据。序列数据。序列数据。序列数据。 GenBank数据库每天与欧洲分子生物学实数据库每天与欧洲分子生物学实验室的核酸序列数据库(验室的核酸序列数据库(European Molecular Biology Laboratory Nucleotide Sequence Database,EMBL)和日本的)和日本的DNA数据库(数据库(DNA Data Bank of Japan DDBJ)进行数据交换,)进行数据交换,以保证数据库内容

13、在全世界范围的同步性。以保证数据库内容在全世界范围的同步性。 在在在在NCBINCBI(http:/www.ncbi.nlm.nih.gov/http:/www.ncbi.nlm.nih.gov/)的主页上提供了进入的主页上提供了进入的主页上提供了进入的主页上提供了进入GenBankGenBank的路径、相关检索的路径、相关检索的路径、相关检索的路径、相关检索和分析服务。和分析服务。和分析服务。和分析服务。通过通过通过通过NCBINCBI的检索系统(的检索系统(的检索系统(的检索系统(EntrezEntrez)可以进入)可以进入)可以进入)可以进入GenBankGenBank。EntrezEn

14、trez检索程序整合了主要的检索程序整合了主要的检索程序整合了主要的检索程序整合了主要的DNADNA和蛋白序列数据的分类学、基因组、图谱、蛋白和蛋白序列数据的分类学、基因组、图谱、蛋白和蛋白序列数据的分类学、基因组、图谱、蛋白和蛋白序列数据的分类学、基因组、图谱、蛋白结构和结构(功能)域信息,还包括相关的结构和结构(功能)域信息,还包括相关的结构和结构(功能)域信息,还包括相关的结构和结构(功能)域信息,还包括相关的PubMedPubMed的生物医学文献信息。的生物医学文献信息。的生物医学文献信息。的生物医学文献信息。BLASTBLAST程序提供程序提供程序提供程序提供GenBankGenBa

15、nk和其他序列数据库中序和其他序列数据库中序和其他序列数据库中序和其他序列数据库中序列相似性搜索服务。列相似性搜索服务。列相似性搜索服务。列相似性搜索服务。 (一)GenBank数据库结构 1. 依据序列的物种来源分类依据序列的物种来源分类 2. Genbank记录和分类记录和分类 2.1 2.1 表达序列标签表达序列标签表达序列标签表达序列标签(EST) (EST) 2.2 2.2 序列标签位点序列标签位点序列标签位点序列标签位点(STS)(STS)、基因组勘测序列、基因组勘测序列、基因组勘测序列、基因组勘测序列(GSS)(GSS)和和和和环境样品序列环境样品序列环境样品序列环境样品序列(E

16、NV) (ENV) 2.3 2.3 高通量基因组高通量基因组高通量基因组高通量基因组(HTG)(HTG)和高通量和高通量和高通量和高通量cDNA(HTC)cDNA(HTC)序列序列序列序列 2.4 2.4 全基因组鸟枪测序序列全基因组鸟枪测序序列全基因组鸟枪测序序列全基因组鸟枪测序序列(WGS) (WGS) 2.5 2.5 转录组鸟枪组合序列转录组鸟枪组合序列转录组鸟枪组合序列转录组鸟枪组合序列 (一)GenBank数据库结构3. 特殊记录类型特殊记录类型3.1 3.1 第三方注释(第三方注释(第三方注释(第三方注释(TPATPA) 3.2 GenBank CON3.2 GenBank CON

17、记录记录记录记录 较小记录组合记录较小记录组合记录较小记录组合记录较小记录组合记录 (二)构建数据库1直接电子提交 1.1 1.1 使用使用BankItBankIt提交提交 1.2 1.2 使用使用SequinSequin和和tbl2asntbl2asn提交提交 1.3 1.3 条形码序列提交条形码序列提交 2. 序列标识符和记录号 (三)检索GenBank数据1. Entrez1. Entrez系统系统系统系统 (http:/www.ncbi.nlm.nih.gov/sites/gqueryhttp:/www.ncbi.nlm.nih.gov/sites/gquery) 2. 2. 与测序计

18、划检索相关的序列记录与测序计划检索相关的序列记录与测序计划检索相关的序列记录与测序计划检索相关的序列记录 (http:/www.ncbi.nlm.nih.gov/genomeprjhttp:/www.ncbi.nlm.nih.gov/genomeprj) 3. BLAST 3. BLAST 序列相似性搜索序列相似性搜索序列相似性搜索序列相似性搜索 (http:/blast.ncbi.nlm.nih.gov/Blast.cgihttp:/blast.ncbi.nlm.nih.gov/Blast.cgi) 4. 4. 用用用用FTPFTP获取获取获取获取GenBank GenBank (http:

19、/ftp.ncbi.nih.gov/genbankhttp:/ftp.ncbi.nih.gov/genbank) 二、EMBL数据库EMBL建立于1980年,EMBL核苷序列数据库(http:/ www.edi.ac.uk/embl/)是欧洲主要的核苷序列收集单位,欧洲生物信息中心EBI(即EMBL在德国海德堡的站点)维护这个数据库。核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以及与合作伙伴DDBJ (Japan)和GenBank (USA)交换的数据。 三、DDBJ数据库 日本日本日本日本DNADNA数据库(数据库(数据库(数据库(DDBJDDBJ)是在亚洲唯一的核酸)是在亚洲

20、唯一的核酸)是在亚洲唯一的核酸)是在亚洲唯一的核酸序列数据库,是搜集研究者公认的测定核酸序列序列数据库,是搜集研究者公认的测定核酸序列序列数据库,是搜集研究者公认的测定核酸序列序列数据库,是搜集研究者公认的测定核酸序列的数据库,并且发放给数据提交者国际认证的核的数据库,并且发放给数据提交者国际认证的核的数据库,并且发放给数据提交者国际认证的核的数据库,并且发放给数据提交者国际认证的核酸序列编号。由于酸序列编号。由于酸序列编号。由于酸序列编号。由于DDBJDDBJ每天将搜集的数据与每天将搜集的数据与每天将搜集的数据与每天将搜集的数据与EMBL-Bank/EBIEMBL-Bank/EBI和和和和G

21、enBank/NCBIGenBank/NCBI进行交换,进行交换,进行交换,进行交换,使得三个核酸数据库几乎在任何时候都享有相同使得三个核酸数据库几乎在任何时候都享有相同使得三个核酸数据库几乎在任何时候都享有相同使得三个核酸数据库几乎在任何时候都享有相同数据。数据。数据。数据。DDBJDDBJ主要收集来自日本研究者获得的序主要收集来自日本研究者获得的序主要收集来自日本研究者获得的序主要收集来自日本研究者获得的序列数据,但也收集数据和发放编号给任何其他国列数据,但也收集数据和发放编号给任何其他国列数据,但也收集数据和发放编号给任何其他国列数据,但也收集数据和发放编号给任何其他国家的研究者。家的研

22、究者。家的研究者。家的研究者。 四、其他重要的核酸序列数据库dbESTdbEST:dbESTdbEST是是是是GenBankGenBank中的一个子数据库,中的一个子数据库,中的一个子数据库,中的一个子数据库,包含来源于不同物种的表达序列数据和表达序列包含来源于不同物种的表达序列数据和表达序列包含来源于不同物种的表达序列数据和表达序列包含来源于不同物种的表达序列数据和表达序列标签序列的其他信息。标签序列的其他信息。标签序列的其他信息。标签序列的其他信息。 ncRNAdbncRNAdb:非编码:非编码:非编码:非编码RNARNA(non-coding RNA non-coding RNA ncR

23、NAncRNA)数据库旨在提供非编码)数据库旨在提供非编码)数据库旨在提供非编码)数据库旨在提供非编码RNARNA的序列和功的序列和功的序列和功的序列和功能信息。能信息。能信息。能信息。 miRBasemiRBase:miRBasemiRBase序列数据库主要存放已发序列数据库主要存放已发序列数据库主要存放已发序列数据库主要存放已发表的微小表的微小表的微小表的微小RNARNA(microRNA miRNA)microRNA miRNA)序列和注释序列和注释序列和注释序列和注释的数据库。的数据库。的数据库。的数据库。 第三节 蛋白质序列数据库Section 3 Protein Sequence

24、Database 随着分子生物学的发展,人们获得了越来越多关随着分子生物学的发展,人们获得了越来越多关随着分子生物学的发展,人们获得了越来越多关随着分子生物学的发展,人们获得了越来越多关于蛋白质序列、结构和功能的信息。世界各国的于蛋白质序列、结构和功能的信息。世界各国的于蛋白质序列、结构和功能的信息。世界各国的于蛋白质序列、结构和功能的信息。世界各国的生物学家和计算机科学家合作利用这些信息构建生物学家和计算机科学家合作利用这些信息构建生物学家和计算机科学家合作利用这些信息构建生物学家和计算机科学家合作利用这些信息构建了蛋白质序列数据库、蛋白质三维结构数据库、了蛋白质序列数据库、蛋白质三维结构数

25、据库、了蛋白质序列数据库、蛋白质三维结构数据库、了蛋白质序列数据库、蛋白质三维结构数据库、蛋白质组数据库(二维凝胶电泳数据库)、信号蛋白质组数据库(二维凝胶电泳数据库)、信号蛋白质组数据库(二维凝胶电泳数据库)、信号蛋白质组数据库(二维凝胶电泳数据库)、信号传导及蛋白质传导及蛋白质传导及蛋白质传导及蛋白质- -蛋白质相互作用相关数据库、蛋白质相互作用相关数据库、蛋白质相互作用相关数据库、蛋白质相互作用相关数据库、DNADNA和蛋白质相互作用数据库等蛋白质相关数据库。和蛋白质相互作用数据库等蛋白质相关数据库。和蛋白质相互作用数据库等蛋白质相关数据库。和蛋白质相互作用数据库等蛋白质相关数据库。 常

26、用的蛋白质序列数据库: PIRMIPSSwiss-Prot 蛋白质功能、结构域和蛋白质家族有关的数据库: PROSITEInterProPfamProDomSMART 等 蛋白质三维结构相关数据库: PDBPDBBioMagResBankBioMagResBankSWISS-MODEL RepositorySWISS-MODEL RepositoryModBaseModBaseCATHCATHSCOPSCOPReLiBaseReLiBaseTOPSTOPSSWISS-3DIMAGESWISS-3DIMAGEBioImageBioImage等等 蛋白质二维凝胶电泳数据库: WORLD-2DPAG

27、EPhoretix links 信号传导及蛋白质-蛋白质相互作用相关数据库:DIPINTERACTProNetKEGGCANSITESPADCSNDB等DNA和蛋白质相互作用数据库:DPInteract蛋白质翻译后修饰相关数据库:O-GlycBase、PhosphoBase、RES蛋白质等蛋白质一、PIR数据库蛋白质信息库蛋白质信息库(PIRPIR)()(http:/pir.georgetown.edu/pirwww/http:/pir.georgetown.edu/pirwww/)是一个支持基因组学、蛋白质组学和系统生物学是一个支持基因组学、蛋白质组学和系统生物学检索和科学研究的综合公共生物

28、信息学资源。检索和科学研究的综合公共生物信息学资源。PIRPIR是由美国国家生物医学基金会(是由美国国家生物医学基金会(NBRFNBRF)于)于19841984年建立,帮助研究者确认和解释蛋白序列信年建立,帮助研究者确认和解释蛋白序列信息的数据库。息的数据库。 PIRPIR免费为科学界提供包括蛋白序列数据库免费为科学界提供包括蛋白序列数据库(PSDPSD)在内的蛋白数据库和分析工具。)在内的蛋白数据库和分析工具。 PIR信息库资源 PIR主要数据库: 1. UniProt-通用蛋白质资源库2. iProClass-蛋白质知识整合数据库 3. PIRSF-蛋白质家族分类系统 4. iProLIN

29、K-蛋白质文献、信息和知识整合数据库 1.UniProt-1.UniProt-通用蛋白质资源库通用蛋白质资源库通用蛋白质资源库通用蛋白质资源库 UniProtUniProt(http:/www.uniprot.org/http:/www.uniprot.org/)是存储)是存储)是存储)是存储和链接其他蛋白质数据库的资源库,并且是蛋白和链接其他蛋白质数据库的资源库,并且是蛋白和链接其他蛋白质数据库的资源库,并且是蛋白和链接其他蛋白质数据库的资源库,并且是蛋白质序列和具有综合功能注释目录的中心资源库。质序列和具有综合功能注释目录的中心资源库。质序列和具有综合功能注释目录的中心资源库。质序列和具有

30、综合功能注释目录的中心资源库。使用使用使用使用UniprotKBUniprotKB可以检索准确、可靠的蛋白综合可以检索准确、可靠的蛋白综合可以检索准确、可靠的蛋白综合可以检索准确、可靠的蛋白综合信息。使用信息。使用信息。使用信息。使用UniRefUniRef可以减少冗余,加速序列相似可以减少冗余,加速序列相似可以减少冗余,加速序列相似可以减少冗余,加速序列相似性搜索。使用性搜索。使用性搜索。使用性搜索。使用UniParcUniParc可以检索存档序列和它们可以检索存档序列和它们可以检索存档序列和它们可以检索存档序列和它们来源的数据库。来源的数据库。来源的数据库。来源的数据库。 2. iProC

31、lass-2. iProClass-蛋白质知识整合数据库蛋白质知识整合数据库蛋白质知识整合数据库蛋白质知识整合数据库 iProClassiProClass(http:/pir.georgetown.edu/iproclhttp:/pir.georgetown.edu/iproclass/ass/)提供来自)提供来自)提供来自)提供来自9090多个生物学数据库的大量整合数多个生物学数据库的大量整合数多个生物学数据库的大量整合数多个生物学数据库的大量整合数据,包括蛋白据,包括蛋白据,包括蛋白据,包括蛋白IDID图谱服务、图谱服务、图谱服务、图谱服务、UniProtKBUniProtKB编注蛋白质编

32、注蛋白质编注蛋白质编注蛋白质摘要描述和筛选摘要描述和筛选摘要描述和筛选摘要描述和筛选UnParcUnParc数据库的蛋白质序列。使用数据库的蛋白质序列。使用数据库的蛋白质序列。使用数据库的蛋白质序列。使用iProClassiProClass可以检索最新的蛋白质综合信息,包括:可以检索最新的蛋白质综合信息,包括:可以检索最新的蛋白质综合信息,包括:可以检索最新的蛋白质综合信息,包括:功能、转导通路、相互作用、家族分类、基因和基功能、转导通路、相互作用、家族分类、基因和基功能、转导通路、相互作用、家族分类、基因和基功能、转导通路、相互作用、家族分类、基因和基因组、功能注释标准体系(因组、功能注释标

33、准体系(因组、功能注释标准体系(因组、功能注释标准体系(ontologyontology)、文献和分)、文献和分)、文献和分)、文献和分类学信息。使用类学信息。使用类学信息。使用类学信息。使用iProClassiProClass还可以检索还可以检索还可以检索还可以检索IDID图谱、蛋图谱、蛋图谱、蛋图谱、蛋白质词典和相关序列。白质词典和相关序列。白质词典和相关序列。白质词典和相关序列。3. PIRSF-蛋白质家族分类系统蛋白质家族分类系统 PIRSF(http:/pir.georgetown.edu/pirsf/)分类系统概要论述家族的特征,如)分类系统概要论述家族的特征,如家族名称、分类分布

34、、分级和功能域结构,家族名称、分类分布、分级和功能域结构,以及家族成员,包括功能、结构、传导通以及家族成员,包括功能、结构、传导通路、功能注释标准体系(路、功能注释标准体系(ontology)和家)和家族分类。利用这些信息可以获得蛋白质的族分类。利用这些信息可以获得蛋白质的准确功能或预测的功能和该蛋白质所属家准确功能或预测的功能和该蛋白质所属家族成员共有的其他特征。族成员共有的其他特征。4. iProLINK-4. iProLINK-蛋白质文献、信息和知识整合数据库蛋白质文献、信息和知识整合数据库蛋白质文献、信息和知识整合数据库蛋白质文献、信息和知识整合数据库 iProLINKiProLINK

35、(http:/pir.georgetown.edu/iprolink/http:/pir.georgetown.edu/iprolink/)提供有关注释内容的文献、蛋白质名称词典和其他有助于提供有关注释内容的文献、蛋白质名称词典和其他有助于提供有关注释内容的文献、蛋白质名称词典和其他有助于提供有关注释内容的文献、蛋白质名称词典和其他有助于文献挖掘的人文语言处理技术开发的信息、数据库校正、文献挖掘的人文语言处理技术开发的信息、数据库校正、文献挖掘的人文语言处理技术开发的信息、数据库校正、文献挖掘的人文语言处理技术开发的信息、数据库校正、蛋白质名称标记和功能注释标准体系(蛋白质名称标记和功能注释标

36、准体系(蛋白质名称标记和功能注释标准体系(蛋白质名称标记和功能注释标准体系(ontologyontology)。使)。使)。使)。使用用用用iProLINKiProLINK可以获得描述蛋白质记录的文本文献资源,可以获得描述蛋白质记录的文本文献资源,可以获得描述蛋白质记录的文本文献资源,可以获得描述蛋白质记录的文本文献资源,在在在在UniProtKBUniProtKB记录(生物词典)中加入蛋白质或基因命名记录(生物词典)中加入蛋白质或基因命名记录(生物词典)中加入蛋白质或基因命名记录(生物词典)中加入蛋白质或基因命名的图谱,获得用于开发文本挖掘算法的注释数据集、挖掘的图谱,获得用于开发文本挖掘算

37、法的注释数据集、挖掘的图谱,获得用于开发文本挖掘算法的注释数据集、挖掘的图谱,获得用于开发文本挖掘算法的注释数据集、挖掘蛋白质磷酸化(蛋白质磷酸化(蛋白质磷酸化(蛋白质磷酸化(RLIMS-PRLIMS-P)文献和获得蛋白质功能注释)文献和获得蛋白质功能注释)文献和获得蛋白质功能注释)文献和获得蛋白质功能注释标准体系(标准体系(标准体系(标准体系(ontologyontology)()()()(PROPRO)信息。)信息。)信息。)信息。 二、MIPS数据库慕尼黑蛋白质序列信息中心慕尼黑蛋白质序列信息中心慕尼黑蛋白质序列信息中心慕尼黑蛋白质序列信息中心(MIPSMIPS)()()()(http:

38、/www.helmholtz-http:/www.helmholtz-muenchen.de/en/mipsmuenchen.de/en/mips),它的重点工作是基因组生物信),它的重点工作是基因组生物信),它的重点工作是基因组生物信),它的重点工作是基因组生物信息学,特别注重基因组信息系统分析,包括应用生物信息学息学,特别注重基因组信息系统分析,包括应用生物信息学息学,特别注重基因组信息系统分析,包括应用生物信息学息学,特别注重基因组信息系统分析,包括应用生物信息学方法注释基因组、表达分析和蛋白质组学方面研究。方法注释基因组、表达分析和蛋白质组学方面研究。方法注释基因组、表达分析和蛋白质组

39、学方面研究。方法注释基因组、表达分析和蛋白质组学方面研究。MIPSMIPS支支支支持和维护一系列基因组数据库以及系统,可以提供细菌、真持和维护一系列基因组数据库以及系统,可以提供细菌、真持和维护一系列基因组数据库以及系统,可以提供细菌、真持和维护一系列基因组数据库以及系统,可以提供细菌、真菌和植物基因组比较分析服务。在该站点提供基因组分析工菌和植物基因组比较分析服务。在该站点提供基因组分析工菌和植物基因组比较分析服务。在该站点提供基因组分析工菌和植物基因组比较分析服务。在该站点提供基因组分析工具、数据库检索系统、表达分析、蛋白相互作用等网络服务。具、数据库检索系统、表达分析、蛋白相互作用等网络

40、服务。具、数据库检索系统、表达分析、蛋白相互作用等网络服务。具、数据库检索系统、表达分析、蛋白相互作用等网络服务。 三、其他重要的蛋白质序列数据库:PRINTSPfam(一)PRINTSPRINTSPRINTS(http:/www.bioinf.manchester.ac.uk/dhttp:/www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/index.phpbbrowser/PRINTS/index.php)是蛋白基序指纹图综)是蛋白基序指纹图综)是蛋白基序指纹图综)是蛋白基序指纹图综合数据库,每个指纹图都是使用数据扫描程序合数据库,每个指纹图都是使用

41、数据扫描程序合数据库,每个指纹图都是使用数据扫描程序合数据库,每个指纹图都是使用数据扫描程序ADSPADSP或或或或VISTASVISTAS序列分析软件包反复优化后定义的。数据库中有序列分析软件包反复优化后定义的。数据库中有序列分析软件包反复优化后定义的。数据库中有序列分析软件包反复优化后定义的。数据库中有两种类型指纹图,根据指纹图的复杂性分为简单和复合指两种类型指纹图,根据指纹图的复杂性分为简单和复合指两种类型指纹图,根据指纹图的复杂性分为简单和复合指两种类型指纹图,根据指纹图的复杂性分为简单和复合指纹图:简单指纹图基本上是单一的基序,而复合指纹图包纹图:简单指纹图基本上是单一的基序,而复合

42、指纹图包纹图:简单指纹图基本上是单一的基序,而复合指纹图包纹图:简单指纹图基本上是单一的基序,而复合指纹图包含多个基序。含多个基序。含多个基序。含多个基序。 (二)Pfam蛋白质一般是由一个或多个功能区域组成,这些蛋白质一般是由一个或多个功能区域组成,这些功能区域通常称作域(功能区域通常称作域(domaindomain)。在不同的蛋白)。在不同的蛋白质中不同的域以不同的组合出现,导致在自然界质中不同的域以不同的组合出现,导致在自然界发现多种多样组成成分的蛋白质。识别出现在蛋发现多种多样组成成分的蛋白质。识别出现在蛋白质中的域可以了解蛋白质的功能。白质中的域可以了解蛋白质的功能。PfamPfam

43、数据库(数据库(http:/pfam.sanger.ac.uk/http:/pfam.sanger.ac.uk/)是一个)是一个大的蛋白质域家族集合,每个家族是用多序列比大的蛋白质域家族集合,每个家族是用多序列比对和隐马模型(对和隐马模型(HMMsHMMs)分析结果的代表。)分析结果的代表。 第四节 NCBI与EBISection 4 NCBI and EBI一、NCBI的简介二、EBI简介一、NCBI的简介作为一个国家分子生物学信息资源,作为一个国家分子生物学信息资源,作为一个国家分子生物学信息资源,作为一个国家分子生物学信息资源,NCBINCBI的使命的使命的使命的使命是开发新的信息技术,

44、帮助理解控制健康和疾病是开发新的信息技术,帮助理解控制健康和疾病是开发新的信息技术,帮助理解控制健康和疾病是开发新的信息技术,帮助理解控制健康和疾病的基本分子和遗传过程。特别是,的基本分子和遗传过程。特别是,的基本分子和遗传过程。特别是,的基本分子和遗传过程。特别是,NCBINCBI肩负建立肩负建立肩负建立肩负建立存储和分析分子生物学、生物化学和遗传学知识存储和分析分子生物学、生物化学和遗传学知识存储和分析分子生物学、生物化学和遗传学知识存储和分析分子生物学、生物化学和遗传学知识的自动系统;提供研究和医学界使用方便的数据的自动系统;提供研究和医学界使用方便的数据的自动系统;提供研究和医学界使用

45、方便的数据的自动系统;提供研究和医学界使用方便的数据库和软件;努力协调搜集国内外生物技术信息;库和软件;努力协调搜集国内外生物技术信息;库和软件;努力协调搜集国内外生物技术信息;库和软件;努力协调搜集国内外生物技术信息;执行分析生物学重要分子结构和功能的先进研究执行分析生物学重要分子结构和功能的先进研究执行分析生物学重要分子结构和功能的先进研究执行分析生物学重要分子结构和功能的先进研究方法。方法。方法。方法。二、EBI简介欧洲生物信息学研究所(欧洲生物信息学研究所(欧洲生物信息学研究所(欧洲生物信息学研究所(EMBL-EBIEMBL-EBI),是欧洲分子生物学),是欧洲分子生物学),是欧洲分子

46、生物学),是欧洲分子生物学实验室(实验室(实验室(实验室(EMBLEMBL)的一部分,)的一部分,)的一部分,)的一部分,EMBL-EBIEMBL-EBI维护世界上最广泛维护世界上最广泛维护世界上最广泛维护世界上最广泛的分子数据库。的分子数据库。的分子数据库。的分子数据库。EMBL-EBIEMBL-EBI是在全球范围内,努力协调搜集是在全球范围内,努力协调搜集是在全球范围内,努力协调搜集是在全球范围内,努力协调搜集和传播生物学数据的欧洲节点,和传播生物学数据的欧洲节点,和传播生物学数据的欧洲节点,和传播生物学数据的欧洲节点,EMBL-EBIEMBL-EBI的许多数据库是的许多数据库是的许多数据

47、库是的许多数据库是生物学家们熟知的,包括:生物学家们熟知的,包括:生物学家们熟知的,包括:生物学家们熟知的,包括:EMBL-BankEMBL-Bank(DNADNA和和和和RNARNA序列)序列)序列)序列)、EnsembleEnsemble(基因组)、(基因组)、(基因组)、(基因组)、ArrayExpressArrayExpress(基于微阵列的基(基于微阵列的基(基于微阵列的基(基于微阵列的基因表达数据)、因表达数据)、因表达数据)、因表达数据)、UniProtUniProt(蛋白质序列)、(蛋白质序列)、(蛋白质序列)、(蛋白质序列)、InterProInterPro(蛋白(蛋白(蛋白

48、(蛋白家族、域和基序)、家族、域和基序)、家族、域和基序)、家族、域和基序)、ReactomeReactome(传导通路)和(传导通路)和(传导通路)和(传导通路)和ChEBIChEBI(小(小(小(小分子),新的资源帮助研究者不仅了解构成生物体的分子部分子),新的资源帮助研究者不仅了解构成生物体的分子部分子),新的资源帮助研究者不仅了解构成生物体的分子部分子),新的资源帮助研究者不仅了解构成生物体的分子部件,还了解这些部件是如何组合构成系统的。件,还了解这些部件是如何组合构成系统的。件,还了解这些部件是如何组合构成系统的。件,还了解这些部件是如何组合构成系统的。 三、通过Entrez Gen

49、e从NCBI获取序列信息EntrezEntrez主要是用于主要是用于主要是用于主要是用于NCBINCBI数据库综合的、基于文数据库综合的、基于文数据库综合的、基于文数据库综合的、基于文本的搜索和检索系统。本的搜索和检索系统。本的搜索和检索系统。本的搜索和检索系统。EntrezEntrez综合了科学文献、综合了科学文献、综合了科学文献、综合了科学文献、DNADNA和蛋白序列数据、和蛋白序列数据、和蛋白序列数据、和蛋白序列数据、3D3D蛋白质结构和蛋白质域蛋白质结构和蛋白质域蛋白质结构和蛋白质域蛋白质结构和蛋白质域数据、种群研究数据集、表达数据、完整基因组数据、种群研究数据集、表达数据、完整基因组

50、数据、种群研究数据集、表达数据、完整基因组数据、种群研究数据集、表达数据、完整基因组组装和分类学信息,形成一个紧密链接的系统。组装和分类学信息,形成一个紧密链接的系统。组装和分类学信息,形成一个紧密链接的系统。组装和分类学信息,形成一个紧密链接的系统。它用于搜索它用于搜索它用于搜索它用于搜索NCBINCBI链接数据库的检索系统。链接数据库的检索系统。链接数据库的检索系统。链接数据库的检索系统。 Entrez检索系统子数据库 (一)Entrez Gene 检索 Entrez GeneEntrez Gene检索到的记录提供关键链接,将图检索到的记录提供关键链接,将图检索到的记录提供关键链接,将图检

51、索到的记录提供关键链接,将图谱、序列、表达、结构、功能、索引文献和同源谱、序列、表达、结构、功能、索引文献和同源谱、序列、表达、结构、功能、索引文献和同源谱、序列、表达、结构、功能、索引文献和同源数据链接在一起构成关键链接。用定义序列、已数据链接在一起构成关键链接。用定义序列、已数据链接在一起构成关键链接。用定义序列、已数据链接在一起构成关键链接。用定义序列、已知的图谱定位和从表型信息推测的基因,为基因知的图谱定位和从表型信息推测的基因,为基因知的图谱定位和从表型信息推测的基因,为基因知的图谱定位和从表型信息推测的基因,为基因分配特有标识符。这些标识符在分配特有标识符。这些标识符在分配特有标识

52、符。这些标识符在分配特有标识符。这些标识符在NCBINCBI的数据库中的数据库中的数据库中的数据库中通用,可以用于注释更新跟踪和相关信息跟踪。通用,可以用于注释更新跟踪和相关信息跟踪。通用,可以用于注释更新跟踪和相关信息跟踪。通用,可以用于注释更新跟踪和相关信息跟踪。Entrez GeneEntrez Gene用用用用NCBINCBI参考序列(参考序列(参考序列(参考序列(RefSeqsRefSeqs)覆)覆)覆)覆盖了基因组,还被整合到盖了基因组,还被整合到盖了基因组,还被整合到盖了基因组,还被整合到NCBINCBI的的的的EntrezEntrez和和和和E-E-UtilitiesUtili

53、ties系统的索引、查询和检索中。系统的索引、查询和检索中。系统的索引、查询和检索中。系统的索引、查询和检索中。 NCBI检索首页检索窗口的数据库选项下拉菜单 检索栏(for)输入“IL-2 human” (二)Entrez Gene记录显示格式 当进行检索时,检索结果以摘要(当进行检索时,检索结果以摘要(当进行检索时,检索结果以摘要(当进行检索时,检索结果以摘要(summarysummary)格式显示,)格式显示,)格式显示,)格式显示,每页可显示多条记录,摘要显示的每条记录前有一个选择每页可显示多条记录,摘要显示的每条记录前有一个选择每页可显示多条记录,摘要显示的每条记录前有一个选择每页可

54、显示多条记录,摘要显示的每条记录前有一个选择框,可以选择哪些记录需要显示。显示内容还包括首选名框,可以选择哪些记录需要显示。显示内容还包括首选名框,可以选择哪些记录需要显示。显示内容还包括首选名框,可以选择哪些记录需要显示。显示内容还包括首选名称标志、完整全名、双单词的物种名称(在方括号中)、称标志、完整全名、双单词的物种名称(在方括号中)、称标志、完整全名、双单词的物种名称(在方括号中)、称标志、完整全名、双单词的物种名称(在方括号中)、基因组定位和基因编号。如果基因在已命名的质粒上,那基因组定位和基因编号。如果基因在已命名的质粒上,那基因组定位和基因编号。如果基因在已命名的质粒上,那基因组

55、定位和基因编号。如果基因在已命名的质粒上,那么作为基因定位将给出质粒名称。右侧的么作为基因定位将给出质粒名称。右侧的么作为基因定位将给出质粒名称。右侧的么作为基因定位将给出质粒名称。右侧的LinksLinks可以关联可以关联可以关联可以关联到显示相关的到显示相关的到显示相关的到显示相关的EntrezEntrez记录,核对希望显示的记录,选择灰记录,核对希望显示的记录,选择灰记录,核对希望显示的记录,选择灰记录,核对希望显示的记录,选择灰色查询条目中的显示选项,可以显示希望显示的相关记录。色查询条目中的显示选项,可以显示希望显示的相关记录。色查询条目中的显示选项,可以显示希望显示的相关记录。色查

56、询条目中的显示选项,可以显示希望显示的相关记录。Entrez Gene检索结果摘要格式显示页面 Entrez Gene全文报告页面 (前部分)Entrez GeneEntrez Gene全文报告页面全文报告页面 (后部分)(后部分) IL2 mRNA IL2 mRNA 的的的的NucleotideNucleotide数据库记录检索结果显示界面数据库记录检索结果显示界面数据库记录检索结果显示界面数据库记录检索结果显示界面 (三)Nucleotide数据库记录显示格式 NucleotideNucleotide数据库记录的显示结果,可以数据库记录的显示结果,可以GenBankGenBank、FAST

57、AFASTA、GraphicsGraphics和和ASN.1ASN.1格式显示,序列信息通格式显示,序列信息通常用常用FASTAFASTA和和GenBankGenBank两种格式显示,两种格式显示,FASTAFASTA格式格式仅包括该序列的简要特征,并以仅包括该序列的简要特征,并以G G、A A、T T、C C四种四种碱基列出核苷酸序列,简单明了。而碱基列出核苷酸序列,简单明了。而GenBankGenBank格格式可显示较完整的基因序列记录,反映核苷酸序式可显示较完整的基因序列记录,反映核苷酸序列的详细信息。列的详细信息。 四、通过SRS从EBI中获取蛋白质序列信息 SRSSRS(http:/

58、srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-http:/srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-page+quickSearch+-id+76e2D1aC0Ripage+quickSearch+-id+76e2D1aC0Ri)是世界上主)是世界上主)是世界上主)是世界上主要的生物信息学、基因组和相关数据整合、分析和显示工要的生物信息学、基因组和相关数据整合、分析和显示工要的生物信息学、基因组和相关数据整合、分析和显示工要的生物信息学、基因组和相关数据整合、分析和显示工具。具。具。具。SRSSRS检索系统是个开放的系统,可以根据不同的需

59、要检索系统是个开放的系统,可以根据不同的需要检索系统是个开放的系统,可以根据不同的需要检索系统是个开放的系统,可以根据不同的需要安装不同的数据库,现在,安装在安装不同的数据库,现在,安装在安装不同的数据库,现在,安装在安装不同的数据库,现在,安装在EBIEBI的数据库有的数据库有的数据库有的数据库有300300多多多多个。个。个。个。SRSSRS有三种检索方式:快速检索、标准检索和批量检索。有三种检索方式:快速检索、标准检索和批量检索。有三种检索方式:快速检索、标准检索和批量检索。有三种检索方式:快速检索、标准检索和批量检索。SRS开始页面 SRS快速文本检索窗口 SRS检索结果页面显示的检索

60、结果 SRS蛋白质记录详细内容页面 SRS蛋白质序列显示窗口 SRS标准检索页面 SRSSRS标准检索页面检索基因名为标准检索页面检索基因名为标准检索页面检索基因名为标准检索页面检索基因名为“ “KRASKRAS” ”蛋白序列输入示意图蛋白序列输入示意图蛋白序列输入示意图蛋白序列输入示意图 SRS标准检索结果输出页面 小 结 本章介绍了生物信息学常用的数据库和重要网站,重点介绍了本章介绍了生物信息学常用的数据库和重要网站,重点介绍了本章介绍了生物信息学常用的数据库和重要网站,重点介绍了本章介绍了生物信息学常用的数据库和重要网站,重点介绍了三大核酸数据库:三大核酸数据库:三大核酸数据库:三大核酸

61、数据库:GenBankGenBank数据库、数据库、数据库、数据库、EMBLEMBL数据库和数据库和数据库和数据库和DDBJDDBJ数数数数据库。据库。据库。据库。NCBI NCBI 的的的的Entrez GeneEntrez Gene将分类、基因组、图谱、序列、表达、将分类、基因组、图谱、序列、表达、将分类、基因组、图谱、序列、表达、将分类、基因组、图谱、序列、表达、结构、功能、索引文献和同源数据链接在一起,为用户提供了结构、功能、索引文献和同源数据链接在一起,为用户提供了结构、功能、索引文献和同源数据链接在一起,为用户提供了结构、功能、索引文献和同源数据链接在一起,为用户提供了便捷的检索方

62、式。便捷的检索方式。便捷的检索方式。便捷的检索方式。 EBIEBI的的的的SRSSRS检索系统是世界上主要的生物信息学、基因组和相检索系统是世界上主要的生物信息学、基因组和相检索系统是世界上主要的生物信息学、基因组和相检索系统是世界上主要的生物信息学、基因组和相关数据整合、分析和显示工具。关数据整合、分析和显示工具。关数据整合、分析和显示工具。关数据整合、分析和显示工具。SRSSRS检索系统是个开放的系统,检索系统是个开放的系统,检索系统是个开放的系统,检索系统是个开放的系统,可以根据用户不同的需要安装不同的数据库,便于用户开发具可以根据用户不同的需要安装不同的数据库,便于用户开发具可以根据用户不同的需要安装不同的数据库,便于用户开发具可以根据用户不同的需要安装不同的数据库,便于用户开发具有自己特性的操作平台,尤其在数据分析方面,对于检索的信有自己特性的操作平台,尤其在数据分析方面,对于检索的信有自己特性的操作平台,尤其在数据分析方面,对于检索的信有自己特性的操作平台,尤其在数据分析方面,对于检索的信息可以进行多种方式的分析处理。息可以进行多种方式的分析处理。息可以进行多种方式的分析处理。息可以进行多种方式的分析处理。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号