PIR蛋白质序列数据库

上传人:枫** 文档编号:568584754 上传时间:2024-07-25 格式:PPT 页数:33 大小:1.66MB
返回 下载 相关 举报
PIR蛋白质序列数据库_第1页
第1页 / 共33页
PIR蛋白质序列数据库_第2页
第2页 / 共33页
PIR蛋白质序列数据库_第3页
第3页 / 共33页
PIR蛋白质序列数据库_第4页
第4页 / 共33页
PIR蛋白质序列数据库_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《PIR蛋白质序列数据库》由会员分享,可在线阅读,更多相关《PIR蛋白质序列数据库(33页珍藏版)》请在金锄头文库上搜索。

1、PIR蛋白质序列数据库蛋白质序列数据库(http:/pir.georgetown.edu)http:/pir.georgetown.edu)2PIR的产生的产生 PIR(Protein Information resouce,蛋白质蛋白质数据库)的出现先于核酸数据库。在数据库)的出现先于核酸数据库。在1960年左右,年左右,Dayhoff和其同事们搜集了当时所和其同事们搜集了当时所有已知的氨基酸序列,编著了有已知的氨基酸序列,编著了蛋白质序蛋白质序列与结构图册列与结构图册。从这本图册中的数据,。从这本图册中的数据,演化为后来的蛋白质信息资源数据库。演化为后来的蛋白质信息资源数据库。3PIR的概

2、念的概念 PIR是一个集成了关于蛋白质功能预测数据是一个集成了关于蛋白质功能预测数据的公共资源的数据库,其目的是支持基因的公共资源的数据库,其目的是支持基因组组/蛋白质组研究。蛋白质组研究。PIR与其他组织合作,与其他组织合作,共同构成了共同构成了PIR-国际蛋白质序列数据库国际蛋白质序列数据库(PSD)一个主要的已预测的蛋白质数一个主要的已预测的蛋白质数据库,包括据库,包括250,000个蛋白。个蛋白。 4帮助研究者鉴别和解释蛋白质序列信息,帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白它是一个全面的、经过注释

3、的、非冗余的蛋白质序列数据库。质序列数据库。 所有序列数据都经过整理,超过所有序列数据都经过整理,超过99%的序列已的序列已按蛋白质家族分类,一半以上还按蛋白质超家按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。族进行了分类。PIR的功能的功能 5除了蛋白质序列数据之外,除了蛋白质序列数据之外,PIR还包含以下信息:还包含以下信息: (1)蛋白质名称、蛋白质的分类、蛋白质的来源;蛋白质名称、蛋白质的分类、蛋白质的来源; (2)关于原始数据的参考文献;关于原始数据的参考文献; (3)蛋白质功能和蛋白质的一般特征,包括基因蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;表达、

4、翻译后处理、活化等; (4)序列中相关的位点、功能区域。序列中相关的位点、功能区域。6u一是基于文本的交互式查询,一是基于文本的交互式查询, 用户通过关键字进行数据查询。用户通过关键字进行数据查询。u二是标准的序列相似性搜索,二是标准的序列相似性搜索, 包括包括BLAST、FastA等。等。u三是结合序列相似性、注释信息和蛋白质家族三是结合序列相似性、注释信息和蛋白质家族信息的高级搜索,信息的高级搜索, 包括按注释分类的相似性搜索、结构域搜索等。包括按注释分类的相似性搜索、结构域搜索等。PIR提供三种类型的检索服务提供三种类型的检索服务:PIR主要数据库:主要数据库: 1. UniProt-通

5、用蛋白质资源库通用蛋白质资源库2. iProClass-蛋白质知识整合数据库蛋白质知识整合数据库 3. PIRSF-蛋白质家族分类系统蛋白质家族分类系统 4. iProLINK-蛋白质文献、信息和知识整合蛋白质文献、信息和知识整合数据库数据库 5PIR-NREF-非冗余的蛋白质参考资料数据非冗余的蛋白质参考资料数据库库8主页的导航条有五大类:主页的导航条有五大类:Abrout PIR:对网站的历史、发:对网站的历史、发展、展、 刊物等的介绍;刊物等的介绍;Databases:包括:包括Proclass、Pirsf、PIRPSD、 PIRNREF 、Uniprot等数据库集合;等数据库集合;Se

6、arch/Analysis:对蛋白质序:对蛋白质序列分析的多种途径;列分析的多种途径;Dowload:网站提供的蛋白质序:网站提供的蛋白质序列;列;Support:一些帮助及其它连接一些帮助及其它连接.蛋白质搜索蛋白质搜索蛋白质搜索蛋白质搜索网站搜索网站搜索网站搜索网站搜索G00016G00016(http:/pir.georgetown.edu)http:/pir.georgetown.edu)910蛋白质一般信息蛋白质一般信息蛋白质一般信息蛋白质一般信息交叉引用文献交叉引用文献交叉引用文献交叉引用文献11相关蛋白质家族信息相关蛋白质家族信息相关蛋白质家族信息相关蛋白质家族信息12点击此处点

7、击此处点击此处点击此处13此处链接此处链接此处链接此处链接UniProt databases.14在在在在UniProt databaseUniProt database搜搜搜搜索索索索s s中的结果中的结果中的结果中的结果15蛋白质基本信息蛋白质基本信息蛋白质基本信息蛋白质基本信息蛋白质家族信息蛋白质家族信息蛋白质家族信息蛋白质家族信息1617序列物种来源拉序列物种来源拉丁名(常用名)丁名(常用名)记录注册、修改日期记录注册、修改日期注册号及参考来源注册号及参考来源物种分类型物种分类型序列长度序列长度序列顺序序列顺序文献发表作者文献发表作者/刊名刊名/发发表时间表时间/文章名文章名/文献数文

8、献数据库记录号据库记录号标题标题/序列名称序列名称Entry name通用蛋白质资源库通用蛋白质资源库 UniProt是一个集中收录蛋白质资源并能与其它资源相互联是一个集中收录蛋白质资源并能与其它资源相互联是一个集中收录蛋白质资源并能与其它资源相互联是一个集中收录蛋白质资源并能与其它资源相互联系的数据库,也是目前为止收录蛋白质序列目录最系的数据库,也是目前为止收录蛋白质序列目录最系的数据库,也是目前为止收录蛋白质序列目录最系的数据库,也是目前为止收录蛋白质序列目录最广泛、功能注释最全面的一个数据库。广泛、功能注释最全面的一个数据库。广泛、功能注释最全面的一个数据库。广泛、功能注释最全面的一个数

9、据库。欧洲生物信息学研究所欧洲生物信息学研究所(European Bioinformatics Institute)美国蛋白质信息资源美国蛋白质信息资源(Prontein Information Resource)瑞士生物信息研究所瑞士生物信息研究所(Swiss Institute of Bioinformatics)UniProt协会(协会(UniProt Consortium)编辑、制作编辑、制作的一个信息资源,旨在为从事现代生物研究的科研的一个信息资源,旨在为从事现代生物研究的科研人员提供一个有关蛋白质序列及其相关功能方面的人员提供一个有关蛋白质序列及其相关功能方面的广泛的、高质量的并可

10、免费使用的共享数据库。广泛的、高质量的并可免费使用的共享数据库。18UniProt数据库的构成数据库的构成UniProt数据库数据库UniProt知识库(知识库(UniProtKB)UniProt档案(档案(UniParc)UniProt参考资料库(参考资料库(UniRef)UniProt元基因组学元基因组学环境微生物序列数据库(环境微生物序列数据库(UniMES)191.UniProt知识库(知识库(UniProtKB)UniProt知识库是一个专家级的数据库,它知识库是一个专家级的数据库,它可以通过与其它资源进行交互查找的方式可以通过与其它资源进行交互查找的方式为用户提供一个有关目的蛋白质

11、的全面的为用户提供一个有关目的蛋白质的全面的综合信息。综合信息。UniProtKB包括两个组成部分:包括两个组成部分:UniProtKB/Swiss-ProtUniProtKB/TrEMBL。20UniProtKB/Swiss-ProtUniProtKB/Swiss-Prot主要收录人工注释的序列主要收录人工注释的序列及其相关文献信息和经过计算机辅助分析的序列。及其相关文献信息和经过计算机辅助分析的序列。在在UniProtKB中,注释包括中,注释包括 蛋白质功能蛋白质功能酶学特性酶学特性生物学意义的相关结构域及位点生物学意义的相关结构域及位点翻译后修饰情况翻译后修饰情况亚细胞定位亚细胞定位组织

12、特异性组织特异性发育阶段特异性发育阶段特异性结构、相互作用结构、相互作用剪接异构体剪接异构体相关疾病信息的注释相关疾病信息的注释。21UniProtKB/TrEMBLUniProtKB/TrEMBL收录的则是高质量的经计算收录的则是高质量的经计算机分析后进行自动注释和分类的序列。计算机辅机分析后进行自动注释和分类的序列。计算机辅助注释使用的是助注释使用的是Spearmint规则,而人工注释依规则,而人工注释依据的则是蛋白质家族规则,包括据的则是蛋白质家族规则,包括HAMAP家族规则家族规则(HAMAP family rules)、)、RuleBase规则、规则、PIRSF分类命名规则以及位点规

13、则。分类命名规则以及位点规则。UniProtKB/TrEMBL还收录了所有还收录了所有EMBL-Bank/ GenBank/DDBJ核酸序列数据库中的编码序列的核酸序列数据库中的编码序列的翻译后蛋白质序列和来自拟南芥信息资源库翻译后蛋白质序列和来自拟南芥信息资源库(TAIR)、)、SGD和人类和人类Ensembl数据库中序列的数据库中序列的翻译后蛋白质序列。翻译后蛋白质序列。222. iProClass-2. iProClass-蛋白质知识整合数据库蛋白质知识整合数据库蛋白质知识整合数据库蛋白质知识整合数据库 iProClassiProClass(http:/pir.georgetown.ed

14、u/iproclass/http:/pir.georgetown.edu/iproclass/)提供来自)提供来自)提供来自)提供来自9090多个生物学数据库的大量整合数据,多个生物学数据库的大量整合数据,多个生物学数据库的大量整合数据,多个生物学数据库的大量整合数据,包括蛋白包括蛋白包括蛋白包括蛋白IDID图谱服务、图谱服务、图谱服务、图谱服务、UniProtKBUniProtKB编注蛋白质摘要编注蛋白质摘要编注蛋白质摘要编注蛋白质摘要描述和筛选描述和筛选描述和筛选描述和筛选UnParcUnParc数据库的蛋白质序列。使用数据库的蛋白质序列。使用数据库的蛋白质序列。使用数据库的蛋白质序列。使

15、用iProClassiProClass可以检索最新的蛋白质综合信息,包括:可以检索最新的蛋白质综合信息,包括:可以检索最新的蛋白质综合信息,包括:可以检索最新的蛋白质综合信息,包括:功能、转导通路、相互作用、家族分类、基因和基功能、转导通路、相互作用、家族分类、基因和基功能、转导通路、相互作用、家族分类、基因和基功能、转导通路、相互作用、家族分类、基因和基因组、功能注释标准体系(因组、功能注释标准体系(因组、功能注释标准体系(因组、功能注释标准体系(ontologyontology)、文献和分)、文献和分)、文献和分)、文献和分类学信息。使用类学信息。使用类学信息。使用类学信息。使用iProC

16、lassiProClass还可以检索还可以检索还可以检索还可以检索IDID图谱、蛋白图谱、蛋白图谱、蛋白图谱、蛋白质词典和相关序列。质词典和相关序列。质词典和相关序列。质词典和相关序列。3. PIRSF-蛋白质家族分类系统蛋白质家族分类系统 PIRSF(http:/pir.georgetown.edu/pirsf/)分类系统概要论述家族的特征,如家族)分类系统概要论述家族的特征,如家族名称、分类分布、分级和功能域结构,以名称、分类分布、分级和功能域结构,以及家族成员,包括功能、结构、传导通路、及家族成员,包括功能、结构、传导通路、功能注释标准体系(功能注释标准体系(ontology)和家族分)

17、和家族分类。利用这些信息可以获得蛋白质的准确类。利用这些信息可以获得蛋白质的准确功能或预测的功能和该蛋白质所属家族成功能或预测的功能和该蛋白质所属家族成员共有的其他特征。员共有的其他特征。 4. iProLINK-4. iProLINK-蛋白质文献、信息和知识整合数据库蛋白质文献、信息和知识整合数据库蛋白质文献、信息和知识整合数据库蛋白质文献、信息和知识整合数据库 iProLINKiProLINK(http:/pir.georgetown.edu/iprolink/http:/pir.georgetown.edu/iprolink/)提供)提供)提供)提供有关注释内容的文献、蛋白质名称词典和其

18、他有助于文献有关注释内容的文献、蛋白质名称词典和其他有助于文献有关注释内容的文献、蛋白质名称词典和其他有助于文献有关注释内容的文献、蛋白质名称词典和其他有助于文献挖掘的人文语言处理技术开发的信息、数据库校正、蛋白挖掘的人文语言处理技术开发的信息、数据库校正、蛋白挖掘的人文语言处理技术开发的信息、数据库校正、蛋白挖掘的人文语言处理技术开发的信息、数据库校正、蛋白质名称标记和功能注释标准体系(质名称标记和功能注释标准体系(质名称标记和功能注释标准体系(质名称标记和功能注释标准体系(ontologyontology)。使用)。使用)。使用)。使用iProLINKiProLINK可以获得描述蛋白质记录

19、的文本文献资源,在可以获得描述蛋白质记录的文本文献资源,在可以获得描述蛋白质记录的文本文献资源,在可以获得描述蛋白质记录的文本文献资源,在UniProtKBUniProtKB记录(生物词典)中加入蛋白质或基因命名的记录(生物词典)中加入蛋白质或基因命名的记录(生物词典)中加入蛋白质或基因命名的记录(生物词典)中加入蛋白质或基因命名的图谱,获得用于开发文本挖掘算法的注释数据集、挖掘蛋图谱,获得用于开发文本挖掘算法的注释数据集、挖掘蛋图谱,获得用于开发文本挖掘算法的注释数据集、挖掘蛋图谱,获得用于开发文本挖掘算法的注释数据集、挖掘蛋白质磷酸化(白质磷酸化(白质磷酸化(白质磷酸化(RLIMS-PRL

20、IMS-P)文献和获得蛋白质功能注释标准)文献和获得蛋白质功能注释标准)文献和获得蛋白质功能注释标准)文献和获得蛋白质功能注释标准体系(体系(体系(体系(ontologyontology)()()()(PROPRO)信息。)信息。)信息。)信息。 其他重要的蛋白质序列数据库其他重要的蛋白质序列数据库PRINTSPfamPRINTS PRINTSPRINTS(http:/www.bioinf.manchester.ac.uk/dbbrohttp:/www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/index.phpwser/PRINTS/index.php

21、)是蛋白基序指纹图综合数据库,)是蛋白基序指纹图综合数据库,)是蛋白基序指纹图综合数据库,)是蛋白基序指纹图综合数据库,每个指纹图都是使用数据扫描程序每个指纹图都是使用数据扫描程序每个指纹图都是使用数据扫描程序每个指纹图都是使用数据扫描程序ADSPADSP或或或或VISTASVISTAS序列序列序列序列分析软件包反复优化后定义的。数据库中有两种类型指纹分析软件包反复优化后定义的。数据库中有两种类型指纹分析软件包反复优化后定义的。数据库中有两种类型指纹分析软件包反复优化后定义的。数据库中有两种类型指纹图,根据指纹图的复杂性分为简单和复合指纹图:简单指图,根据指纹图的复杂性分为简单和复合指纹图:简

22、单指图,根据指纹图的复杂性分为简单和复合指纹图:简单指图,根据指纹图的复杂性分为简单和复合指纹图:简单指纹图基本上是单一的基序,而复合指纹图包含多个基序。纹图基本上是单一的基序,而复合指纹图包含多个基序。纹图基本上是单一的基序,而复合指纹图包含多个基序。纹图基本上是单一的基序,而复合指纹图包含多个基序。 Pfam蛋白质一般是由一个或多个功能区域组成,这些蛋白质一般是由一个或多个功能区域组成,这些蛋白质一般是由一个或多个功能区域组成,这些蛋白质一般是由一个或多个功能区域组成,这些功能区域通常称作域(功能区域通常称作域(功能区域通常称作域(功能区域通常称作域(domaindomain)。在不同的蛋

23、白)。在不同的蛋白)。在不同的蛋白)。在不同的蛋白质中不同的域以不同的组合出现,导致在自然界质中不同的域以不同的组合出现,导致在自然界质中不同的域以不同的组合出现,导致在自然界质中不同的域以不同的组合出现,导致在自然界发现多种多样组成成分的蛋白质。识别出现在蛋发现多种多样组成成分的蛋白质。识别出现在蛋发现多种多样组成成分的蛋白质。识别出现在蛋发现多种多样组成成分的蛋白质。识别出现在蛋白质中的域可以了解蛋白质的功能。白质中的域可以了解蛋白质的功能。白质中的域可以了解蛋白质的功能。白质中的域可以了解蛋白质的功能。PfamPfam数据库(数据库(数据库(数据库(http:/pfam.sanger.a

24、c.uk/http:/pfam.sanger.ac.uk/)是一)是一)是一)是一个大的蛋白质域家族集合,每个家族是用多序列个大的蛋白质域家族集合,每个家族是用多序列个大的蛋白质域家族集合,每个家族是用多序列个大的蛋白质域家族集合,每个家族是用多序列比对和隐马模型(比对和隐马模型(比对和隐马模型(比对和隐马模型(HMMsHMMs)分析结果的代表。)分析结果的代表。)分析结果的代表。)分析结果的代表。 Uniprot中一个蛋白质的例子中一个蛋白质的例子http:/www.uniprot.org/uniprot/P10962一、基本信息一、基本信息Uniprot中一个蛋白质的例子中一个蛋白质的例子

25、http:/www.uniprot.org/uniprot/P10962二、功能注释二、功能注释Uniprot中一个蛋白质的例子中一个蛋白质的例子http:/www.uniprot.org/uniprot/P10962三、序列特征三、序列特征Uniprot中一个蛋白质的例子中一个蛋白质的例子http:/www.uniprot.org/uniprot/P10962四、蛋白质结构域组成和蛋白质家族四、蛋白质结构域组成和蛋白质家族Uniprot中一个蛋白质的例子中一个蛋白质的例子http:/www.uniprot.org/uniprot/P10962五、其他特征:结构、参与的蛋白质互作五、其他特征:结构、参与的蛋白质互作

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号