《蛋白质组学技术:蛋白质组学中的生物信息学》由会员分享,可在线阅读,更多相关《蛋白质组学技术:蛋白质组学中的生物信息学(33页珍藏版)》请在金锄头文库上搜索。
1、蛋白质组信息学蛋白质组信息学Functional analysisState 1State 22DEMSDatabase searchDifferential analysis?经典的蛋白质组学研究策略经典的蛋白质组学研究策略“组学(组学(Omics)”Biological knowledgeMedical knowledgeImproved healthGenomicsTranscriptomicsProteomicsMetabolomicsInteractomicsSequencingMicroarraysLC/MSNMRTwo hybrid研究策略研究策略these data are高通
2、量的策略High-noise 降低噪音Advanced pre-processing techniquesReliable high-throughput informationTechniques to analyze high-dimensional data and knowledge bases 生物信息学(bioinformatics)是随着人类基因组计划而发展起来的,是一门新兴的交叉学科。它包含了生物信息的获取、处理、存储、发布、分析和解释等在内的所有方面。它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。数学数学计算机计算机科学科学生物学生物学
3、一、蛋白质组信息学简介一、蛋白质组信息学简介1、蛋白、蛋白质组信息学的信息学的产生与生与发展展DataKnowledge分析数据,提出假分析数据,提出假说设计实验,验证假假说实验获得的得的公共数据公共数据库一、蛋白质组信息学简介一、蛋白质组信息学简介1、蛋白、蛋白质组信息学的信息学的产生与生与发展展n解析通过蛋白质电泳与质谱获得的海量的蛋白质组学数据;n构建来源广泛的、包含不同种属来源的生物体、组织以及疾病状态的蛋白质组数据库;n预测特定蛋白质的理化特性、潜在的蛋白质翻译后修饰以及可能的3D结构;n分析通过蛋白质组学所获结果的生物学意义,及其与特定细胞信号通路或疾病的关系。一、蛋白质组信息学简
4、介一、蛋白质组信息学简介2、蛋白、蛋白质组信息学的任信息学的任务1)蛋白质序列与结构信息学: 通过对生物体内蛋白质组大规模的分离与鉴定,获得蛋白质的序列信息,利用蛋白质组信息学数据库,通过序列比对,可以获得相应的结构信息,进而推测其功能或者鉴定其是否为蛋白质家族的新成员。一、蛋白质组信息学简介一、蛋白质组信息学简介3、蛋白、蛋白质组信息学的研究内容信息学的研究内容2)蛋白质相互作用信息学:n在细胞中,蛋白质与蛋白质成员间的相互作用以及蛋白质与DNA,蛋白质与RNA及蛋白质与小分子化合物甚至蛋白质与金属离子间的相互作用,是信息传递、代谢发生等正常生物活动所不可或缺的;n研究内容包括:蛋白质相互作
5、用网络的研究、蛋白质相互作用方法学的研究、蛋白质相互作用模拟的研究等。一、蛋白质组信息学简介一、蛋白质组信息学简介3、蛋白、蛋白质组信息学的研究内容信息学的研究内容3)功能蛋白质组信息学:n根据功能不同可以对蛋白质进行分类,如受体蛋白质、酶蛋白、信号传导通路蛋白、结构蛋白以及其他调控蛋白等;n序列同源性高的蛋白质之间可能具有相似的功能;n有些蛋白之间的序列信息相关较大,但从结构域水平上它们又具有同源性,也可能具有相似的功能。一、蛋白质组信息学简介一、蛋白质组信息学简介3、蛋白、蛋白质组信息学的研究内容信息学的研究内容4)蛋白质组遗传信息学:n通过对蛋白质组学的研究,同一类蛋白质组的遗传信息特征
6、及其与蛋白质组表达的关系,是揭示生命现象和生命规律的重要内容;n蛋白质组遗传信息学在分子进化和分子遗传学中也具有重要的作用。一、蛋白质组信息学简介一、蛋白质组信息学简介3、蛋白、蛋白质组信息学的研究内容信息学的研究内容 从1994年起,每年第一期Nucleic Acids Research是分子生物学数据库专刊,由专人综述当前的在线分子生物学数据资源。二、蛋白质组信息学资源二、蛋白质组信息学资源1、UniProt 网址:http:/www.uniprot.org/2、Protein Information Resource (PIR) 网址:http:/pir.georgetown.edu3、
7、NCBI 网址:http:/www.ncbi.nlm.nih.gov二、蛋白质组信息学资源二、蛋白质组信息学资源(一)蛋白质序列数据库(一)蛋白质序列数据库1、UniProt (Universal Protein Resource)数据库数据库(一)蛋白质序列数据库(一)蛋白质序列数据库UniParc is a comprehensive and non-redundant database that contains most of the publicly available proteinsequencesin the world. Proteins may exist in diffe
8、rent source databases and in multiple copies in the same database. UniParc avoids such redundancy by storing each unique sequence only once and giving it a stable and unique identifier (UPI). UniParc contains only proteinsequences. The UniProt Reference Clusters (UniRef) provide clustered sets of se
9、quences from the UniProt Knowledgebase (including isoforms) and selected UniParc records. This hides redundant sequences and obtains complete coverage of the sequence space at three resolutions: A proteome consists of the set of proteins thought to be expressed by an organism whose genome has been c
10、ompletely sequenced. 1、UniProt (Universal Protein Resource)数据库数据库(一)蛋白质序列数据库(一)蛋白质序列数据库2、PIR (Protein information resource)数据库数据库(一)蛋白质序列数据库(一)蛋白质序列数据库3、 NCBI数据库(一)蛋白质序列数据库(一)蛋白质序列数据库nPROSITE: http:/prosite.expasy.org ; nPfam: http:/pfam.xfam.org/nBlocks: http:/blocks.fhcrc.org/blocks/nCDD: http:/ww
11、w.ncbi.nlm.nih.gov/cdd/nInterPro: http:/www.ebi.ac.uk/interpro/(二)蛋白质模式模体数据库(二)蛋白质模式模体数据库1、PROSITE (http:/prosite.expasy.org/)nPROSITE是一个蛋白质家族与结构域的数据库;n收集了蛋白质模式(pattern)或结构特征谱(profile)信息,可用于鉴定蛋白质的家族信息(进化),也可用于分析其功能位点(功能)。(二)蛋白质模式模体数据库(二)蛋白质模式模体数据库(二)蛋白质模式模体数据库(二)蛋白质模式模体数据库1、PROSITE (http:/prosite.ex
12、pasy.org/)2、Pfam (http:/pfam.xfam.org/) npfam数据库是一个蛋白质家族大集合,依赖于由多序列比对和隐马尔可夫模型(HMMs的);nPfam是由 European Bioinformatics Institute采用序列数据库Pfamseq( 基于UniProt数据库)创建的; nDescriptions of protein domains: nGiven an established SWISSPROT sequence, Pfam shows pre-computed domain structure of the protein. nGiven
13、a completely new protein sequence, Pfam computes a domain structure. (二)蛋白质模式模体数据库(二)蛋白质模式模体数据库 PDB是美国Brookhaven实验室于1971年创建的大分子结构数据库,用X射线晶体学和核磁共振法(NMR)得到的结构数据,其中含有通过X射线晶体衍射、核磁共振等实验手段测定的生物大分子的三维结构,主要是蛋白质的三维结构,也包括了核酸、糖类、蛋白质与核酸复合物的三维结构。目前由RCSB(Research Collaboratory for Structural Bioinfomratics)负责数据库的
14、维护,PDB数据库已含有约123021多种结构(2016年9月29日),其中90%是蛋白质的结构。(三)蛋白质结构数据库(三)蛋白质结构数据库PDB (http:/www.rcsb.org/pdb/)nPDB 中每条记录有显式序列(explicit sequence)与隐式序列(implicit sequence)信息。PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。n在实际应用中,PDB数据库应与结构模型显示软件相结合。n互联网上有许多可以利用的分子模型软件如RasMol、CHIME、MolPOV等,这些软件能够以各种各样的模型显示出生物大分子的三维结构如结构骨架模型、
15、棒状模型、球棒模型、空间填充模型和带状模型等。n此外,PDB还说明了蛋白质某些特定部分的二级结构类型如螺旋和折叠。(三)蛋白质结构数据库(三)蛋白质结构数据库PDB (http:/www.rcsb.org/pdb/)(三)蛋白质结构数据库(三)蛋白质结构数据库PDB (http:/www.rcsb.org/pdb/)nPRIDE: http:/www.ebi.ac.uk/pride/archive/nWorld-2DPAGE list: http:/world-2dpage.expasy.org/list/(四)蛋白质组学数据库(四)蛋白质组学数据库1、PRIDE: PRoteomics ID
16、Entification databasenPRIDE数据库储存基于质谱的蛋白质组学结果,创建于2003年;n由European Bioinfomatics Institute维护;n数据是由研究人员自已上传原始的、未经编辑的实验数据;(四)蛋白质组学数据库(四)蛋白质组学数据库(四)蛋白质组学数据库(四)蛋白质组学数据库1、PRIDE: PRoteomics IDEntification database2、World-2DPAGE list(四)蛋白质组学数据库(四)蛋白质组学数据库nSTRING:Search Tool for Recurring Instances of Neighbo
17、uring Genes http:/string.embl.de/nBinding database: https:/www.bindingdb.org/bind/index_original.jspInteraction Databases(五)蛋白质相互作用数据库(五)蛋白质相互作用数据库(五)蛋白质相互作用数据库(五)蛋白质相互作用数据库1、STRING database:2、Binding database: https:/www.bindingdb.org/bind/index_original.jsp(五)蛋白质相互作用数据库(五)蛋白质相互作用数据库n ExPAsy Proteomics Server http:/expasy.org/proteomicsn Trans-Proteomic Pipeline http:/tools.proteomecenter.org/wiki/index.php? title=Software:TPP(六)蛋白质分析软件资源(六)蛋白质分析软件资源ExPAsy Proteomics Server (六)蛋白质分析软件资源(六)蛋白质分析软件资源Thanks for your attention!