药理学专论geneontolology

上传人:第*** 文档编号:61582530 上传时间:2018-12-04 格式:PPT 页数:93 大小:9.06MB
返回 下载 相关 举报
药理学专论geneontolology_第1页
第1页 / 共93页
药理学专论geneontolology_第2页
第2页 / 共93页
药理学专论geneontolology_第3页
第3页 / 共93页
药理学专论geneontolology_第4页
第4页 / 共93页
药理学专论geneontolology_第5页
第5页 / 共93页
点击查看更多>>
资源描述

《药理学专论geneontolology》由会员分享,可在线阅读,更多相关《药理学专论geneontolology(93页珍藏版)》请在金锄头文库上搜索。

1、基因本体论与GO技术,张波 Bozhang_ 2015年9月,引 言,背景 随着后基因组(post-genomics)时代的来临,基因组学的研究重心开始从阐明所有遗传信息转移到在整体分子水平对功能进行研究。这种转变的一个重要标志是产生了功能基因组学(functional genomics)。 任务 功能基因组学的主要任务之一是进行基因组功能注释(genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用等。 意义 快速有效的基因注释对进一步识别基因,研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关

2、系,预测和发现蛋白质功能,揭示生命的起源和进化等具有重要的意义。,本体论的哲学基础,第一哲学:是者之所以为 是 者,以 及是者由 于 本 性 所 应 有 的 性 质。” “是者”(being)是 从 系 词 是(to be)的 分 词 作 成 的 哲学概念,在西方哲学中可以用作表示泛指一切的概念、其涵盖范围比中文的“存在”、“万物”都要广。 ontology:即我们译作“本体论”并得到广泛流传的这个词,就是由 ont(的变式)加上词尾logy(意为科学、学说)组成的。因此,从亚里士多德起,“第一哲学”也就是本体论。,西方哲学分类,基因注释数据库,Gene Annotation Database

3、,研究人员已经掌握了大量的全基因组数据,同时关于基因、基因产物以及生物学通路的数据也越来越多,解释生物学实验的结果,尤其从基因组角度,需要系统的方法。 在基因组范围内描述蛋白质功能十分复杂,最好的工具就是计算机程序,提供结构化的标准的生物学模型,以便计算机程序进行分析,成为从整体水平系统研究基因及其产物的一项基本需求。,基因注释数据库产生的原因,生物学与计算机信息学的矛盾,生物信息的巨大与混乱: 生物学家们浪费了太多的时间和精力在搜寻生物信息上。生物学上定义混乱,不同数据库使用不同的术语。计算机难以搜寻,随时间和人为多重因素而随机改变。 生物信息的归类对研究工作带来的挑战: 找一个用于制抗生素

4、的药物靶点,找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人体中蛋白质合成组分显著不同的。如果一个数据库描述这些基因产物为“翻译类”,而另一个数据库描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。,一、基因本体论(gene ontology),1988 年对三个模式生物数据库的整合开始:the FlyBase (果蝇数据库 Drosophila),the Saccharomyces Genome Database (酵母基因组数据库 SGD) 和 the Mouse Genome Informatics (小鼠基因组数据库 MG

5、I)。从那开始,GO 不断发展扩大,现在已包含数十个动物、植物、微生物的数据库(详见 GO Consortium Page )。 http:/www.geneontology.org/GO.consortiumlist.shtml,Gene Ontology widely adopted,AgBase,GO的三级语义词汇标准,GO 开发了具有三级结构的语义词汇标准(Ontologies),根据基因产物的相关生物学途径、细胞学组件以及分子功能而分别给予定义,与具体物种无关。 第一,给予并维持语义(terms); 第二,将位于数据库当中的基因、基因产物与 GO本体论语言当中的语义(terms)进行

6、关联,形成网络; 第三,开发相关工具,使本体论标准语言的产生和维持更为便捷。,本体论(The ontologies)介绍,GO 提供了一系列的语义(terms)用来描述基因、基因产物的特性。这些语义分为三种不同的种类: 细胞学组件(CC),用于描述亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等; 分子功能(MF),用于描述基因、基因产物个体的功能,如与碳水化合物结合或 ATP 水解酶活性等; 生物学途径(BP),指分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等。,GO 的具体定义,细胞组件 即细胞中的位置,指基因产物位于何种细胞器或基因产物组中(如糙面内质网,

7、核或核糖体,蛋白酶体等)。,GO 的具体定义,分子功能 分子功能描述在分子生物学上的活性,如催化活性或结合活性。GO 分子功能用来定义功能而不是整体分子,而且不特异性地指出这些功能具体的时空信息。分子功能大部分指的是单个基因产物的功能,还有一小部分是此基因产物形成的复合物的功能。定义功能的义项包括催化活性、转运活性、结合活性等,更为狭窄的定义包括腺苷酸环化酶活性或钟形受体结合活性等。,生物学途径 生物学途径是由分子功能有序地组成的,具有多个步骤的一个过程。举例来说,较为宽泛的是细胞生长和维持、信号传导。一些更为具体的例子包括嘧啶代谢或配糖基的运输等。一个生物学途径并不是完全和一条生物学通路相等

8、。因此,GO 并不涉及到通路中复杂的机制和所依赖的因素。,语义之间的关系及其组织结构,语义之间关系的基本理解 基因本体论组织类似于图,语义作为图的结点,语义之间的关系为图中的边。因此,一旦产生新的语义,其与其它语义之间的关系也会同时被定义。语义之间的关系有三种:is a、part of 和 regulates。,关系表示的几点约定,1. “语义”用图论的术语“结点”表示 2. 我们习惯于用父子结点来表示语义之间的关系,其中父结点离根结点较近,表示相对宽泛的语义,而子结点离叶子结点较近,相对父结点其语义所代表的内容更为具体。 3. 图中的实线表示结点之间的关系 4. 虚线表示推理而并未证明的关系

9、,基本关系图示,语义关系的推导1,is a 的传递性,语义关系的推导2,part of 也具有传递性,语义关系的推导3,part of 具有优先性,调节控制关系(regulate)与推导1,调节控制关系(regulate)与推导1,调节控制关系的复合变换,本体论的组织结构,本体论的图形化表示:语义表示为结点,其间的关系表示为结点之间的边。 GO 语义之间的单向关系:线粒体(mitochondrion)是一个细胞器(organelle),可以表示为 a mitochondrion is an organelle,但反过来不成立,细胞器不是一个线粒体! GO图形特征:有向非循环树,其中离根结点越近

10、的结点越概括,离叶子结点越近的结点越具体。,本体论的结构可视化,本体论结构图中的结点可以有两个及其以上的父结点。 例如:BP已糖合成(hexose biosynthetic process)就有两个 父 结 点 , 已 糖 代 谢 (hexose metabolic process) 和 单 糖 合 成 (monosaccharide biosyntheticprocess)。其并不难理解,因为已糖(hexose)是一种单糖(monosaccharide),生物合成过程(biosyntheitc process)也是一种生物代谢过程(metabolic process) 。,GO语义的注释(A

11、nnotation),注释原理,一个基因产物可以被一种本体论定义的多种分支或多种水平注释。注释需要反映在正常情况下此基因产物的功能,生物途径,定位等,而并不包括其在突变或病理状态下的情况。GO 联合会的各个数据库成员采用手动或自动的方式生成注释,这两种方式共有的原理是: 1. 所有的注释都需要有来源,可以是文字、另一个数据库或是计算机分析结果; 2. 注释必须提供支持这种基因产物和 GO 术语之间联系的证据。,二、GO 怎么用?,GO 是分别从三个不同的层面描述基因产物的语义集。基因产物数据库用GO 提供的语义去注释基因产物,并向 GO 联合会提供注释文件,阐明了基因产物和用于定义他们的 GO

12、 术语之间的关系。 如何下载本体论文件、注释文件。 如何浏览 GO 语义及其相关的注释。,下载本体论文件和注释文件,AmiGO的使用,BAD的GO注册信息,GO:0051712 : positive regulation of killing of cells of other organism GO词条关联图示法,GO数据库的开放性,二、GO的应用,GO语义检索 未知序列的确认 整合代谢途径分析 基因功能富集分析 基因功能预测,GO语义检索,根据基因产物检索,“NOT”词条的涵义,未知序列的确认,对于未知基因名的序列,可以用序列直接检索GO 数据库。点击AmiGO首页上方的“BLAST”。

13、界面风格类似于其他数据库BLAST搜索的网页,在检索框中铁如氨基酸或核酸序列,网页能自动识别并相应地做BLASTP或BLASTX和数据库中的序列比对。 这里以检索一段未知基因的序列为例,如图所示。,整合代谢途径分析,京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes, KEGG) 是系统分析基因功能、基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究。,下面以人类编码葡萄糖磷酸变位酶的基因“PGM1”为例:首先进入KEGG首页,在首页顶端的输入框中输入类葡萄糖磷酸变位酶

14、基因名称“PGM1”,KEGG数据库的注释与检索,点击搜索按钮“GO”进入查询结果页面,该页面会列出针对基因“PGM1”在KEGG数据库中的搜索结果,除人类外,包含“PGM1”基因的物种条目也会被列出。,其中排在第一位的是人类基因“PGM1”的相关信息,点击该条目进入到详细信息页面。 该页面以表格的形式列出了该基因有关的详细信息,包括基因编号,基因的详细定义,所编码的酶的编号,基因所在通路,以及序列的编码信息。同时,在页面的右侧还提供了该基因在其他分子生物学数据库的链接,如OMIM、NCBI、GenBank等。,通过点击相应的链接,我们可以进入该基因相应信息的页面。在pathway这一栏中列出

15、了该基因所在的生物学通路,点击编号为hsa00010(糖酵解/糖异生通路)的通路,进入到该通路的相应页面。该编号为hsa00010的通路页面以简单的几何图形显示出了糖酵解/糖异生相关生物过程。图中红色的方框即为基因“PGM1”所编码的酶,以此就可以通过该酶所在位置以及通路的拓扑结构来综合分析基因。 此外,可以通过页面顶部的下拉列表框来选择该通路在其他物种中的信息,也可以通过该列表框的选择来查看相关的基因、酶、反应、化合物等相关通路信息。,基因集功能富集分析,Gene Set Enrichment Analysis,一组基因直接注释的结果是得到大量的功能结点。这些功能具有概念上的交叠现象,导致分

16、析结果冗余,不利于进一步的精细分析,所以研究人员希望对得到的功能结点加以过滤和筛选,以便获得更有意义的功能信息。,进行基因集功能富集分析的原因,富集分析方法通常是分析一组基因在某个功能结点上是否过出现(over-presentation)。这个原理可以由单个基因的注释分析发展到大基因集合的成组分析。 由于分析的结论是基于一组相关的基因,而不是根据单个基因,所以富集分析方法增加了研究的可靠性,同时也能够识别出与生物现象最相关的生物过程。,富集分析算法,富集分析中常用的统计方法有累计超几何分布、Fisher精确检验等。,累计超几何分布:,Fisher精确检验:,富集分析(超几何分布) Fishers Exact Test,问题的由来:经常看到一些饼图,描述某些事物的组成,比如说有钱人的学历分布,然后我们可以看到高学历所占比例并不高,根据这个比例下结论

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号