后基因组时代的生物信息课件

资源描述

《后基因组时代的生物信息课件》由会员分享，可在线阅读，更多相关《后基因组时代的生物信息课件（63页珍藏版）》请在金锄头文库上搜索。

1、后基因组时代的生物信息,胡艳玲谢莹,HGP人类基因组计划,这张解剖图将包括4张小图，包括了人类基因组计划的全部主要内容，它们分别是遗传图（连锁图）、物理图、序列图和转录图。,后基因组时代的生物信息学,2003年HGP测序工作全部完成后，生命科学进入后基因组时代。后基因组时代的工作重点是：在整体水平上对基因组的功能进行研究。由此诞生了功结构基因组学能基因学，结构是功能的基础，又产生了。在功能基因组学的基础上又产生了蛋白组学和RNA组学。,前基因组时代的“钓鱼”和后基因组时代的“捞鱼”,第一节基因组表达及调控的研究,基因组表达及调控,在全细胞的水平，识别所有基因组表达产物： mRNA： c

2、DNA 阵列蛋白质：二维电泳质谱研究生物大分子相互作用：阐明基因组表达在发育过程中的时、空的整体调控网络。蛋白质组学：高通量解析蛋白质的高级结构，是连接基因组功能研究和新药开发的桥梁。,基因组学、生物信息学与新药研制,未来的药物研究过程将是基于生物信息知识挖掘的过程,数据处理和关联分析,发现药物作用对象,确定靶目标分子,针对靶目标进行合理的药物设计,CDNA 微阵列,基因表达数据的网络资源 GEO （ http:/www.ncbi.nlm.nih.gov/geo ） ArrayExpress( http:/www.ebi.ac.uk/arrayexpress/ ) SMD

3、（ http:/genome-www5.stanford.edu/ ）除了以上 3 个综合性的基因表达数据仓库外，还有一些专门的基因表达数据库，例如 YMD (Yale Microarray Database ， http:/info.med.yale.edu/ microarray/) ArrayDB （ http:/genome.nhgri.nih.gov/arraydb/ ） BodyMap （ http:/bodymap.ims.u-tokyo.ac.jp/ ） ExpressDB( http:/twod.med.harvard.edu/ExpressDB/ ) HuGE Inde

4、x(Human Gene Expression Index ，http:/www.hugeindex.org/welcome/index.html),差异表达基因的选择,筛选差异基因包括：表达数据的获取和标准化标记物的差异、荧光标记检测效能的差异以及样品RNA的原始浓度的差异。基因表达矩阵的构建 mn的基因表达矩阵，用以记录基因在不同的实验条件下的表达谱。通常m为基因的数目，n为实验的次数或芯片的数目。差异表达基因的筛选：t-检验和方差分析,基因表达数据的聚类分析,聚类分析可将具有相似表达模式的基因聚在一起，分析同类基因的功能，并对未知基因的功能和生物学特性进行推测。,几种常用的聚

5、类方法, 分层聚类(hierarchical clustering，HCL) K-均值聚类（K-mean clustering，KMC） SOM聚类（self-organizing map clustering，SOM）,分层聚类,分裂或凝聚,算法运行到某一阶段，类别划分结果达到聚类标准时即可停止分裂或凝聚;,层次聚类优缺点,优点：所得结果可方便地进行可视化观察。缺点：选取某一水平（即某一类间距离）的类数作最终结果，此一步较为主观，很难确定哪个水平可给出最好的结果。此方法的复杂度与所分析表达谱数目的平方呈正比，对于现在数据集的大小而言是一大问题。,K-均值聚类,优点：思想简单易行,时间复杂

6、性接近线性,对大规模数据的挖掘具有高效性和可伸缩性。缺点：该算法要求预指定类数，而实际应用中很难预测类数，因此需要通过试误，即使用多套不同的参数设定，比较其结果，并且从生物学角度对结果进行验证。,K-均值聚类,SOM聚类,SOM（自组织映射）的由来： 1991，Kohonen提出，模拟人脑中的神经元层; 人脑中不同的神经元区域负责不同的功能; 一旦有外部刺激，与刺激相关的神经元会被激励，并且其附近神经元也会受到激励;,SOM聚类（一）,输入数据获胜神经元临近神经元,1 2,SOM聚类（二）,输入数据获胜神经元临近神经元,不同的神经元区域代表不同的输入数据模式,3 4,SOM聚类的优缺

7、点,优点：可以实现实时学习，网络具有自稳定性，无须外界给出评价函数，能够识别向量空间中最有意义的特征，抗噪音能力强。缺点：与K-均值聚类相似，它也需要预先指定参数（结点群的拓扑构形），因而遇到与之相似的困难,基因网络研究的前提假定和基本原理,什么是基因调控网络？细胞、DNA、蛋白质、基因、基因网络为什么要研究基因调控网络？从分子水平认识细胞组织的功能。我完全不懂生物学；我为什么要讲这个？了解基因调控网络，对我们有什么启发？,基因和蛋白质,基因网络研究的前提假定和基本原理,基因表达的调控：不同层次,基因网络研究的前提假定和基本原理,基因调控网络是指一组调控因子如何调控一套基因表达的

8、过程. 机体的功能发展来缘于遗传网络间的互作。,基因网络研究的前提假定和基本原理,基因调控网络研究的目的, 识别和推断基因网络的结构、特性和调控关系认识复杂的分子调控过程理解支配基因表达和功能的基本规则揭示基因表达过程中的信息传输规律整体的框架下研究基因的功能,基因调控网络构建的方法,布尔网络模型：线性组合模型：加权矩阵模型：,近年来发表的基于微阵列数据进行基因调控网络构建和分析的软件包,基因调控网络整合分析, 基因表达数据 DNA 序列转录因子与顺式调控元件相互作用蛋白蛋白相互作用蛋白在细胞中的定位等再结合生物学实验验证，可以完善基因调控网络。经过若干次的建模模拟实验循环

9、可以逼近真实的生物学基因调控网络。,第二节,功能基因与蛋白质信息的文本挖掘,文本挖掘的提出,雷诺氏病：是一种治疗方法和病因学都未知的血液系统疾病，表现为血液循环紊乱，血液黏度升高。其他文献中发现食用鱼油可以降低血液黏度。 Swanson把这两种知识联系起来提出食用鱼油应该对雷诺氏病病人有帮助的假设。 3年后有人通过临床实验证实了这一点从文献中可以发现或者挖掘到以前未知的知识,文本挖掘的方法,基于文献的生物信息分析最重要一点就是如何找出隐含的、具有语义关联的生物概念进行下一步的推理，这也是最为复杂的步骤。主要有以下方法：基于统计的方法基于自然语言处理的方法基于关联规则挖掘的方法于模式

10、识别的方法,基于统计方法的文本挖掘,基于统计的方法是通过词的共现对已知基因或者其他生物信息关系进行聚类分析，得到新的基因或生物功能相互作用关系，或通过查找彼此间经常同时出现但不是随机出现的实体，进而鉴别出关系。,CHAUSSABEL等提出了一种用文献轮廓挖掘微阵列表达数据技术,PUBGENE(HTTP:/WWW.PUBGENE.ORG/）,基于自然语言处理的方法,基于自然语言处理的系统：通过分析语法结构进行关系抽取，对句子从词法、句法和语义上进行解析，把自然语言分解为可以从中提取出关系的结构。例子： Medstract EngCG,基于关联规则挖掘的方法,关联规则相对于其他在基因芯片数据分析

11、中使用的数据挖掘技术(例如聚类分析、主成份分析、因子分析等)而言，能够推测基因之间表达关联关系。关联规则一般形式是LHSRHS。例子： geneA geneB ，geneC ,基于模式识别的方法,基于模式识别的方法是对与已知有关系的实体相邻近的文本进行模式的抽象，再利用生成的模式对测试语料集文本进行模式匹配，最终得到基因或蛋白质关系结果。例子： RLIMSP,第三节,分子进化和系统发育分析,分子进化和系统发育分析,我们学医，又不研究物种，学进化有什么用？,广西地区动物HEV基因型及亚型分布,过度繁殖,有限的生活条件,生存斗争,适者生存,生物新类型出现,达尔文把这种在生存斗争中，适者生存、

12、不适者被淘汰的过程，叫做自然选择。,过度繁殖生存斗争遗传变异适者生存,达尔文的“自然选择”学说,基因突变,1、核苷酸替代、插入/缺失、重组 2、基因转换,固定在生物个体以及物种内,遗传漂变,自然选择,传递给后代,产生新的形态、性状,分子系统学是研究进化机制的一个重要工具。,生物进化的分子机制,拓扑结构：有根树：反映时间顺序无根树：反映距离,理论上，一个DNA序列在物种形成或基因复制时，分裂成两个子序列，因此系统发育树一般是二歧的。一般考虑二歧的树结构：二歧树,分支：内部分支外部分支,节点：内部节点外部节点,系统发育树的种类有根树、无根树,构建系统发育树的数据 1、特征数据(c

13、haracter data)：提供了基因、个体、群体或物种的信息 2、距离数据(distance data)或相似性数据(similarity data)：涉及的则是成对基因、个体、群体或物种的信息。距离矩阵,距离数据可以由特征数据计算得到。反之?,系统发育树的构建,构建系统发育树的数据 1、特征数据(character data)：提供了基因、个体、群体或物种的信息 2、距离数据(distance data)或相似性数据(similarity data)：涉及的则是成对基因、个体、群体或物种的信息。距离矩阵,距离数据可以由特征数据计算得到。反之?,系统发育树的构建,paral

14、ogs,orthologs,分子进化与系统发育分析软件,第四节,单核苷酸多态性与连锁不平衡,人类基因组多态性,遗传信息检验风险估计,研究临床医学转换,分子遗传流行病学,Is there a familial aggregation ?,Is it genetic ?,Which genetic model ?,Which genes ?,Contribution in general population,Clinical observation Case-control study,Twin study Adoption study Migration study,Segregation

15、 study,Linkage study Association study,Gene-gene Gene-environment,基因分型,分析DNA序列的变异性人类DNA序列99.9%都是一样的 3000 000 核酸存在差异通常定义为多态性SNP其较低等位位点频率 1% 遗传变异研究的目的挖掘遗传性疾病的病因以及预防预测进行个性化医疗通过位点确定疾病基因,一般术语,连锁不平衡（ LD）,在某一群体中，不同座位上某两个等位基因出现在同一条单元型上的频率与预期的随机频率之间存在明显差异的现象。,微卫星标记,2-4个核苷酸重复 GAACGTACTCACACACACACACATTTGAC TTCGATGATAGATAGATAGATAGATACGT 重复数( 30) 具有高度多态性均匀分布在整个基因组通过PCR就可以鉴别出来,单核苷多态(SNP),单体型,57,单体型即位于一条染色体上或某一区域的一组相关联的SNP位点。,单体型构建,分子实验构建单体型费用昂贵、耗资大 Genotypes Haplotypes, two alternatives SNP1 AT A T A T SNP2 GC G C C G, 统计统计学推断单体型更可行。,单体型构建,基于家庭的单体型构建分析软件: Simwalk, Merlin, Genehu

展开阅读全文