生物信息学及其发展历史

上传人:wt****50 文档编号:49432361 上传时间:2018-07-27 格式:PPT 页数:78 大小:6.70MB
返回 下载 相关 举报
生物信息学及其发展历史_第1页
第1页 / 共78页
生物信息学及其发展历史_第2页
第2页 / 共78页
生物信息学及其发展历史_第3页
第3页 / 共78页
生物信息学及其发展历史_第4页
第4页 / 共78页
生物信息学及其发展历史_第5页
第5页 / 共78页
点击查看更多>>
资源描述

《生物信息学及其发展历史》由会员分享,可在线阅读,更多相关《生物信息学及其发展历史(78页珍藏版)》请在金锄头文库上搜索。

1、第二节 生物信息学及其发展历史 1、生物信息学的概念生物信息学(Bioinformatics) 这一名词的来由 八十年代末期,林华安博士认识到将计算机科学与生 物学结合起来的重要意义,开始留意要为这一领域构思 一个合适的名称。起初,考虑到与将要支持他主办一系 列生物信息学会议的佛罗里达州立大学超型计算机计算 研究所的关系,他使用的是“CompBio”;之后,又将其更 改为兼具法国风情的“bioinformatique”,看起来似乎有些 古怪。因此不久,他便进一步把它更改为“bio- informatics(或bio/informatics)”。但由于当时的电子邮 件系统与今日不同,该名称中的-

2、或/符号经常会引起许多 系统问题,于是林博士将其去除,今天我们所看到的 “bioinformatics”就正式诞生了,林博士也因此赢得了“生 物信息学之父”的美誉。 生物信息学HGP 生物数据的激增 (每15个月翻一番)生物学家数学家计算机 科学家生物信息学 (bioinfomatics) 的诞生三种科学文化的融合三种科学文化的融合生物学家生物学家 ( (生物学问题生物学问题) )数学物理学家数学物理学家 计算机科学家计算机科学家 ( (基础理论问题基础理论问题) )工程师工程师 (技术应用)(技术应用)生物信息学(bioinformatics)是 80年代未随着人类基因组计划( Human

3、genomeproject)的启动而 兴起的一门新的交叉学科。它涉及 生物学、数学、计算机科学和工程 学,依赖于计算机科学、工程学和 应用数学的基础,依赖于生物实验 和衍生数据的大量储存。 概念(广义)生物体系和过程中信息 的存贮、传递和表达细胞、组织、器官的生理、病理 、药理过程的中各种生物信息信息科学生 命 科 学 中 的 信 息 科学 广义的说,生物信息不仅包括基因组信息,如 基因的DNA序列、染色体定位,也包括基因产 (蛋白质或RNA)的结构和功能及各生物种间 的进化关系等其他信息资源。生物信息学既涉 基因组信息的获取、处理、贮存、传递、分析 和解释,又涉及蛋白质组信息学如蛋白质的序

4、列、结构、功能及定位分类、蛋白质连锁图、 蛋白质数据库的建立、相关分析软件的开发和 应用等方面,还涉及基因与蛋白质的关系如蛋 白质编码基因的识别及算法研究、蛋白质结构 、功能预测等,另外,新药研制、生物进化也 是生物信息学研究的热点。 概念(狭义)生物 分子数据深层次 生物学知识分子生物信息学 Molecular Bioinformatics挖掘获取生物分子信息的获取、存贮、分析和利用由于当前生物信息学发展的主要推动 力来自分子生物学,生物信息学的研究 主要集中于核苷酸和氨基酸序列的存储 、分类、检索和分析等方面,所以目前 生物信息学可以狭义地定义为:将计算 机科学和数学应用于生物大分子信息的

5、 获取、加工、存储、分类、检索与分析 ,以达到理解这些生物大分子信息的生 物学意义的交叉学科。 1995年,在美国人类基因组计 划(HGP)第一个五年总结报告 中给出了一个较为完整的生物信息 学的定义:生信息学是包含生物信 息的获取、处理、贮存、分发、分 析和解释的所有方面的一门学科, 它综合运用数学、计算机科学和生 物学的各种工具进行研究,目的在 于了解大量的生物学意义。 Bioinformatics生物分子 数 据 计算机 计 算+ 2、生物分子信息细胞分子存贮、复制、传递和表达 遗传信息的系统生物信息的载体 生物信息学主要研究两种信息载体 DNA分子 蛋白质分子Protein Machi

6、nes From the Cell to Protein Machines 生物分子至少携带着三种信息 遗传信息 与功能相关的结构信息 进化信息(1)遗传信息的载体DNA遗传信息的载体主要是DNA控制生物体性状的基因是一 系列DNA片段生物体生长发育的本质就是遗 传信息的传递和表达 DNA通过自我复制,在生物体的繁衍过 程中传递遗传信息 基因通过转录和翻译,使遗传信息在生物 个体中得以表达,并使后代表现出与亲代 相似的生物性状。 基因控制着蛋白质的合成 DNARNA蛋白 质转录翻译基因的DNA序列DNA前体RNAmRNA多肽链肽链蛋白质序列对应关系遗传密码(2)蛋白质的结构决定其功能n蛋白质功

7、能取决于蛋白质的空间结构 n蛋白质结构决定于蛋白质的序列(这是 目前基本共认的假设),蛋白质结构的 信息隐含在蛋白质序列之中。(3) DNA分子和蛋白质分子 都含有进化信息n 通过比较相似的蛋白质序列,如肌红 蛋白和血红蛋白,可以发现由于基因复 制而产生的分子进化证据。n通过比较来自于不同种属的同源蛋白质 ,即直系同源蛋白质,可以分析蛋白质 甚至种属之间的系统发生关系,推测它 们共同的祖先蛋白质。生物分子信息DNA序列数据 蛋白质序列数据 生物分子结构数据 生物分子功能数据 最基本直观复杂生物分子数据类型DNA核酸序列蛋白质氨基酸序列蛋白质结构蛋白质功能最基本的生物信息维持生命活 动的机器第一

8、部遗传密码第二部遗传密码?生命体系千姿 百态的变化生物分子数据及其关系n第一部遗传密码已被破译,但对密码的转录过程还不 清楚,对大多数DNA非编码区域的功能还知之甚少n 对于第二部密码,目前则只能用统计学的方法进行分 析n无论是第一部遗传密码,还是第二部遗传密码,都隐 藏在大量的生物分子数据之中。生物分子数据是宝藏, 生物信息数据库是金矿, 等待我们去挖掘和利用。生物分子信息的特征n生物分子信息数据量大 n生物分子信息复杂 n生物分子信息之间存在着密切的联系3、生物信息学的发展历史生物信息学 基本思想的产生 生物信息学的迅速发展二十世纪 50年代二十世纪 80-90年代生物科学和 技术的 发展

9、人类基因组 计划的 推动 n20世纪50年代,生物信息学开始孕育n20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来n20世纪70年代,生物信息学的真正开端n20世纪70年代到80年代初期 ,出现了一系列著名的序列比较方法和生物信息分析方法 n20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库n20世纪90年代后 ,HGP促进生物信息学的迅速发展关于生物信息学发展历程中的重要大事, 请参见下面两个网站的介绍:http:/www.ncbi.nlm.nih.gov/Education /BLASTinfo/milestones.html、http:/www.bios

10、ino.org/bioinformatics/ 。第三节第三节生物信息学主要研究内容生物信息学主要研究内容生物信息学主要研究内容1、 生物分子数据的收集与管理 2、 数据库搜索及序列比较 3、 基因组序列分析 4、基因表达数据的分析与处理 5、蛋白质结构预测 基因组 数据库 蛋白质 序列 数据库 蛋白质 结构 数据库 DDBJEMBLGenBankSWISS-PROT PDBPIR1 1、 生物分子数据的收集与管理生物分子数据的收集与管理2、 数据库搜索及序列比较 n搜索同源序列在一定程度上就是通过序列比较 寻找相似序列 n序列比较的一个基本操作就是比对( Alignment),即将两个序列的

11、各个字符(代 表核苷酸或者氨基酸残基)按照对应等同或者 置换关系进行对比排列,其结果是两个序列共 有的排列顺序,这是序列相似程度的一种定性 描述n多重序列比对研究的是多个序列的共性。序列 的多重比对可用来搜索基因组序列的功能区域 ,也可用于研究一组蛋白质之间的进化关系。 发现同源分子3、 基因组序列分析 n遗传语言分析天书 n基因组结构分析n基因识别n基因功能注释n基因调控信息分析n基因组比较4、基因表达数据的分析与处理n基因表达数据分析是目前生物信息学研究的热点和重点 n目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能 n所用方

12、法主要有:n相关分析方法n模式识别技术中的层次式聚类方法n人工智能中的自组织映射神经网络n主元分析方法 基因芯片层次式聚类二二 维维 电电 泳泳 图图5、蛋白质结构预测 n蛋白质的生物功能由蛋白质的结构所决定 ,蛋 白质结构预测成为了解蛋白质功能的重要途径n蛋白质结构预测分为:n二级结构预测n空间结构预测 蛋白质折叠二级结构预测n在一定程度上二级结构的预测可以归结为模式识别问题 n在二级结构预测方面主要方法有:n立体化学方法n图论方法n统计方法n最邻近决策方法n基于规则的专家系统方法n分子动力学方法n人工神经网络方法 n预测准确率超过70%的第一个软件是基于神经网络的 PHD系统空间结构预测n

13、在空间结构预测方面,比较成功的理论 方法是同源模型法 n该方法的依据是:相似序列的蛋白质倾 向于折叠成相似的三维空间结构 n运用同源模型方法可以完成所有蛋白质 10-30%的空间结构预测工作 第四节生物信息学当前的主要任务 纵观当今生物信息学界的现 状,可以发现,大部分人都 把注意力集中在基因组、蛋 白质组、蛋白质结构以及与 之相结合的药物设计上 1. 基因组 1.1 新基因的发现 通过计算分析从EST(Expressed Sequence Tags)序列库中拼接出完整的新基因编码区, 也就是通俗所说的“电子克隆”;通过计算分析从 基因组DNA序列中确定新基因编码区,经过多年 的积累,已经形成

14、许多分析方法,如根据编码 区具有的独特序列特征、根据编码区与非编码 区在碱基组成上的差异、根据高维分布的统计 方法、根据神经网络方法、根据分形方法和根 据密码学方法等。 1.2 非蛋白编码区生物学意义的分析 非蛋白编码区约占人类基因组的95%,其生物 学意义目前尚不是很清楚,但从演化观点来看, 其中必然蕴含着重要的生物学功能,由于它们并 不编码蛋白,一般认为,它们的生物学功能可能 体现在对基因表达的时空调控上。对非蛋白编码区进行生物学意义分析的策略有 两种,一种是基于已有的已经为实验证实的所有 功能已知的DNA元件的序列特征,预测非蛋白编 码区中可能含有的功能已知的DNA元件,从而预 测其可能

15、的生物学功能,并通过实验进行验证; 另一种则是通过数理理论直接探索非蛋白编码区 的新的未知的序列特征,并从理论上预测其可能 的信息含义,最后同样通过实验验证。 1.3 基因组整体功能及其调节网络的系统把握 把握生命的本质,仅仅掌握基因组中部分基 因的表达调控是远远不够的,因为生命现象是 基因组中所有功能单元相互作用共同制造出来 的。基因芯片技术由于可以监测基因组在各种 时间断面上的整体转录表达状况,因此成为该 领域中一项非常重要和关键的实验技术,对该 技术所产生的大量实验数据进行高效分析,从 中获得基因组运转以及调控的整体系统的机制 或者是网络机制,便成了生物信息学在该领域 中首先要解决的问题

16、。 1.4 基因组演化与物种演化 尽管已经在分子演化方面取得了许多重要的成就,但 仅仅依靠某些基因或者分子的演化现象,就想阐明物种 整体的演化历史似乎不太可靠。例如,智人与黑猩猩之 间有98%-99%的结构基因和蛋白质是相同的,然而表 型上却具有如此巨大的差异,这就不能不使我们联想到 形形色色千差万别的建筑楼群,它们的外观如此不同, 但基础的部件组成却是几乎一样的,差别就在于这些基 础部件的组织方式不同,这就提示我们基因组整体组织 方式而不仅仅是个别基因在研究物种演化历史中的重要 作用。由于基因组是物种所有遗传信息的储藏库,从根 本上决定着物种个体的发育和生理,因此,从基因组整 体结构组织和整体功能调节网络方面,结合相应的生理 表征现象,进行基因组整体的演化研究,将是揭示物种 真实演化历史的最佳途径。 2、蛋白质组 基因组对生命体的整体控制必须通过它所表达的全部 蛋白质来执行,由于基因芯片技术只能反映从基因组到 RNA的转录水平上的表达情况,由于从RNA到蛋白质还有 许多中间环节的影响,因此仅凭基因芯片技术我们还不 能最终掌握

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号