第一章 生物信息学绪论讲解

上传人:今*** 文档编号:106695541 上传时间:2019-10-15 格式:PPT 页数:48 大小:8.66MB
返回 下载 相关 举报
第一章 生物信息学绪论讲解_第1页
第1页 / 共48页
第一章 生物信息学绪论讲解_第2页
第2页 / 共48页
第一章 生物信息学绪论讲解_第3页
第3页 / 共48页
第一章 生物信息学绪论讲解_第4页
第4页 / 共48页
第一章 生物信息学绪论讲解_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《第一章 生物信息学绪论讲解》由会员分享,可在线阅读,更多相关《第一章 生物信息学绪论讲解(48页珍藏版)》请在金锄头文库上搜索。

1、生物信息学,西北农林科技大学农学院遗传教研组,主要教学内容,第一章 生物信息学导论,第一节 引言 第二节 生物信息学的发展历史 第三节 生物信息学的主要研究内容 第四节 生物信息学的方法和技术 第五节 生物信息学的前景展望,第一节 引 言,生命信息的组织、 传递、表达,物理,化学,分子 生物学,遗传学,信息技术,1、 生物信息学概念,HGP 生物数据的激增 (每15个月翻一番),生物学家,数学家,计算机 科学家,生物信息学 (bioinfomatics) 的诞生,概念(广义),生物体系和过程中信息 的存贮、传递和表达,细胞、组织、器官的生理、病理 、药理过程的中各种生物信息,信息科学,生 命

2、科 学 中 的 信 息 科 学,概念(狭义),生物 分子数据,深层次 生物学知识,分子生物信息学 Molecular Bioinformatics,挖掘,获取,生物分子信息的获取、存贮、分析和利用,Bioinformatics,定义:以数据库为载体,利用数学知识建立计算模型,以计算机为工具对实验生物学中获得的大量数据进行存储、处理、分析和检索,并以生物学知识对结果进行解释,揭示蕴藏在DNA和蛋白序列中的生物遗传本质。,2、分子生物信息,细胞,分子,存贮、复制、传递和表达 遗传信息的系统,生物信息的载体,生物信息学主要研究两种信息载体 DNA分子 蛋白质分子,From the Cell to P

3、rotein Machines,基因的DNA序列,DNA,前体RNA,mRNA,多肽链,蛋白质序列,对 应 关 系,遗 传 密 码,生物分子至少携带着三种信息 遗传信息 功能相关的结构信息 进化信息,生物分子信息的特征,生物分子信息数据量大 生物分子信息复杂 生物分子信息之间存在着密切的联系,3、生物信息学的目标和任务,收集和管理生物分子数据 数据分析和挖掘 开发分析工具和实用软件 生物分子序列比较工具 基因识别工具 生物分子结构预测工具 基因表达数据分析工具,生物分子信息处理流程,表1.1 至2001年初已经得到的各类数据及基本数据处理任务,4、生物信息学研究意义,认识生物本质 了解生物分子

4、信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。 改变生物学的研究方式 改变传统研究方式,引进现代信息学方法 博物学-实验性学科-设想、实验验证 在医学上的重要意义 为疾病的诊断和治疗提供依据 为设计新药提供依据,生物信息学将是21世纪生物学研究的核心工具,生物信息学与实验生物学的关系,实验生物学(传统生物学or现代生物学):是实验性的;为生物信息学提供相应的数据 生物信息学:生物信息的搜集、整理、注释、管理;建立并利用生物信息学数据库;开发生物信息学软件;研究生物信息学算法 生物信息学对实验数据分析与利用的结果,为进一步合理、有效地设计实验方案,研究方向等提供有力的指导和合理的建议

5、。使得新的生物学研究的出发点是理论的 生物信息学分析的结果必须通过生物实验科学来进一步验证 二者是相互依赖,相互促进的关系,第二节 生物信息学的发展历史,生物信息学 基本思想的产生,生物信息学 的迅速发展,二十世纪 50年代,二十世纪 80-90年代,生物科学和 技术的 发展,人类基因组 计划的 推动,20世纪50年代,生物信息学开始孕育 “生物学中的信息理论讨论会” 20世纪60年代,生物分子信息=计算生物学+计算机科学 20世纪70年代,生物信息学的真正开端 20世纪70年代到80年代初期 ,出现了一系列著名的序列比较方法和生物信息分析方法 20世纪80年代以后,出现一批生物信息服务机构和

6、生物信息数据库 正式定名 bioinformatics 美国:NCBI 欧洲:EMBL 日本:DDBJ 20世纪90年代后 ,HGP促进生物信息学的迅速发展,关于生物信息学发展历程中的重要大事,请参见下面两个网站的介绍: http:/www.ncbi.nlm.nih.gov/Education/BLASTinfo/milestones.html http:/www.biosino.org/bioinformatics/。,生物信息学国内外发展现状,PubMed中与生物信息学相关论文统计,9000,2%,模式生物的基因组测序,酵母,大肠杆菌,果蝇,线虫,老鼠,3 Mb,30 Mb,400 Mb,

7、3000 Mb,人类基因组计划,随着实验数据和可利用信息急剧增加,信息的管理和分析成为HGP的一项重要的工作,发现生物学 规律,,解读生物 遗传密码,认识生命的本质,研究基因组数据 之间的关系,分析现有的 基因组数据,利用数学模型 和人工智能技术,第三节 生物信息学主要研究内容,1、生物分子数据的收集与管理 2、数据库搜索及序列比较 3、基因组序列分析 4、基因表达数据的分析与处理 5、蛋白质结构与功能预测 6、代谢途径分析与解析,基因组 数据库,蛋白质 序列 数据库,蛋白质 结构 数据库,DDBJ,EMBL,GenBank,SWISS-PROT,PDB,PIR,1、 生物分子数据的收集与管理

8、,2、 数据库搜索及序列比较,搜索同源序列在一定程度上就是通过序列比较寻找相似序列 序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述 多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。,3、 基因组序列分析,遗传语言分析天书 获得物种整套遗传密码。如:细菌、人、水稻、拟南芥、小麦。“鸟枪法” 基因组结构分析 非编码蛋白(内含子)和编码蛋白(外显子)、转录因子 基因识别 新

9、基因的发现、基因单核苷酸多态性(SNP)分析 基因功能注释 基因调控信息分析 基因组比较 生命起源?进化?生命体至少要多少基因?基因如何表现为生命?如:人鼠基因组(300Mbp)、数目、大部分同源。鼠ch1分布到人ch1、2、5、6、8、13、18,基因排列差异造成系统发育差异。,4、基因表达数据的处理与分析,基因表达数据分析是目前生物信息学研究的热 点和重点 基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能 所用方法主要有: 相关分析 模式识别技术中的层次式聚类方法 人工智能中的自组织映射神经网络 主元分析方法,5、蛋白质结构与功能预

10、测,蛋白质的生物功能由蛋白质的结构所决定 ,蛋白质结构预测成为了解蛋白质功能的重要途径。 蛋白质结构预测分为: 二级结构预测 空间结构预测,蛋白质折叠,第四节 生物信息学的方法和技术,1、数学统计方法 2、动态规划方法 3、机器学习与模式识别技术 4、数据库技术及数据挖掘 5、人工神经网络技术 6、专家系统 7、分子模型化技术 8、生物分子的计算机模拟 9、 因特网(Internet)技术,1、数学统计方法,生物活动常常以大量、重复的形式出现,既受到内在因素的制约,又受到外界环境的随机干扰。因此概率论和数学统计是现代生物学研究中一种常用的分析方法 数据统计、因素分析、多元回归分析是生物学研究必

11、备的工具 隐马尔科夫模型(Hidden Markov Models)在序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链(Markov Chain),2、动态规划方法,动态规划(Dynamic Programming)是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法 动态规划解决问题的基本过程是: 将一个问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推进,“局部”逐渐接近“全局”,最终获得全局最优解,3、机器学习与模式识别技术,机器学习 机器学习是模拟人类的学习过程,以计算机为工具获取知识、积累经验 遗传算法采用随机搜索方法,具有自适应能力和便于并

12、行计算 神经网络的理论是基于人脑的结构,其目的是揭示一个系统是如何向环境学习的,这一种方法被称为联接主义。 模式识别 模式识别是机器学习的一个主要任务。模式是对感兴趣客体定量的或者结构的描述,而模式识别就是利用计算机对客体进行鉴别,将相同或者相似的客体归入同种类别中 根据对象的统计特征进行识别 根据对象的结构特征进行识别,4、数据库技术及数据挖掘,数据库技术 数据仓库 虚拟数据库技术(Virtual Database,简称 VDB) 数据挖掘(data mining) 又称作数据库中的知识发现 (Knowledge Discovery in Database),它是从数据库或数据仓库中发现并提

13、取隐藏在其中的信息的一种新技术,它能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式 数据挖掘过程一般分为4个基本步骤:数据选择、数据转换、数据挖掘和结果分析,5、人工神经网络技术,人工神经网络(Artificial Neural Network, 简称ANN)是通过模拟神经元的特性以及脑的大规模并行结构、信息的分布式和并行处理等机制建立的一种数学模型 在生物信息学中,使用得最多的是反向传播神经网络(Back Propagation Neural Network,简称BP网)。BP网被认为是稳定性较强的人工神经网络

14、之一,而且属于有监督学习的网络模型。标准的BP网由三层神经元组成:输入层、隐藏层和输出层,6、专家系统,专家系统(Expert System)是一种基于知识的智能系统,它将领域专家的经验用一定的知识表示方法表示出来,并放入知识库中,供推理机使用 知识库是专家系统的第一重要组成部分,知识库中的知识通常分为两类: 一类领域的事实性知识,或广泛公用的知识 另一类是启发性知识,是领域专家在长期研究和实践过程中积累起来的经验总结 知识获取方式大致上可以分为两种: 一种是由知识工程师向领域专家询问有关知识,经过整理编辑后将知识转换成计算机表示形式,送入知识库 另一种是针对大量数据进行机器学习,分析、总结和

15、抽取出有用的新知识,这是更高层次的知识获取方式。 专家系统的另一个重要部分是推理机,由它来控制和协调整个系统,并根椐当前输入的数据和知识,按一定的推理策略,去解决当前的问题,推导出结论,7、分子模型化技术,分子模型化(Molecular modeling)是利用计算机模拟分子结构、研究分子之间相互作用的一种技术 分子模型化是进行分子设计的基础。分子图形学(Molecular Graphics)是进行分子模型化的一项重要技术,正是由于分子图形学和其它计算化学方法(如分子力学、分子动力学)的相互结合,才使得分子模型化方法取得成功,8、生物分子的计算机模拟,生物分子的计算机模拟就是从分子或者原子水平

16、上的相互作用出发,建立分子体系的数学模型,利用计算机进行模拟实验,预测生物分子的结构和功能,预测动力学及热力学等方面的性质 分子动力学和蒙特卡罗方法(Monte Carlo method)是两种最常用的技术,另一种模拟方法是模拟退火方法,9、因特网(Internet)技术,Internet已经成为生物学研究的平台,同时也成为分子生物学研究人员进行信息交流特别是生物分子数据的交流的场所 通过网络查询或搜索所需要的生物信息,使用分析工具 将所要处理的数据直接送到相应的网络服务器上,服务器接受你的处理请求,并将处理结果返回,第五节 生物信息学的应用及前景,1. 分子进化的研究: 对处于不同进化阶段物种的基因组结构和功能进行比较分析 最终弄清人类3 万个基因的起源和进化、结构和功能的演变 发现其间的亲缘关系,像元素周期表那样把基 因和蛋白质分类、排序,得到生物学的周期表 根据基因在进化树上的位置,或一小段核苷 酸序列,或蛋白质的基序、模块、折叠等,即可预测其来源、

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号