机器学习大作业----机器学习与生物信息学

上传人:第*** 文档编号:31500973 上传时间:2018-02-08 格式:DOC 页数:15 大小:72.68KB
返回 下载 相关 举报
机器学习大作业----机器学习与生物信息学_第1页
第1页 / 共15页
机器学习大作业----机器学习与生物信息学_第2页
第2页 / 共15页
机器学习大作业----机器学习与生物信息学_第3页
第3页 / 共15页
机器学习大作业----机器学习与生物信息学_第4页
第4页 / 共15页
机器学习大作业----机器学习与生物信息学_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《机器学习大作业----机器学习与生物信息学》由会员分享,可在线阅读,更多相关《机器学习大作业----机器学习与生物信息学(15页珍藏版)》请在金锄头文库上搜索。

1、机 器 学 习 大 作 业机 器 学 习 与 生 物 信 息 学 摘 要本文首先介绍了生物信息学的概念、产生的背景、主要的研究方法、研究方向以及机器学习的相关概念。然后通过比较两者所需解决的问题得到机器学习在解决生物信息学相关问题方面可以得到应用,并结合现实的应用,介绍了机器学习在生物信息学各方面的现实已有应用。最后对两者关系进行总结,得出两者在未来会相互促进、共同发展。关键字:生物信息学 机器学习 目 录第一章 生物信息学的基本概念以及产生背景 .11.1 生物信息学的定义 .11.2 生物信息学的产生背景 .1第二章 生物信息学的研究方法及一般步骤 .32.1 生物信息学的研究方法 .32

2、.2 研究生物信息学的一般步骤 .3第三章 当前生物信息学的主要研究方向 .43.1 序列比对 .43.2 蛋白质结构比对和预测 .43.3 基因识别非编码区分析研究 .53.4 分子进化和比较基因组学 .53.5 序列重叠群(Contigs )装配 .63.6 遗传密码的起源 .63.7 基于结构的药物设计 .63.8 生物系统的建模和仿真 .63.9 生物信息学技术方法的研究 .73.10 生物图像 .73.11 其他 .7第四章 机器学习与生物信息学 .84.1 机器学习 .84.2 机器学习与生物信息学 .8第五章 结论 .110第 1 章 生物信息学的基本概念以及产生背景1.1 生物

3、信息学的定义生物信息学时生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科:以核酸、蛋白质等生物大分子数据库作为所要研究的对象,并利用数学、信息学、计算机科学等手段,以计算机硬件、软件和计算机网络为主要工具,对数量极其庞大的原始数据进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、探索、比较、分析,从中获取基因编码、基因调控、核苷酸和蛋白质结构功能及其相互关系等理性知识。在大量的信息和知识的基础上,探索生命起源、生物进化以及细胞、器官和个体的发生、发育、病变、衰亡等生命科学中的重大问题,搞清它们的基本规律和时空联系,建立“生物学周期表” 。它

4、通过对生物学实验数据的获取、加工、存储、检索和分析,从而达到揭示数据所蕴含的生物学意义的目的。目前其主要的研究重点为基因组学(Genomics)和蛋白组学(Proteomics)两方面,具体说,是从核酸和蛋白质序列出发,分析序列中表达的结构和功能的生物信息。目前基因组学的研究出现了几个重心转移:一个是将一直基因序列与功能联系在一起的功能基因组学的研究;一个是从作图为基础的基因分离转向以序列为基础的基因分离;三是从研究疾病的起因装箱探索发病机理;四是从疾病诊断转向疾病易感性研究。生物芯片的应用将为上述研究提供最基本和必要的信息和依据,将作为基因组学研究的主要技术支撑。生物信息学的发展为生命科学的

5、进一步突破以及药物研制过程中革命性的改革提供了一个机会。就人类基因组来说,得到序列仅仅是第一步,后一步工作时所谓后基因组时代(post-genome era)的任务,即收集、整理、检索和分析序列中表达的蛋白质的结构和功能信息,找出规律。1.2 生物信息学的产生背景生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解。研究生物细胞的生物大分子的结构与功能很早就已经开始,1866 年孟德尔从实验上提出了假设:基因是以生物成分存在,1871 年 Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA) ,在 Avery 和 McCarty 于

6、 1944 年证明了1DNA 是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而 DNA 是一个次要的角色。1944 年 Chargaff 发现了著名的 Chargaff 规律,即 DNA 中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。与此同时,Wilkins 与 Franklin 用 X 射线衍射技术测定了 DNA 纤维的结构。1953 年 James Watson 和 FrancisCrick 在 Nature 杂志上推测出 DNA 的三维结构(双螺旋) 。DNA 以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按 Chargaff 规律构成双股磷酸糖链之间的碱基对。这

7、个模型表明 DNA 具有自身互补的结构,根据碱基对原则,DNA 中贮存的遗传信息可以精确地进行复制。他们的理论奠定了分子生物学的基础。DNA 双螺旋模型已经预示出了 DNA 复制的规则,Kornberg 于 1956 年从大肠杆菌(E.coli)中分离出 DNA 聚合酶 I(DNA polymerase I) ,能使 4 种 dNTP 连接成 DNA。DNA 的复制需要一个 DNA 作为模板。Meselson 与 Stahl(1958)用实验方法证明了 DNA 复制是一种半保留复制。Crick 于 1954 年提出了遗传信息传递的规律,DNA 是合成 RNA 的模板,RNA 又是合成蛋白质的模

8、板,称之为中心法则(Central dogma) ,这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg 和 Matthai(1963)的努力研究,编码 20 氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组 DNA 的克隆(clone )奠定了基因工程的技术基础。正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然。2001 年 2 月,人类基因组工程测序的完成,使生物信息学走向了一个高潮。由于 DNA 自动测序技术的快速发展, DNA 数据库中的核酸序列公共数据量以每天 106bp 速度增长,生物信息迅速

9、地膨胀成数据的海洋。毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,生物信息学 正是从这一前提产生的交叉学科。粗略地说,该领域的核心内容是研究如何通过对 DNA 序列的统计计算分析,更加深入地理解 DNA 序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释。基因组信息学的关键是读懂 基因组的核苷酸 顺序,即全部基因在染色体上的确切位置以及各 DNA 片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律。它的研究目标是揭示基因组信息结构的复杂性及遗传语言的根本规律 ,解释生命的遗传语言。生物信息学已成为整个

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号