生物信息学课堂

上传人:资****亨 文档编号:181024599 上传时间:2021-04-27 格式:PPT 页数:48 大小:158.50KB
返回 下载 相关 举报
生物信息学课堂_第1页
第1页 / 共48页
生物信息学课堂_第2页
第2页 / 共48页
生物信息学课堂_第3页
第3页 / 共48页
生物信息学课堂_第4页
第4页 / 共48页
生物信息学课堂_第5页
第5页 / 共48页
点击查看更多>>
资源描述

《生物信息学课堂》由会员分享,可在线阅读,更多相关《生物信息学课堂(48页珍藏版)》请在金锄头文库上搜索。

1、1,绪论,什么是生物信息学? 生物信息学的产生 生物信息学发展过程 生物信息学的基本方法 生物信息学的研究内容 生物信息学的应用 基因组信息学的首要任务 生物信息学的重要研究课题 生物信息学的商业价值 通过学习应逐渐掌握的内容,2,产生(分子生物学研究中获得的大量数据,收集(数据库,维护(产生高质量数据,传播(互联网,搜索引擎,分析(主要研究内容,应用(多个领域,什么是生物信息学,主要由数据库、计算机网络和应用软件三大部分构成,3,定义,收集、维护、传播、分析以及利用在分子生物学研究中获得的大量数据。生物信息学(bioinformatics)是生物学与计算机科学以及应用数学等学科相互交叉而形成

2、的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。由于当前生物信息学发展的主要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。现代分子生物学的发展,特别是人基因组计划的实施,使生物学家所面对的数据不再是实验记录本上或文献上的几行简单数字,而是公共数据库中数以千兆计的记录,4,基因组信息是生物信息中最基本的表达形式,并且基因

3、组信息量在生物信息量中占有极大的比重,但是,生物信息并不仅限于基因组信息,生物信息学也不等于是基因组信息学。广义的说,生物信息不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产物(蛋白质或RNA)的结构和功能及各生物种间的进化关系等其他信息资源,定义,5,生物信息学的产生,80年代未人类基因组计划(Human genome project)的启动 生物实验和衍生数据的大量储存 涉及生物学、数学、计算机科学和工程学,依赖于计算机科学、工程学和应用数学的基础 建立、更新生物数据库及获取生物数据而联合使用多项计算机科学技术的应用性学科 不仅仅是只限于生物信息学这一概念的理论性学科。事实

4、上,它是一门理论概念与实践应用并重的学科 bioinformatics这一名词在1991年左右才在文献中出现,还只是出现在电子出版物的文本中,6,生物信息学的产生,世纪后期,生物科学技术迅猛发展,无论从数量上还是从质量上都极大地丰富了生物科学的数据资源。数据资源的急剧膨胀迫使人们寻求一种强有力的工具去组织这些数据,以利于储存、加工和进一步利用。而海量的生物学数据中必然蕴含着重要的生物学规律,这些规律将是解释生命之谜的关键,人们同样需要一种强有力的工具来协助人脑完成对这些数据的分析工作。 另一方面,以数据分析、处理为本质的计算机科学技术和网络技术迅猛发展,并日益渗透到生物科学的各个领域。于是,一

5、门崭新的、拥有巨大发展潜力的新学科生物信息学悄然兴起,生物信息学=生物学数据+计算机科学技术+网络技术,7,生物信息学发展过程,早在年,在美国田纳西州盖特林堡召开的首次“生物学中的信息理论研讨会”上,便产生了生物信息学的概念。 20世纪50年代末 数学模型、统计学方法和计算机处理宏观生物学数据。数量分类学、数学生态。 年,这一学科被正式命名为“生物信息学”(bioinformatics)。此后,其内涵随着研究的深入和现实需要的变化而几经更迭。 应用于分子生物学:分子生物学数据库、蛋白质结构分析与预测。 年,在美国人类基因组计划第一个五年总结报告中,给出了一个较为完整的生物信息学定义 人类基因组

6、计划(human genome project,HGP):1990年启动,10年时间完成草图(3x10e9个碱基对,并对30,000多个基因进行了注释)。 越来越多的微生物和其他模式生物也完成了全基因组测序工作,8,生物信息学的发展过程,大致经历了3个阶段: 前基因组时代-生物数据库的建立、检索工具的开发、DNA和蛋白质序列分析、全局和局部的序列对位排列; 基因组时代-基因寻找和识别、网络数据库系统的建立、交互界面的开发; 后基因组时代-大规模基因组分析、蛋白质组分析,9,生物信息学的重要性,生物信息学不仅是一门学科,更是一种重要的研究开发工具。 从科学的角度来讲,生物信息学是一门研究生物和生

7、物相关系统中信息内容与信息流向的综合系统科学。只有通过生物信息学的计算处理,人们才能从众多分散的生物学观测数据中获得对生命运行机制的系统理解。 从工具的角度来讲,生物信息学几乎是今后所有生物(医药)研究开发所必需的工具。只有根据生物信息学对大量数据资料进行分析后,人们才能选择该领域正确的研发方向。 生物信息学不仅具有重大的科学意义,而且具有巨大的经济效益。它的许多研究成果可以较快地产业化,成为价值很高的产品,10,生物信息学的基本方法,建立生物数据库:核苷酸顺序数据库(GENBANK)、Protein Data Bank(PDB)、氨基酸顺序数据库(SWISS-PRO)、酵母基因组数据库(YE

8、ASTS)、美国种质保藏中心(ATCC)、美国专利局数据库(USPO)。 数据库检索:Blast 序列分析:序列对位排列、同源比较、进化分析。 统计模型:如隐马尔可夫模型(hidden Markov model, HMM)-基因识别、药物设计。最大似然模型(maximun likelihood model, ML)、 最大简约法(Maximun Parsimony, MP)-分子进化分析。 算法:如自动序列拼接、外显子预测和同源比较、遗传算法、人工神经网络(artificial neural network,11,生物信息学的研究内容,对基因组研究相关生物信息的获取、加工、存储、分配、分析和解

9、释: 一是对海量数据的收集、整理与服务,即管理好这些数据; 二是从中发现新的规律,也就是使用好这些数据。 具体地说,生物信息学是把基因组(脱氧核糖核酸)序列信息分析作为源头,找到基因组序列中代表蛋白质和(核糖核酸)基因的编码区。同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在序列中的遗传语言规律。在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化等的规律,12,生物信息学的研究内容,获取人和各种生物的完整基因组 基因组注释:新基因、单核苷酸多态(SNP). 基因组中非编码区信息结构分析 在基因组水平研究生物进化 完整基因组的

10、比较研究 从功能基因组到系统生物学 蛋白质结构模拟与药物设计,13,生物信息学的研究内容,获取人和各种生物的完整基因组 基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有亿个碱基,而现在的测序仪每个反应只能读取几百到上千个碱基。这样,要得到人的全部遗传密码,首先要把人的基因组打碎,测完一个个小段的序列后再把它们重新拼接起来。而基因组大规模测序的每一个环节,都同信息分析紧密相关,每一步都紧密依赖于生物信息学的软件和数据库,14,生物信息学的研究内容,实验数据 -转换为-计算机信息 高度自动化的实验数据的获得、加工和整理如何将实验室中得到的生物学信息转化为计算机能够处理的数字信息,是生物信

11、息学的一个重要课题。这种转化大量地体现在各种自动化分子生物学仪器应用上,如DNA测序仪,PCR仪等。这类仪器将实验所得的物理化学信号转化为数字信息,并对其作简单分析,再将分析结果用于实验条件的控制,完成高度自动化的实验过程。从事大规模EST测序和DNA物理图谱构建的实验室都已建立起高度自动化的机器人系统来完成大部分的实验工作,15,数据管理系统 伴随着实验过程的高度自动化甚至工厂化,从事大规模分子生物学项目的实验室,每天需要存储的数据可以轻易地超过几千兆字节。这样大的数据量必须用专门的实验室数据管理系统进行处理,以自动完成包括实验进程和数据的记录,常规数据分析,数据质量检测和问题的自动查找,常

12、规的数据说明和数据输人数据库在内的各项工作。由于不同实验室需处理的数据类型各不相同,很多实验室都是各自开发自己的系统。随着测序逐渐成为实验室的常规工作,对这种系统的需求会越来越大,生物信息学的研究内容,16,生物信息学的研究内容,序列片段的拼接 DNA自动测序仪每个反应只能测序500bP左右。如何将这些序列片段拼接成完整的DNA顺序就成为接下来的一个重要工作。传统的测序技术通常将克隆进行亚克隆并对亚克隆进行排序。这些工作需要大量的人力物力。现在生物信息学提供了自动而高速地拼接序列的算法,即根据Lander-Waterman模型利用鸟枪法进行测序,再将大量随机测序的片段用计算机进行自动拼接。这种

13、技术不仅避免了亚克隆排序所需的大量繁琐的工作,还使序列具有一定的冗余性以保证序列中每个碱基的准确性。序列拼接算法的进一步发展,需要在以下方面进行改进:1将已知的基因组知识应用与拼接算法,以进一步提高拼接真核基因组的有效性。2自动处理自动测序造成的差错,特别是对差错倾向的EST顺序更是如此,17,目前最为常见的基因测序方法是鸟枪法(Shotgun method)。鸟枪法测序的结果使我们只能得到大量的随机的基因片段 更廉价和更高效的新一代测序技术,基因片段越来越短,基本上是25-30个碱基对的片段,与以前的长达几百几千的基因拼接在算法上就有了差异性。为了能够在超短序列上拼接出完整的基因序列,就必须

14、加大测序的覆盖率,这样将会导致庞大的初始序列文件,通常达到了GB级别。最新的序列拼接软件ALLPATHS V3.0 需要至少32GB的内存,这种昂贵的代价是一般机器无法提供的。 超短基因片段导致了大量的overlap(重叠区域),这将是传统的拼接算法所无法承受的计算量。还有大量的repeat(重复区域)也将使传统的算法更加的不可靠。同时初始文件的庞大导致传统的内存算法已经不再适用,生物信息学的研究内容,序列片段的拼接,18,基因区域的预测(基因注释) 在完成序列的拼接后,我们得到的是很长的DNA序列,甚至可能是整个基因组的序列。这些序列中包含着许多未知的基因,下一步就是将基因区域从这些长序列中

15、找出来。 所谓基因区域的预测,一般是指预测DNA顺序中编码蛋白质的部分,即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(如TATA box和加尾信号)的认识,预测出可能的完整基因,生物信息学的研究内容,19,基因组注释 有了完整基因组,人类对自身的认识就更为细致、更为精确。比如:发现在我们的基因组中真正编码蛋白质(称为外显子)等的部分很少,只占11;外显子与外显子之间的区域(称为内含子)占了24;而基因与基因之间的间隔序列却占了75,也就是说在人类基因组中不编码蛋白质的区域占了绝大部分。发现人类编码蛋白的基因

16、较之其它生物体的基因更为复杂,有更为丰富的剪接方式。发现基因组中片段重复现象很普遍。发现人的第13号染色体比较稳定,而男性的第12号染色体和女性的第16号染色体是易变的,等等,生物信息学的研究内容,20,发现新基因 发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。比如:啤酒酵母完整基因组所包含的约6000个基因,大约60是通过信息分析得到的,生物信息学的研究内容,Example: Take a protein sequence and use it as a query in a blastp search of the nr database at NCBI If there is a match with less than 100% identity If there is a match with100% identity, but to a different species,21,发现新基因 -(1)基因的电脑克隆 利用 E ST数据库发现新基因也被称为基因的电脑克隆。 E ST序列是基因表达的短 c DNA序列,它们携带着完整基因的某些

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号