《第一章(更改)-生物信息学教程课件》由会员分享,可在线阅读,更多相关《第一章(更改)-生物信息学教程课件(84页珍藏版)》请在金锄头文库上搜索。
1、生物信息学生物信息学主讲人:彭晓莉课程特点课程特点v多学科交叉,知识覆盖面广:多学科交叉,知识覆盖面广:生物、计算机、数学、物理、化学等生物、计算机、数学、物理、化学等v内容众多,且应用领域宽广:内容众多,且应用领域宽广:涉及从基因组序列分析直到药物设计等涉及从基因组序列分析直到药物设计等v实践环节非常重要:实践环节非常重要:生物信息数据资源与分析工具繁多生物信息数据资源与分析工具繁多v知识更新快:知识更新快:理论方法尚不系统成熟,处于迅速发展变化阶段理论方法尚不系统成熟,处于迅速发展变化阶段v缺乏合适的教材缺乏合适的教材计算机方面计算机方面vv网络技术和数据库(特别是关系型数据库)管理技术网
2、络技术和数据库(特别是关系型数据库)管理技术网络技术和数据库(特别是关系型数据库)管理技术网络技术和数据库(特别是关系型数据库)管理技术vv数据整合和可视化数据整合和可视化数据整合和可视化数据整合和可视化vv数据挖掘(数据挖掘(数据挖掘(数据挖掘(Data MiningData MiningData MiningData Mining)与人工智能)与人工智能)与人工智能)与人工智能vv算法设计算法设计算法设计算法设计vv软件研制软件研制软件研制软件研制数学方面数学方面vv统计学,是生物信息学的数学基础之一统计学,是生物信息学的数学基础之一vv概率论与随机过程理论概率论与随机过程理论vv运筹学,
3、如动态规划法运筹学,如动态规划法vv最优化理论与算法最优化理论与算法vv几何拓扑学几何拓扑学vv函数论,如傅里叶变换,小波变换函数论,如傅里叶变换,小波变换vv信息论,神经网络,计算数学;群论,组合数学等信息论,神经网络,计算数学;群论,组合数学等课程定位课程定位v介绍生物信息学对于生命科学研究及生物技术相关产业发展的重要性v沿着“从生物信息查询、DNA和蛋白质相似性对比、蛋白质结构和功能预测”这一主线,介绍相关的生物信息学研究内容、所涉及的主要方法与研究思路、所取得的研究成果及其解决问题的能力v讲授与研讨相结合,请学有所长的同学参与部分讲授教学计划教学计划v第一章 生物信息学引论 v第二章
4、生物信息学的发展和前景v第三章 常用生物信息学数据库简介 v第四章 生物信息查询v第五章 DNA和蛋白质相似性对比v第六章 蛋白质结构和功能预测 生物信息学实验教学生物信息学实验教学实验1. 使用Oligo和Primer软件设计PCR引物实验2. 常用分子生物学数据库的使用和数据格式、 数据库查询与下载(Entrez. SRS)实验3. 核酸和蛋白质序列的进化分析(CLUSTALX、 MEGA2软件的使用)实验4. 蛋白质序列分析和结构预测主要参考书主要参考书1生物信息学,David W. Mount 著,钟 扬、王 莉、张 亮等译,高等教育出版社,20032 生物信息学基因和蛋白质分析的实用
5、指南(Andreas D.Baxevanis And B.F.Francis Ouellette 著). 李衍达、孙子荣等 译. 北京:清华大学出版社,20003简明生物信息学,钟 扬等 主编. 高等教育出版社,2001探索基因组学、蛋白质组学和生物信息学,孙子荣译. 科学出版社,20044生物信息学方法与实践,张成岗 贺福初 编著. 科学出版社,20025 生物信息学导论,李巍等 主编. 郑州大学出版社, 200 第一章第一章 生物信息学引论生物信息学引论v研究背景研究背景v生物信息学定义生物信息学定义v生物信息学研究内容生物信息学研究内容v生物信息学研究方法生物信息学研究方法研究背景研究背
6、景vv从人类基因组计划(从人类基因组计划(从人类基因组计划(从人类基因组计划(HGPHGP)说起)说起)说起)说起为什么提出为什么提出HGP?1961年,美国总统年,美国总统Kennedy提出两个科学计划提出两个科学计划:登月计划登月计划攻克肿瘤计划攻克肿瘤计划 人类遗传信息的复杂性人类遗传信息的复杂性 人类基因组计划人类基因组计划 (HGP,Human Genome Project) 目标:整体上破解人类遗传信息的奥秘目标:整体上破解人类遗传信息的奥秘目标:整体上破解人类遗传信息的奥秘目标:整体上破解人类遗传信息的奥秘 1、“曼哈顿原子弹计划曼哈顿原子弹计划”历史遗留问题之产物历史遗留问题之
7、产物 2、对生命科学和医学的科学影响、对生命科学和医学的科学影响 二十世纪三大科学计划二十世纪三大科学计划曼哈顿原子弹计划曼哈顿原子弹计划(1942-46)阿波罗登月计划阿波罗登月计划(1961-69)人类基因组计划人类基因组计划(1990-2003)HGPHGP的驱动的驱动 19861986年年ScienceScience上上 Dulbecco RDulbecco R重要文章重要文章“肿瘤研究肿瘤研究的转折的转折 人类基因组的全序列分析人类基因组的全序列分析”。 包括包括肿瘤在内的一切疾病的发生,都与肿瘤在内的一切疾病的发生,都与基因基因相关。是相关。是“零敲碎打零敲碎打”? 还是从整体上研
8、究和分析整个人类还是从整体上研究和分析整个人类基因组基因组?他指出,这个世界上发生的一切事情,都与这人类的他指出,这个世界上发生的一切事情,都与这人类的DNADNA序列相关序列相关。只有弄清人类基因组全部或大部分基因的工作。只有弄清人类基因组全部或大部分基因的工作情况,实施其它计划才有可能。这样的工作是任何一个实情况,实施其它计划才有可能。这样的工作是任何一个实验室难以单独承担的验室难以单独承担的 DNA、基因、基因组、基因、基因组生命活动三要素:物质、能量、信息生命活动三要素:物质、能量、信息DNA: 遗传物质(遗传信息的载体) 双螺旋结构 A, C, G, T四种基本字符的复杂文本 基因(
9、Gene):具有遗传效应的DNA分子片段v基因组(Genome):包含细胞或生物体的全套遗传信息的全部遗传物质 原核生物(细菌、病毒等)真核生物(真菌、植物、动物等) v人类基因组: 3.2109 bp,含有约3万个 基因HGP历史回顾历史回顾v1984.12 犹他州阿尔塔组织会议,初步研讨测定人类整个基v 因组DNA序列的意义v1986.3 Dulbecco在Science撰文 “肿瘤研究的转折点:v 人类基因组的测序” v 美国能源部(DOE)提出“人类基因组计划”草案v1987 美国能源部和国家卫生研究院(NIH)联合为“人类v 基因组计划”下拨启动经费约550万美元v1989 美国成立
10、“国家人类基因组研究中心”,Watson担任v 第一任主任v1990.10 经美国国会批准,人类基因组计划正式启动James WatsonWalter Gilbertv尽管比之于人类登月,尽管比之于人类登月,HGP的投入资金的投入资金要少得多,但要少得多,但HGP对人类生活的影响要对人类生活的影响要更为深远更为深远。因为随着这个计划的完成,。因为随着这个计划的完成,DNA分子中编码的分子中编码的遗传信息将对人类存遗传信息将对人类存在的化学基础作出最终的回答在的化学基础作出最终的回答。这将不仅。这将不仅帮助我们理解我们是如何作为健康的人发帮助我们理解我们是如何作为健康的人发挥正常功能的,而且也将
11、在化学水平上解挥正常功能的,而且也将在化学水平上解释遗传因子在各种疾病,如癌症、早老痴释遗传因子在各种疾病,如癌症、早老痴呆症、精神分裂症等一些严重危害人类健呆症、精神分裂症等一些严重危害人类健康的疾病中的作用。毕竟康的疾病中的作用。毕竟对人类自身更深对人类自身更深入的了解是人类活动中最重要的一个部分。入的了解是人类活动中最重要的一个部分。 Watson ,1990,SciencevHGP的最初目标的最初目标:通过国际合作,用15年时间(19902005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。4张图:
12、遗传图 物理图 序列图 基因图vHGP的终极目标的终极目标阐明人类基因组全部DNA序列识别基因建立储存这些信息的数据库开发数据分析工具研究HGP实施所带来的伦理、法律和社会问题HGP辅助计划辅助计划v在人类基因组计划中,还包括对五种生物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。 1995 第一个自由生物体流感嗜血菌(H. inf)的全基因组测序完成1996 完成人类基因组计划的遗传作图 启动模式生物基因组计划H.Inf 全基因组全基因组 1997 大肠杆菌(E. coli)全基因组测序完成1998 完成人类基因组计划的物理作图 开始人类基因组的大规模测序 C
13、elera公司加入,与公共领域竞争 启动水稻基因组计划 1999.7 第5届国际公共领域人类基因组测序会议,加快测序速度 2000 Celera公司宣布完成果蝇基因组测序 国际公共领域宣布完成第一个植物基因组拟南芥因组的测序工作 2000.6.26 公共领域和Celera公司同时宣布完成人类基因组工作草图 2001.2.15 Nature刊文发表国际公共领域结果 2001.2.16 Science刊文发表Celera公司及其合作者结果At the White House on June 26, Francis Collins (r), Director of the National Huma
14、n Genome Research Institute, President Clinton, and J. Craig Venter, President of Celara Genomics, lauded the thousands of scientists who contributed to the genome sequence.2001年年8月月26日日 人类基因组人类基因组“中国卷中国卷”的绘制工作宣告完成。的绘制工作宣告完成。2002年年 水稻、小鼠、疟原虫等基因组测序完成水稻、小鼠、疟原虫等基因组测序完成 2003年年4月月14日日 中、美、日、德、法、英等中、美、日、德
15、、法、英等6国科学家宣布人类基国科学家宣布人类基因组序列图绘制成功,人类基因组计划的所有目标全部实现。因组序列图绘制成功,人类基因组计划的所有目标全部实现。 2003年年10月,月,2004年年10月人类基因组完成图公布。月人类基因组完成图公布。 vAGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGC
16、ATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGC
17、ATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGA
18、CCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGC
19、ATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATG
20、ACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCG
21、AAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATA 相当于相当于相当于相当于32003200本每本本每本本每本本每本10001000页每页页每页页每页页每页10001000字的字的字的字的“ “天书天书天书天书” ”地球生物圈约有140万余种物种, 其中2以上至少有一段DNA序 列被测定 真核生物 12500 种 哺乳动物 4
22、200 种 真 细 菌 3600 种 古 细 菌 180 种 病 毒 1750 种DNADNA序列数据增长趋势序列数据增长趋势功能基因组研究 功能相关海量数据v转录组EST (Expressed Sequence Tag)SAGE (Serial Analysis of Gene Expression)DNA Microarray large scale gene expression analysisv蛋白质组2D Gel Electrophoresis protein expression analysisMass Spectrometry protein sequencingYeast
23、Two-Hybrid (Y2H) System protein interaction analysisv结构基因组X-ray CrystallographyNMR (Nuclear Magnetic Resonance) Spectroscopy基因表达谱数据增长趋势基因表达谱数据增长趋势The Yeast The Yeast cDNAcDNA Microarray Picture Microarray Picture蛋白质序列数据增长情况蛋白质序列数据增长情况蛋白质结构数据增长情况蛋白质结构数据增长情况生物分子数据类型生物分子数据类型生物分子信息DNA序列数据 蛋白质序列数据 生物分子结构
24、数据 生物分子功能数据 最基本直观复杂 DNA核酸序列蛋白质氨基酸序列蛋白质结构蛋白质功能最基本的生物信息维持生命活动的机器第一部遗传密码第二部遗传密码?生命体系千姿百态的变化v生物数据爆炸性增长:有人估计得到的结论是:生物数据量的积累已达到人类有史以来所说过的话的数百倍,而且还将以越来越快的速度增长。生物数据爆炸性增长所带来的挑战v海量数据的存储、管理、共享v数据 知识,如何将这些数据变为生物学知识?vAGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCA
25、GCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAG
26、CAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAA 人类基因组以及其它模式生物基因组计划的全面实施,使分子人类基因组以及其它模式生物基因组计划的全面实施,使分子生物数据以爆炸性速度增长。在计算机科学领域,按照摩尔生物数据
27、以爆炸性速度增长。在计算机科学领域,按照摩尔定律飞速前进的计算机硬件,定律飞速前进的计算机硬件,以及逐步受到各国政府重视的以及逐步受到各国政府重视的信息高速公路计划的实施,信息高速公路计划的实施,为生物信息资源的研究和应用带为生物信息资源的研究和应用带来了福音。来了福音。及时、充分、有效地利用网落上不断增长的生物及时、充分、有效地利用网落上不断增长的生物信息数据库资源,已经成为生命科学和生物技术研究开发的信息数据库资源,已经成为生命科学和生物技术研究开发的必要手段。核酸和蛋白质序列、结构、功能分析软件已经成必要手段。核酸和蛋白质序列、结构、功能分析软件已经成为生物学、医学、药物学、农学和环境科
28、学等领域的必备工为生物学、医学、药物学、农学和环境科学等领域的必备工具。具。如何开发和利用生物信息数据,已经成了当今一个前沿如何开发和利用生物信息数据,已经成了当今一个前沿领域和研究热点。面对这种形势,一门新兴的边缘学科领域和研究热点。面对这种形势,一门新兴的边缘学科- -生生物信息学应运而生。物信息学应运而生。 What is Bioinformatics ?What is Bioinformatics ?v美国国家卫生研究院(美国国家卫生研究院(NIH)的定义:)的定义: Bioinformatics Bioinformatics (Research, development, or ap
29、plication of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data.) 为拓展生物学、医学、行为学和卫生学数据的用途,而进行有为拓展生物学、医学、行为学和卫生学数据的用途,而进行有关计算机方法手段的研究、开发与应用,包括此类数据的采关计算机方法手段的研究
30、、开发与应用,包括此类数据的采集、存贮、整理、归档、分析与可视化集、存贮、整理、归档、分析与可视化What is Bioinformatics ?v广义定义:泛指任何与运用计算机及其网络和数据库进行大规模生物数据的收集,组织管理和分析相关的研究领域v狭义定义:指用计算机的手段和方法来对生物遗传的信息和数据进行管理和分析v生物信息学生物信息学(Bioinformatics)的来源vDr. Hwa A. Lim (林华安)(林华安)1987年提出年提出 “Bio-informatique” “Bioinformatics” v1955年出生于马来西亚。联合国年出生于马来西亚。联合国Bioinfor
31、matics专家,专家,University of Texas at Dallas分子与细胞生物学分子与细胞生物学Adjunct Professor、中国科学院基因遗传研究所客座教授。中国科学院基因遗传研究所客座教授。1981年年英国伦敦大学帝国学院英国伦敦大学帝国学院(Imperial College, London University)毕业,毕业,1986年获得美国年获得美国Rochester University生化物理学博士学位,生化物理学博士学位,30岁取得佛罗里达州立大学终生教授。岁取得佛罗里达州立大学终生教授。1992年年受聘担任美国国家癌症中心及美国国家科学基金受聘担任美国国
32、家癌症中心及美国国家科学基金会审核委员。会审核委员。1995年后,历任多家生物科技公年后,历任多家生物科技公司生化信息执行长、副总裁等高层管理职位。司生化信息执行长、副总裁等高层管理职位。1997年,创立结合软件与数据分析的专业顾问年,创立结合软件与数据分析的专业顾问公司公司D Trends,服务生物技术、制药及卫生保,服务生物技术、制药及卫生保健等机构健等机构v林华安最近又将林华安最近又将Biothechnology、Information结合纳米科技(结合纳米科技(Nano),提出),提出 Binformatics(生纳信息学)(生纳信息学)生物信息学之父生物信息学之父林华安林华安v生物信
33、息学生物信息学 一门新兴的交叉学科一门新兴的交叉学科 (1). 新兴的交叉学科新兴的交叉学科 Molecule biology; Computer science; Informatics science; Mathematics, Physics etc. (2). 生物信息学和其它生物学科研究的关系生物信息学与其他学科之间的关系生物学分子生物学医学生物信息学数学统计学计算机学计算机网络前基因组时代的前基因组时代的“钓鱼钓鱼”和后基因组时代的和后基因组时代的“捞鱼捞鱼” When I give talks to young scientists seeking advice about ar
34、eas of future intense scientific excitement, bioinformatics is my number one recommendation.Francis CollinsFrancis Collins, Director of HGP at NIH The next step in the project is the “interpretation phase”. That is really the fun part of the whole project because then we finally have the complete or
35、der of all layers of genetic codes and we have to discover what it all means.J. Craig VenterJ. Craig Venter, Head of Celera Genomics Inc. v生物信息学的研究内容生物信息学的研究内容 v 1. 1. 基因组信息学基因组信息学 1). 1). 基因组信息的收集、存储、管理与提供基因组信息的收集、存储、管理与提供 2). 2). 基因组序列信息的提取和分析基因组序列信息的提取和分析 基因的发现与鉴定;非基因的发现与鉴定;非编码区的信息结构分析等编码区的信息结构分析
36、等 3). 3). 基因组信息分析方法与技术的研究基因组信息分析方法与技术的研究 4). 4). 应用与发展研究应用与发展研究v 2. 2. 蛋白质空间结构模拟与预测蛋白质空间结构模拟与预测 1). 1). 分子模拟技术分子模拟技术 2). 2). 蛋白质空间结构预测蛋白质空间结构预测 v3. 3. 药物分子设计药物分子设计 1). 1). 靶分子的确定靶分子的确定 2). 2). 药物分子设计药物分子设计v4. 4.基因表达的调控基因表达的调控, ,基因功能的预测基因功能的预测; ; 芯片表达芯片表达, ,数据分析等数据分析等v5. 5.分子的进化、生物的起源分子的进化、生物的起源v6.Ne
37、twork, Pathway6.Network, Pathway(分子调控网络、复杂疾病分子网络)等(分子调控网络、复杂疾病分子网络)等基因组研究的内容:基因组研究的内容:结构基因组学(结构基因组学(structural genomicsstructural genomics)功能基因组学(功能基因组学(functional genomics)functional genomics)结构基因组学(结构基因组学(structural genomicsstructural genomics): :以以全基因组测序为目标全基因组测序为目标,弄清基因组中全部基因的位置和结构,弄清基因组中全部基因的位置
38、和结构,为基因功能的研究奠定基础为基因功能的研究奠定基础目的:建立高分辨的遗传图谱、物理图谱、转录图谱和序列图目的:建立高分辨的遗传图谱、物理图谱、转录图谱和序列图谱谱功能基因组学(功能基因组学(functional genomics)functional genomics):以以基因功能鉴定为目标基因功能鉴定为目标,利用结构基因组学提供的信息,以高利用结构基因组学提供的信息,以高通量,大规模实验方法及统计与计算机分析为特征,通量,大规模实验方法及统计与计算机分析为特征,全面系全面系统地分析全部基因的功能统地分析全部基因的功能。研究角度包括:生物学功能、细。研究角度包括:生物学功能、细胞学功能
39、、发育学功能等胞学功能、发育学功能等遗传图谱遗传图谱物理图谱物理图谱转录图谱转录图谱序列图谱序列图谱1结结构构基基因因组组学学结构基因组学结构基因组学遗传图谱:遗传图谱:指基因或指基因或DNA标标志在染色体上的相对位置与遗志在染色体上的相对位置与遗传距离传距离。CM表示(基因或表示(基因或DNA片段在染色体交换过程片段在染色体交换过程中分离的频率)。通过该图谱中分离的频率)。通过该图谱可分清各基因或可分清各基因或DNA片段之片段之间的相对距离与方向,如靠近间的相对距离与方向,如靠近着丝粒或端粒着丝粒或端粒水稻1号染色体结构基因组学结构基因组学物理图谱:物理图谱:指指DNA序列序列上两点间的实际
40、距离上两点间的实际距离。用于确定各遗传标志间用于确定各遗传标志间的物理距离有两种物理的物理距离有两种物理图谱:(图谱:(1)以已定位)以已定位的的DNA序列标记位点序列标记位点(STS)为位标,以)为位标,以DNA实际长度为图谱距实际长度为图谱距离的基因组图谱。离的基因组图谱。(2)由)由YAC和和/或细菌或细菌人工染色体(人工染色体(BAC)连)连续克隆重叠群组成的物续克隆重叠群组成的物理图谱理图谱结构基因组学结构基因组学转录图谱:转录图谱:以以EST为位标,根据转录顺序的位置和距离为位标,根据转录顺序的位置和距离绘制的图谱,它是染色体绘制的图谱,它是染色体DNA某一区域内所有可转录序某一区
41、域内所有可转录序列的分布图,是基因图的雏形列的分布图,是基因图的雏形结构基因组学结构基因组学人人基因组基因组 1号染色体局部号染色体局部序列图谱:序列图谱:以某一染色体上所含的全部碱基顺序绘制的图谱。以某一染色体上所含的全部碱基顺序绘制的图谱。基因组测序Complete Published Genome Projects: 226古细菌(古细菌(Archaeal):19 细菌(细菌(Bacterial):178 真核(真核(Eukaryal):29http:/www.genomesonline.org/与HGP相关的生物信息学研究内容v高度自动化的实验数据的获得、加工和整理高度自动化的实验数据
42、的获得、加工和整理 v序列片段的拼接序列片段的拼接 v基因区域的预测基因区域的预测 v基因功能预测基因功能预测 v分子进化的研究分子进化的研究 高度自动化的实验数据的高度自动化的实验数据的获得、加工和整理获得、加工和整理v如何将实验室中得到的生物学信息如何将实验室中得到的生物学信息转化为转化为计计算机能够处理的算机能够处理的数字信息数字信息,是生物信息学的,是生物信息学的一个重要课题。一个重要课题。序列片段的拼接v目前目前DNA自动测序仪每个反应只能测序自动测序仪每个反应只能测序600bP左右。如何左右。如何将将这些这些序列片段拼接成完序列片段拼接成完整的整的DNA顺序顺序就成为接下来的一个重
43、要工作。就成为接下来的一个重要工作。基因区域的预测基因区域的预测v基因区域的预测,基因区域的预测,一般是指预测一般是指预测DNA顺序中编码蛋白质的部分,即外显顺序中编码蛋白质的部分,即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信。这些预测综合各种外显子预测的算法和人们对基因结构信号(如号(如 TATA box和加尾信号)的认识,预测出可能的完整基因。预测和加尾信号)的认识,预测出可能的完整基因。预测外显子的基本算法:外显子的基本算法:v早期
44、有早期有ORF(open reading frame)法)法v核苷酸语汇核苷酸语汇(nucleotide words,即数个连续核苷酸的排列),即数个连续核苷酸的排列) v法则系统(法则系统( rulebased systm) v语言学(语言学(linguistic)系统)系统 v线性判别分析(线性判别分析(Linear Discriminant Analysis, LDA)v决策树(决策树(decision tree);); spliced alignment算法算法 v傅利叶分析(傅利叶分析(Fourier analysis)等。)等。 基因功能预测基因功能预测v序列同源比较:序列同源比较
45、往往是得到新基因后预测其功序列同源比较:序列同源比较往往是得到新基因后预测其功能的第一步。能的第一步。v同源比较的同源比较的 3种流行的算法:种流行的算法: SmithWaterman算法,算法,FASTA和和BLAST算法有各自的优缺点。算法有各自的优缺点。同源比较算法中一个需要继续发展的方面是同源比较算法中同源比较算法中一个需要继续发展的方面是同源比较算法中使用的使用的计分矩阵的完善计分矩阵的完善,特别是间隔的计分方法的研究。,特别是间隔的计分方法的研究。需要解决的另一个问题是需要解决的另一个问题是目前数据库中部分数据的冗余度太目前数据库中部分数据的冗余度太高高。特别是。特别是EST库,某
46、些基因甚至有数千条库,某些基因甚至有数千条EST与之对应。与之对应。v寻找蛋白质家族保守顺序寻找蛋白质家族保守顺序 :通过同源检索通过同源检索,我们可能,我们可能推测推测待检的新基因是某个蛋白质家族的新成员待检的新基因是某个蛋白质家族的新成员,下一步就是寻找下一步就是寻找新基因中包含的该蛋白质家族的保守序列,这样也就为进一新基因中包含的该蛋白质家族的保守序列,这样也就为进一步深入研究其功能作好了准备步深入研究其功能作好了准备多序列同源比较,或称为多序列对齐(多序列同源比较,或称为多序列对齐(multiplesequence alignment),是将多个序列进行同源比较以发),是将多个序列进行
47、同源比较以发现其共同的结构特征的方法,被广泛用来寻找基因家族或蛋现其共同的结构特征的方法,被广泛用来寻找基因家族或蛋白质家族中的保守部分。白质家族中的保守部分。 FengDoolittle算法是较常用的多序列对齐算法。其他的算法是较常用的多序列对齐算法。其他的新算法包括新算法包括 HMM方法,方法,Gibbs sampling以及处理多结以及处理多结构域蛋白质家族的算法。构域蛋白质家族的算法。v蛋白质结构的预测:蛋白质结构的预测:通过基于结构的同源比较(通过基于结构的同源比较(structurestructure alignment)寻找结构同源的基因或直接预测)寻找结构同源的基因或直接预测其
48、高级结构来推测其可能的功能其高级结构来推测其可能的功能。有许多蛋白质高级结构数。有许多蛋白质高级结构数据库提供结构同源比较的检索。另一方面,直接预测基因产据库提供结构同源比较的检索。另一方面,直接预测基因产物的高级结构的算法现在已经有不少,然而,由于蛋白质的物的高级结构的算法现在已经有不少,然而,由于蛋白质的折叠结构实在太复杂,使得计算最佳构象非常困难。折叠结构实在太复杂,使得计算最佳构象非常困难。基因预测基因预测v所要预测的基因类型所要预测的基因类型编码基因(编码基因(protein-coding genes)假基因(假基因(pseudogenes)RNA基因(基因(functional R
49、NA genes)-tRNAtransfer RNA-rRNAribosomal RNA-snoRNAsmall nuclelar RNA-snRNAsmall nuclear RNA-miRNAmicroRNARNA基因预测基因预测v预测软件预测软件 tRNAscan-SE v准确率:准确率:99-100% (tRNA) http:/www.genetics.wustl.edu/eddy/tRNAscan-SE/编码基因预测编码基因预测v几类外显子(几类外显子( exons):- 非翻译区(非翻译区(noncoding)- 启示外显子(启示外显子(initial coding exons)-
50、 中间外显子(中间外显子(internal exons)- 终止外显子(终止外显子(terminal exons)- 单一外显子基因(单一外显子基因(some single-exon genes)基因预测方法基因预测方法同源序列法同源序列法 Homology-based searches依靠以前鉴定的基因序列依靠以前鉴定的基因序列算法预测法算法预测法Algorithm-based searches分析分析DNA组成组成, ORF, 和其他一些属性和其他一些属性 同源序列法同源序列法DNARNARNAproteinintronintronintron算法预测法算法预测法vGENSCAN http
51、:/genes.mit.edu/GENSCAN.html 隐式马尔可夫模型 (HMM)分子进化的研究v预测新基因只是生物信息学研究的一个方面,这门学科的根预测新基因只是生物信息学研究的一个方面,这门学科的根本目标是探究隐藏在生物数据后面的生物学知识。本目标是探究隐藏在生物数据后面的生物学知识。对于基因对于基因组研究来说,一个重要的研究方向就是分子序列的进化组研究来说,一个重要的研究方向就是分子序列的进化。从。从各种基因结构与成分的进化,密码子使用的进化,到进化树各种基因结构与成分的进化,密码子使用的进化,到进化树的构建,各种理论上和实验上的课题都等待生物信息学家的的构建,各种理论上和实验上的课
52、题都等待生物信息学家的研究。研究。 生物信息学研究手段1.数学统计方法数学统计方法 2.动态规划方法动态规划方法 3.机器学习与模式识别技术机器学习与模式识别技术 4.数据库技术及数据挖掘数据库技术及数据挖掘 5.人工神经网络技术人工神经网络技术6.专家系统专家系统 7.分子模型化技术分子模型化技术8.量子力学和分子力学计算量子力学和分子力学计算 9.生物分子的计算机模拟生物分子的计算机模拟10.因特网(因特网(Internet)技术)技术 1、数学统计方法v生物活动常常以大量、重复的形式出现,既受到内在因素的生物活动常常以大量、重复的形式出现,既受到内在因素的制约,又受到外界环境的随机干扰。
53、因此制约,又受到外界环境的随机干扰。因此概率论和数学统计概率论和数学统计是是现代生物学研究中现代生物学研究中一种常用的分析方法一种常用的分析方法 v数据统计、因素分析、多元回归分析是生物学研究必备的工数据统计、因素分析、多元回归分析是生物学研究必备的工具具v隐马尔科夫模型(隐马尔科夫模型(Hidden Markov Models)在序列分析方)在序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链(夫链(Markov Chain) 2.动态规划方法v动态规划(动态规划(Dynamic Programming)是一种解决多阶段决)
54、是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法策过程的最优化方法或复杂空间的优化搜索方法 v动态规划解决问题的基本过程是:将一个问题的全局解分解动态规划解决问题的基本过程是:将一个问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推进,为局部解,逆序递推求出局部最优解,随着执行过程的推进,“局部局部”逐渐接近逐渐接近“全局全局”,最终获得全局最优解,最终获得全局最优解 3.机器学习与模式识别技术v机器学习机器学习机器学习是模拟人类的学习过程,以计算机为工具获取知识、积累经机器学习是模拟人类的学习过程,以计算机为工具获取知识、积累经验验 v1、遗传算法遗传算法采用随机
55、搜索方法,具有自适应能力和便于并行计采用随机搜索方法,具有自适应能力和便于并行计算算 v2、神经网络神经网络的理论是基于人脑的结构,其目的是揭示一个系统的理论是基于人脑的结构,其目的是揭示一个系统是如何向环境学习的,这一种方法被称为联接主义是如何向环境学习的,这一种方法被称为联接主义v模式识别模式识别模式识别主要有两种方法模式识别主要有两种方法:v根据对象的统计特征进行识别根据对象的统计特征进行识别v根据对象的结构特征进行识别根据对象的结构特征进行识别 4、数据库技术及数据挖掘v数据库技术数据库技术 数据仓库数据仓库 虚拟数据库技术(虚拟数据库技术(Virtual Database,简称,简称
56、 VDB) v数据挖掘(数据挖掘(data mining) 又称作数据库中的知识发现又称作数据库中的知识发现 (Knowledge Discovery in Database),它是,它是从数据库或数据仓库中发现并提取隐藏从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术在其中的信息的一种新技术,它能自动分析数据,对它,它能自动分析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、对信息预测和决策行为起着十分重从中发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式要作用的模式 数据挖掘过程一般分为数据挖
57、掘过程一般分为4个基本步骤:个基本步骤:数据选择、数据转数据选择、数据转换、数据挖掘和结果分析换、数据挖掘和结果分析 5、人工神经网络技术v人工神经网络(人工神经网络(Artificial Neural Network, 简称简称ANN)是通过模拟神经元的特性以及脑的大规模并)是通过模拟神经元的特性以及脑的大规模并行结构、信息的分布式和并行处理等机制建立的一行结构、信息的分布式和并行处理等机制建立的一种数学模型种数学模型 v在生物信息学中,使用得最多的是在生物信息学中,使用得最多的是反向传播神经网反向传播神经网络络(Back Propagation Neural Network,简称,简称BP
58、网网)。)。BP网被认为是稳定性和鲁棒性较强的人工神网被认为是稳定性和鲁棒性较强的人工神经网络之一,而且属于有监督学习的网络模型。标经网络之一,而且属于有监督学习的网络模型。标准的准的BP网由三层神经元组成:输入层、隐藏层和输网由三层神经元组成:输入层、隐藏层和输出层出层 6、专家系统v专家系统(专家系统(Expert System)是一种基于知识的智能系统,它将领域专是一种基于知识的智能系统,它将领域专家的经验用一定的知识表示方法表示出来,并放入知识库中,供推理机家的经验用一定的知识表示方法表示出来,并放入知识库中,供推理机使用使用 v知识库知识库是专家系统的第一重要组成部分,知识库中的知识
59、通常分为两类:是专家系统的第一重要组成部分,知识库中的知识通常分为两类:一类领域的事实性知识,或广泛公用的知识一类领域的事实性知识,或广泛公用的知识另一类是启发性知识,是领域专家在长期研究和实践过程中另一类是启发性知识,是领域专家在长期研究和实践过程中 积累起来的经验总结积累起来的经验总结v知识获取方式大致上可以分为两种:知识获取方式大致上可以分为两种:一种是由知识工程师向领域专家询问有关知识,经过整理编一种是由知识工程师向领域专家询问有关知识,经过整理编 辑后将知识转换成计算机表示形式,送入知识库辑后将知识转换成计算机表示形式,送入知识库另一种是针对大量数据进行机器学习,分析、总结和抽取出另
60、一种是针对大量数据进行机器学习,分析、总结和抽取出 有用的新知识,这是更高层次的知识获取方式。有用的新知识,这是更高层次的知识获取方式。 v专家系统的另一个重要部分是专家系统的另一个重要部分是推理机推理机,由它来控制和,由它来控制和 协调整个系统,并根椐当前输入的数据和知识,按一定的推理策协调整个系统,并根椐当前输入的数据和知识,按一定的推理策 略,去解决当前的问题,推导出结论略,去解决当前的问题,推导出结论 7、分子模型化技术v分子模型化(分子模型化(Molecular modeling)是利用计算机模拟分)是利用计算机模拟分子结构、研究分子之间相互作用的一种技术子结构、研究分子之间相互作用
61、的一种技术v分子模型化是进行分子设计的基础。分子模型化是进行分子设计的基础。8、量子力学和分子力学计算v在进行分子结构分析、构象优化、分子间相在进行分子结构分析、构象优化、分子间相互作用研究及分子模拟时需要应用量子力学互作用研究及分子模拟时需要应用量子力学或分子力学或分子力学 9、生物分子的计算机模拟v所谓生物分子的计算机模拟就是所谓生物分子的计算机模拟就是从分子或者原子水平上的相从分子或者原子水平上的相互作用出发,建立分子体系的数学模型,利用计算机进行模互作用出发,建立分子体系的数学模型,利用计算机进行模拟实验,预测生物分子的结构和功能,预测动力学及热力学拟实验,预测生物分子的结构和功能,预测动力学及热力学等方面的性质等方面的性质v分子动力学分子动力学和和蒙特卡罗方法蒙特卡罗方法(Monte Carlo method)是两)是两种最常用的技术,另一种模拟方法是模拟退火方法种最常用的技术,另一种模拟方法是模拟退火方法 10、因特网(Internet)技术通过网络查询或搜索所需要的生物信息,使用分通过网络查询或搜索所需要的生物信息,使用分析工具析工具 将所要处理的数据直接送到相应的网络服务器上,将所要处理的数据直接送到相应的网络服务器上,服务器接受你的处理请求,并将处理结果返回服务器接受你的处理请求,并将处理结果返回 The end