《生物信息学课件》由会员分享,可在线阅读,更多相关《生物信息学课件(36页珍藏版)》请在金锄头文库上搜索。
1、生物信息学第一章绪论毛理凯初步计划讲授内容1.1.绪论2.2.生物信息学的计算机基础3.3.生物信息学资源与数据挖掘工具4.4.DNA序列分析5.5.分子系统发育分析6.6.基因组分析7.7.蛋白质组分析8.8.数学模型2 2本课目录1 1当今生命科学展望2 2生物信息学简介3 3发展现状3 3一、当今生命科学展望4 4基因数据的快速增长5 5为什么这么快Sanger, UK6 6已完成测序的基因组(EBI)病毒病毒(virus)(virus)16391639包括多种流感病毒包括多种流感病毒,HIV,SARS,HIV,SARS冠状冠状病毒等病毒等类病毒类病毒(viroid)(viroid)46
2、46主要是植物病毒主要是植物病毒质粒质粒(plasmid)(plasmid)627627主要提自细菌中主要提自细菌中噬菌体噬菌体(phage)(phage)469469细胞器细胞器(organelle)(organelle)15101510如线粒体、叶绿体如线粒体、叶绿体古细菌古细菌(a(archaea)rchaea)5454细菌细菌(b(bacteria)acteria)694694真核生物真核生物(eukaryota)(eukaryota)7878包括草履虫、疟原虫、弓形虫、酵包括草履虫、疟原虫、弓形虫、酵母、线虫、果蝇、海藻、水稻、鸡、母、线虫、果蝇、海藻、水稻、鸡、鼠、狗、人、黑猩猩等
3、鼠、狗、人、黑猩猩等7 7测序进展n nGenBankGenBank中已超过中已超过20002000亿碱基对亿碱基对n n速度速度l l目前速度目前速度:10:10天一个基因组天一个基因组( (细菌细菌) )l l目标目标:1:1天一个基因组天一个基因组n n价格价格l l目前价格目前价格:10000:10000美元美元( (细菌细菌) )l l目标目标:1000:1000美元美元l l趋势趋势: :过去十几年过去十几年, ,每每2 2年半价年半价n n微小化、并列化微小化、并列化: :数千到数十万数千到数十万wellwelln n多目标化多目标化: :肠内几十上百种微生物、土壤中全部微肠内几
4、十上百种微生物、土壤中全部微生物同时测序生物同时测序n n最小基因组研究、基因组人工合成最小基因组研究、基因组人工合成8 8蛋白数据增长(PDB)9 9反应通路(KEGG)n nglycolysispathway(糖酵解)n n京都基因与基因组百科全书(KyotoEncyclopediaofGenesandGenomes)1010全细胞通路1111人类基因组计划(1)人类三大计划曼哈顿原子弹计划曼哈顿原子弹计划曼哈顿原子弹计划曼哈顿原子弹计划(1942-46)(1942-46)阿波罗登月计划阿波罗登月计划阿波罗登月计划阿波罗登月计划(1961-69)(1961-69)人类基因组计划人类基因组计
5、划人类基因组计划人类基因组计划(1990-2003)(1990-2003)1212人类基因组计划(2)n nhttp:/http:/l l人类基因组计划人类基因组计划(HumanGenomeProject,(HumanGenomeProject,HGPHGP) )l l由美国能源部由美国能源部(DepartmentofEnergy,(DepartmentofEnergy,DOEDOE) )和美国国立卫生研究院和美国国立卫生研究院(NationalInstitutesof(NationalInstitutesofHealth,Health,NIHNIH) )组织完成组织完成l l19901990
6、年年1010月开始月开始, ,20032003年年4 4月完成月完成(1953(1953双螺旋双螺旋) )l l参与国参与国: :美、英、日、法、德、中美、英、日、法、德、中l l并没有完成测序并没有完成测序完成完成) )1313人类基因组计划(3)超额完成目标领域领域目标目标实际达到实际达到完成时间完成时间完成时间完成时间1515年年1313年年2003.42003.4遗传图遗传图2-52-5厘摩厘摩,600-1500,600-1500个标记个标记1 1厘摩厘摩,3000,3000标记标记1994.91994.9物理图物理图30000STS30000STS52000STS52000STS19
7、98.101998.10DNADNA序列序列 95%95%含基因序列含基因序列,99.99%,99.99%99%,99.99%99%,99.99%精确精确2003.42003.4测序速度测序速度和费用和费用500Mb/500Mb/年年,0.25,1400Mb/1400Mb/年年,0.09,0.09美元美元/bp/bp2002.112002.11序列变异序列变异1010万万SNPSNP3.73.7百万百万SNPSNP2003.22003.2基因识别基因识别全长全长cDNAcDNA1500015000全长全长cDNAcDNA2003.32003.3模式生物模式生物大肠杆菌、酵母菌、线虫大肠杆菌、酵
8、母菌、线虫(C)(C)、果蝇果蝇(D)(D)基因组序列基因组序列除完成上述除完成上述,C.briggsae,D.,C.briggsae,D.pseudoobscura,pseudoobscura,大小鼠草图大小鼠草图2003.42003.4功能分析功能分析发展基因组水平的技术发展基因组水平的技术高通量寡核苷酸合成、高通量寡核苷酸合成、DNADNA微阵列、酵母全基因组水平敲微阵列、酵母全基因组水平敲除、蛋白双杂交除、蛋白双杂交1994,1996,1994,1996,1999,20021999,20021414生命科学的发展趋势和热点n n发展趋势l l系统生物学系统生物学: :微观微观还原还原,
9、 ,系统系统l l统一生物学统一生物学(GeneralBiology)(GeneralBiology)l l生物技术的产业化生物技术的产业化n n热点l l生物大分子的结构与功能研究生物大分子的结构与功能研究l l基因组与细胞的研究基因组与细胞的研究l l脑科学和神经科学研究脑科学和神经科学研究l l行为科学研究行为科学研究l l关于遗传、发育、分化、进化的综合理论研究关于遗传、发育、分化、进化的综合理论研究l l生态环保研究生态环保研究1515物理学的发展对生命科学的启示1717世纪世纪1818世纪世纪1919世纪世纪2020世纪世纪2121世纪世纪经典物理学经典物理学应用物理应用物理现代物
10、理现代物理物理学大量实验数据积累大量实验数据积累公式化公式化机械论完善机械论完善相对论、量子力学相对论、量子力学非线性物理、复杂系统非线性物理、复杂系统生命科学农业、医药实践农业、医药实践分类、解剖研究分类、解剖研究进化理论进化理论遗传学、分子生物学遗传学、分子生物学大量实验数据积累大量实验数据积累公式化?公式化?博物学博物学近代生物学近代生物学现代生物学现代生物学2121世纪的生物学世纪的生物学1616二、生物信息学简介1717什么是生物信息学(1)n nbioinformatics=bio+informatics=bio+informatics生物生物信息学信息学n n相关学科l l计算生
11、物学计算生物学(computationalbiology)(computationalbiology)l l系统生物学系统生物学(systemsbiology)(systemsbiology)1818什么是生物信息学(2)n nhttp:/bioinformatics.org/faq/#definitionsl l( (大致地大致地) )计算机对生物信息的处理计算机对生物信息的处理l l( (多数人认为多数人认为, ,面窄面窄) )计算分子生物学计算分子生物学(computationalmolecularbiology)(computationalmolecularbiology)l l( (
12、宽松地宽松地) )甚至包括医疗成像、图像分析、遗传算甚至包括医疗成像、图像分析、遗传算法、人工智能、神经网络法、人工智能、神经网络l l( (经典经典) )用计算机储存、比较、提取、分析、预言、用计算机储存、比较、提取、分析、预言、模拟模拟生物分子的组成与结构。主要应用生物分子的组成与结构。主要应用(core)(core)是是序列分析序列分析l l( (新新) )比较基因组学、功能基因组学、蛋白质组学、比较基因组学、功能基因组学、蛋白质组学、结构基因组学结构基因组学1919多老了?n n1960s已有建立数据库、序列分析、开发算法,当时叫分子进化n n如果考虑生物数学,19世纪已经流行n n首
13、次提出Bioinformatics的说法l l荷兰理论生物学家荷兰理论生物学家19801980年代初年代初BenBenHesperHesper和和PaulienHogewegPaulienHogewegl l马来西亚生化物理学家林华安马来西亚生化物理学家林华安(HwaA.(HwaA.Lim)Lim)于于19871987年年n n最早提到该词的文献(PubMed)(1990)Genomics,6(2):3892020生物信息学发展阶段(1)n n前基因组时代(pre-genomicsera)l l建立生物数据库建立生物数据库(1965,(1965,MargaretDayhoffMargaretD
14、ayhoff的的AtlasofAtlasofProteinSequences;ProteinSequences;1982,GenBankRelease3)1982,GenBankRelease3)l l对位算法对位算法(1970,Needleman-(1970,Needleman-Wunsch;1981,Smith-Wunsch;1981,Smith-Waterman)Waterman)l l1977,DNA1977,DNA测序和相应的软件分测序和相应的软件分析析(RAStaden)(RAStaden)2121发展阶段(2)n n基因组时代(genomicsera)l l一批基因一批基因一批基
15、因一批基因组组被测序被测序 19821982噬菌体噬菌体 19951995细菌细菌19961996酵母酵母19981998线虫线虫19991999果蝇果蝇2222发展阶段(3)n n基因组时代(genomicsera)l l数据库搜索算法数据库搜索算法(1983,Wilbur-Lipman)(1983,Wilbur-Lipman)l l快速序列相似性查找快速序列相似性查找(1985,FASTN;1990,(1985,FASTN;1990,BLAST)BLAST)l l机构建立机构建立1988,NCBI1988,NCBI1988,EMBnet1988,EMBnet1993,Sanger1993,
16、Sangerl l1991,EST1991,EST技术技术2323发展阶段(4)n n后基因组时代(post-genomicsera)l lHGP(1990-2003)HGP(1990-2003)l l1995,1995,蛋白质组学蛋白质组学(Proteomics)(Proteomics)l l高通量高通量(high-throughput)(high-throughput)实验手段实验手段2424发展阶段(5)n n后基因组时代(post-genomicsera)l l比较基因组学比较基因组学(comparativegenomics)(comparativegenomics)l l结构基因组学
17、结构基因组学(Strutural(Struturalgenomics,2001)genomics,2001)l l功能基因组学功能基因组学(Functional(Functionalgenomics)genomics)l l系统生物学系统生物学l l系统树重建系统树重建(phylogenic(phylogenicreconstruction)reconstruction)2525生物信息学基本方法(1)n n建立生物数据库l l如如GenBank,EMBL,DDBJGenBank,EMBL,DDBJn n搜索数据库l l如如BLASTBLASTn n序列分析l l如比对如比对(alignmen
18、t)(alignment)、注释、注释(annotation)(annotation)、寻找、寻找外显子外显子n n统计分析l l如隐马尔科夫模型如隐马尔科夫模型(HMM)(HMM)、贝叶斯分析、贝叶斯分析(Bayesiananalysis)(Bayesiananalysis)2626生物生物生物生物计算机计算机计算机计算机工程学工程学工程学工程学数学数学数学数学物理物理物理物理基本方法(2)n n算法l l如遗传算法如遗传算法(geneticalgorithm,GA)(geneticalgorithm,GA)、人工神、人工神经网络经网络(artificialneuralnetwork,ANN
19、)(artificialneuralnetwork,ANN)n n数学模型l l如确定性模型如确定性模型(deterministicmodel)(deterministicmodel)、随机性、随机性模型模型(stochasticmodel)(stochasticmodel)n n多学科方法2727应用n n基因组层次分析l l如序列如序列功能、蛋白质、进化研究功能、蛋白质、进化研究n n基因芯片l l如如DNADNA芯片芯片(DNAchip),(DNAchip),蛋白质芯片的动态数据蛋白质芯片的动态数据分析分析n n药物开发l l如寻找药靶、药物分子结构、系统药物开发如寻找药靶、药物分子结构
20、、系统药物开发n n经济价值l l“bioventure”“bioventure”生物风险公司生物风险公司l l药物、生物制品、相关试剂、器材药物、生物制品、相关试剂、器材2828三、发展现状2929学术1/51/51/201/203030我国的发展现状(1)总括n n国家高技术研究发展计划(863)l l生物信息的获取、加工和利用生物信息的获取、加工和利用, ,建立数据库建立数据库l l结构基因组和蛋白质组学研究结构基因组和蛋白质组学研究l l高通量药物筛选、药物设计高通量药物筛选、药物设计l l生物芯片生物芯片n n曙光系列生物信息学服务器n n基因组l l完成完成1 1人类基因组人类基因
21、组计划计划( (中国卷中国卷;3;3号染色体短臂号染色体短臂“端粒至端粒至D3S3610”)(1994-2001.8)D3S3610”)(1994-2001.8)l l独立完成水稻基因组独立完成水稻基因组“工作框架图工作框架图”绘制和数据绘制和数据库建设;完成国际库建设;完成国际水稻基因组计划的水稻基因组计划的20%20%l l其他其他: :家猪、血吸虫、家鸡、家蚕、大豆家猪、血吸虫、家鸡、家蚕、大豆3131我国的发展现状(2)n n生物信息学企业l l如华大、中科院等建立了一些如华大、中科院等建立了一些n n中国生物信息学大会l l首届首届,2001.4.11-13,2001.4.11-13
22、,北京北京, ,军事医学科学院军事医学科学院l l第二届第二届,2002.6.28,2002.6.28,北京大学北京大学l l第三届第三届,2008.10.6-9,2008.10.6-9,武汉华中科技大学武汉华中科技大学n n国际生物信息学大会l l首届首届,2003,2003l l第四届第四届,2006.6.10,2006.6.10,中南大学中南大学3232我国的发展现状(3)主要研究中心n n北京华大基因研究中心(中科院基因组研究所)杨焕明http:/http:/n n国家人类基因组南方研究中心(上海)陈竺、赵国屏 http:/http:/n n国家人类基因组北方研究中心(北京)强伯勤ht
23、tp:/http:/n n清华大学生物系生物信息研究室孙之荣http:/http:/n n北京大学生物信息学中心罗静初http:/http:/n n复旦大学理论生物中心钟扬http:/http:/3333我国的发展现状(4)研究中心n n中科院国家基因研究中心中科院国家基因研究中心 n n中科院理论物理所统计物理和理论生命科学中科院理论物理所统计物理和理论生命科学 陈晓松、郝柏林陈晓松、郝柏林 n n中科院生物物理所系统生物学研究中心中科院生物物理所系统生物学研究中心 陈润生、蒋太交陈润生、蒋太交 n n中科院中科院上海生命科学研究院生物信息中心上海生命科学研究院生物信息中心 李亦学李亦学 h
24、ttp:/http:/n n中科院上海生化所中科院上海生化所 n n中科院中科院计算所生物信息实验室计算所生物信息实验室 http:/http:/ n n中科院遗传所分子系统生物学中心中科院遗传所分子系统生物学中心 韩敬东韩敬东 http:/http:/n n军事医学科学院生物工程所生物信息学中心军事医学科学院生物工程所生物信息学中心 http:/http:/ n n中科院微生物所中科院微生物所 3434我国的发展现状(5)研究中心n n天津大学生物信息中心天津大学生物信息中心 张春霆张春霆 http:/http:/n n中山大学生物信息中心中山大学生物信息中心 徐安龙徐安龙 n n中山医科大学中山医科大学 n n东南大学东南大学( (江苏省生物信息学专业委员会江苏省生物信息学专业委员会) )孙啸孙啸 http:/http:/n n西北大学西北大学n n西安交通大学西安交通大学n n上海交通大学上海系统生物医学研究中心上海交通大学上海系统生物医学研究中心 陈竺陈竺n n哈尔滨医科大学生物信息学哈尔滨医科大学生物信息学系系 李霞李霞3535完3636