《微生物研究进展chapter2-2-微生物基因组学研究进展》由会员分享,可在线阅读,更多相关《微生物研究进展chapter2-2-微生物基因组学研究进展(64页珍藏版)》请在金锄头文库上搜索。
1、第二章第二章 微生物基因组学研究进展微生物基因组学研究进展第一节第一节 微生物基因组与生物信息学微生物基因组与生物信息学第二节第二节 微生物基因信息的分析微生物基因信息的分析 第三节第三节 芯片技术在微生物学领域的应用芯片技术在微生物学领域的应用农农学学系生物技系生物技术专业课术专业课程程微生物微生物学研学研究究进进展展曼哈顿原子弹计划曼哈顿原子弹计划(1942-46)阿波罗登月计划阿波罗登月计划(1961-69)人类基因组计划人类基因组计划(1990-2003)20世纪世纪三大科学计划三大科学计划1961年年,美国总统美国总统Kennedy提出两个科学计划:提出两个科学计划:登月计划登月计划
2、攻克肿瘤计划攻克肿瘤计划 人类遗传信息的复杂性人类遗传信息的复杂性人类基因组计划人类基因组计划(HGP,Human Genome Project)目标:整体上破解人类遗传信息的奥秘目标:整体上破解人类遗传信息的奥秘目标:整体上破解人类遗传信息的奥秘目标:整体上破解人类遗传信息的奥秘1、“曼哈顿原子弹计划曼哈顿原子弹计划”历史遗留问题之产物历史遗留问题之产物2、对生命科学和医学的科学影响、对生命科学和医学的科学影响“ “我们选择登月我们选择登月我们选择登月我们选择登月” ”(1962(1962年年年年KennedyKennedy在在在在RiceRice大学演讲大学演讲大学演讲大学演讲) )为什么
3、提出为什么提出HGP?1984.12 犹他州阿尔塔组织会议,初步研讨测定人类整个基 因组DNA序列的意义1986.3 Dulbecco在Science撰文 “肿瘤研究的转折点: 人类基因组的测序” 美国能源部(DOE)提出“人类基因组计划”草案1987 美国能源部和国家卫生研究院(NIH)联合为“人类 基因组计划”下拨启动经费约550万美元1989 美国成立“国家人类基因组研究中心”,Watson担任 第一任主任1990.10 经美国国会批准,人类基因组计划正式启动James WatsonWalter GilbertHGP历史回顾历史回顾尽管比之于人类登月,尽管比之于人类登月,HGP的投入资金
4、的投入资金要少得多,但要少得多,但HGP对人类生活的影响要对人类生活的影响要更为深远更为深远。因为随着这个计划的完成,。因为随着这个计划的完成,DNA分子中编码的分子中编码的遗传信息将对人类存遗传信息将对人类存在的化学基础作出最终的回答在的化学基础作出最终的回答。这将不。这将不仅帮助我们理解我们是如何作为健康的仅帮助我们理解我们是如何作为健康的人发挥正常功能的,而且也将在化学水人发挥正常功能的,而且也将在化学水平上解释遗传因子在各种疾病,如癌症、平上解释遗传因子在各种疾病,如癌症、早老痴呆症、精神分裂症等一些严重危早老痴呆症、精神分裂症等一些严重危害人类健康的疾病中的作用。毕竟害人类健康的疾病
5、中的作用。毕竟对人对人类自身更深入的了解是人类活动中最重类自身更深入的了解是人类活动中最重要的一个部分。要的一个部分。Watson ,1990,ScienceHGP的最初目标的最初目标通过国际合作,用15年时间(19902005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。4张图:遗传图遗传图 物理图物理图 序列图序列图 基因图基因图HGP的终极目标的终极目标阐明人类基因组全部DNA序列;识别基因;建立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。 人类单倍体基因组人类
6、单倍体基因组 含含3030亿碱基对亿碱基对( (bpbp) )的的DNADNA序列,包括约序列,包括约3-43-4万个基因,万个基因,分布于分布于2222条常染色体和条常染色体和X X、Y Y性染色体。性染色体。遗传图谱遗传图谱转录图谱转录图谱1 cM =1Mb 序列图谱序列图谱物理图谱物理图谱100 kb100 kbSTS mapSTS map四张图:四张图:物理图物理图 转录图转录图遗传图遗传图 序列图序列图 遗传图(连锁图)指基因或DNA标记在染色体上的相对位置与遗传距离。cM(基因或DAN片段在染色体交换过程中分离的频率)第一代多态性标记:第一代多态性标记:RFLP 第二代多态性标记:
7、第二代多态性标记: STR 包括小卫星包括小卫星DNA和微卫星和微卫星DNA,其多态性主要来自重复序,其多态性主要来自重复序 列拷贝数的变化列拷贝数的变化(短的串联重复序列短的串联重复序列)第三代多态性标记:第三代多态性标记:SNPSNP与RFLP和STR标记的主要不同之处在于,它不再以DNA片段的长度变化作为检测手段,而直接以序列变异作为标记。物理图 以已知核苷酸序列的DNA片段(序列标签位点,sequence-tagged site,STS)为“路标”,以碱基对作为基本测量单位(图距)的基因组图。转录图 以EST(expressed sequence tag ,表达序列标签)为标记,根据转
8、录顺序的位置和距离绘制的图谱。ESTEST:通过从:通过从cDNAcDNA文库中随机挑选的克隆进行测序文库中随机挑选的克隆进行测序所获得的部分所获得的部分cDNAcDNA的的55或或33端序列称为表达序列端序列称为表达序列标签(标签(ESTEST),一般长),一般长300-500bp300-500bp左右。左右。 序列图(分子水平的物理图)(分子水平的物理图) 序列图是指整个人类基因组的核苷酸序列图,也是最详尽的物理图。 既包括可转录序列,也包括非转录序列,是转录序列、调节序列和功能未知序列的总和。1995 第一个自由生物体流感嗜血菌(H. inf)的全基因组测序完成1996 完成人类基因组计
9、划的遗传作图 启动模式生物基因组计划H.Inf 全基因组全基因组Saccharomyces cerevisiae酿酒酵母酿酒酵母Caenorhabditis elegans秀丽线虫秀丽线虫1997 大肠杆菌(E. coli)全基因组测序完成1998 完成人类基因组计划的物理作图 开始人类基因组的大规模测序 Celera公司加入,与公共领域竞争 启动水稻基因组计划1999.7 第5届国际公共领域人类基因组测序会议,加快测序速度大肠杆菌及其全基因组大肠杆菌及其全基因组水稻基因组计划水稻基因组计划2000 Celera公司宣布完成果蝇基因组测序 国际公共领域宣布完成第一个植物基因组拟南芥全基 因组的
10、测序工作Drosophila melanogaster果蝇果蝇Arabidopsis thaliana拟南芥拟南芥二二000000年六月二十六日克林顿宣布年六月二十六日克林顿宣布人类基因组草图绘制完成人类基因组草图绘制完成公共领域和公共领域和Celera公司同时宣布完成人类基因组工作草图公司同时宣布完成人类基因组工作草图2000年年6月公共领域测序计划工作框架图月公共领域测序计划工作框架图2001年年2月月15日日Nature封面封面2001年年2月月16日日Science封面封面Nature刊文发表国际公共领域结果刊文发表国际公共领域结果Science刊文发表刊文发表Celera公司及其合作
11、者结果公司及其合作者结果2003.5.282003.5.282003.6.2 2003.6.2 冷泉港冷泉港 人类基因组完成图发布会人类基因组完成图发布会1、大协作研究大协作研究: 以学科为中心以问题为中心,多学科合作3、政府与国家的作用政府与国家的作用: 美:领导与推动 英:始于1989年2月,贡献为1/3左右 法:始于1990年6月,贡献为3左右 日:始于1990年,贡献为7左右 德:始于1995年,贡献为7左右 中:始于1999年9月,贡献为1左右2、商业竞争促进基础研究商业竞争促进基础研究: 1998年Celera公司的加入HGPHGP的研究特色的研究特色的研究特色的研究特色基因组工业
12、的前景:基因组工业的前景:基因组工业的前景:基因组工业的前景: 1、以功能基因开发为基础的、以功能基因开发为基础的“基因产业基因产业”正在形成正在形成 2、基因组研究带动了生物信息和生物芯片等新型学科、基因组研究带动了生物信息和生物芯片等新型学科 和产业的发展和产业的发展 3、人类基因组研究成为生物医药技术产业创新的重要、人类基因组研究成为生物医药技术产业创新的重要 源头源头 人类基因组中存在人类基因组中存在“热点热点”和大片和大片“荒漠荒漠”。人类基因组人类基因组序列中所谓的序列中所谓的“荒漠荒漠”就是包含极少或根本不包含基因的就是包含极少或根本不包含基因的部分,基因组上大约部分,基因组上大
13、约14的区域是长长的、没有基因的片的区域是长长的、没有基因的片段。段。基因密度在第基因密度在第17、第、第19和第和第22号染色体上最高,在号染色体上最高,在X染染色体、第色体、第4、第、第18号和号和Y染色体上相对贫瘠。染色体上相对贫瘠。 35.3%的基因组包含重复的序列。这意味着所有这些重复的基因组包含重复的序列。这意味着所有这些重复序列,即原来被认为的序列,即原来被认为的“垃圾垃圾DNA”应该被进一步研究。事应该被进一步研究。事实上,第实上,第19号染色体号染色体57%是重复的。是重复的。除了重复片段,科学除了重复片段,科学家还鉴定了家还鉴定了210万个人与人之间不同的基因序列万个人与人
14、之间不同的基因序列,这些序列,这些序列被称为被称为“单核苷酸多态性单核苷酸多态性”,它们通常是无害的。,它们通常是无害的。 根据实际情况,我国根据实际情况,我国HGP的初期目标主要是充分的初期目标主要是充分利用利用我国丰富的人类遗传资源我国丰富的人类遗传资源,进行基因组多样性,进行基因组多样性和疾病基因识别的研究。和疾病基因识别的研究。 在众多的组织相容性抗原系统中,能引起强烈而迅速 排斥反应的抗原系统,也叫主要组织相容性系统(MHS)。 概述:概述: 代表个体特异性的引起排斥反应的同种异型抗原,也称 移植抗原。 在不同个体之间进行组织器官移植时,受体和供体双方 相互接受的程度。2、组织相容性
15、抗原(histocompatibility antigen)3、主要组织相容性抗原(major histocompatibility antigen)1、组织相容性(histocompatibility) 编码MHS的基因是一组紧密连锁的基因群,称为MHC 。5、MHC抗原抗原 / MHC分子分子4、主要组织相容性抗原复合体、主要组织相容性抗原复合体 (major histocompatibility complex,MHC) 表达于不同细胞表面,不仅决定着移植物的排斥反应, 还与免疫应答的诱导和调节有关。MHC的编码产物。 人类白细胞抗原(人类白细胞抗原(HLA,human leucocyt
16、e antigen):): 人类的人类的MHC首先发现于白细胞表面。首先发现于白细胞表面。H2与与 HLA的基因结构、抗原分布和功能等都很相似。的基因结构、抗原分布和功能等都很相似。各种动物的各种动物的MHC动物种动物种 人人 猩猩猩猩 恒河猴恒河猴 狗狗 猪猪 兔兔 豚鼠豚鼠 小白鼠小白鼠 大白鼠大白鼠 鸡鸡符符 号号 HLA ChLA RhLA DLA SLA RLA GpLA H-2 AgBH-1 BMHC 类类分分子子参参与与内内源源性性抗抗原原的的提提呈呈MHC 类类分分子子参参与与外外源源性性抗抗原原的的提提呈呈 HLA 复合体的遗传特征复合体的遗传特征1、多态性、多态性 复等位基
17、因(复等位基因(multiple allele) 共显性(共显性(co-dominant)造成器官移植的困难!造成器官移植的困难!按各个位点上的复等位基因计算,组成的基因型按各个位点上的复等位基因计算,组成的基因型1亿。亿。 2、单倍、单倍(元元)型遗传型遗传HLA基因紧密连锁,组成一个完整的遗传单位。基因紧密连锁,组成一个完整的遗传单位。 这些遗传特征使其在亲子鉴定,和器官移植时供者的选择这些遗传特征使其在亲子鉴定,和器官移植时供者的选择 中得到应用。中得到应用。 遗传可能性:遗传可能性: 亲代与子代有一个单元型相同亲代与子代有一个单元型相同 同胞间两个单元型完全相同或不同的概率同胞间两个单
18、元型完全相同或不同的概率25% 同胞间一个单元型相同的概率同胞间一个单元型相同的概率50%同一基因座上同一基因座上HLA等位基因的差别可导致个体对某些疾病等位基因的差别可导致个体对某些疾病具有易感性或抗性。具有易感性或抗性。 HLA与疾病的相关性与疾病的相关性强直性脊柱炎()的病因未明,强直性脊柱炎()的病因未明,已证实,的发已证实,的发病和人类白细胞抗原密切相关,并有明病和人类白细胞抗原密切相关,并有明显家族发病倾向。显家族发病倾向。 症状症状:早期主诉为下腰背发僵和疼痛,但背痛是普通人群早期主诉为下腰背发僵和疼痛,但背痛是普通人群中极为常见的一种症状,大多数为机械性(非炎性)背中极为常见的
19、一种症状,大多数为机械性(非炎性)背痛。故有必要将炎性背痛和机械性背痛加以区别。痛。故有必要将炎性背痛和机械性背痛加以区别。炎性背痛的特点是炎性背痛的特点是:()背部不适发生在岁以前;:()背部不适发生在岁以前;()缓慢发病;()症状持续至少个月;()()缓慢发病;()症状持续至少个月;()背痛伴发晨僵;()背部不适在活动后减轻或消失。背痛伴发晨僵;()背部不适在活动后减轻或消失。以上项中有项符合则支持炎性背痛。以上项中有项符合则支持炎性背痛。B27B27的检测方法!的检测方法!的检测方法!的检测方法!各学科参与、协作:生命科学、数学、物理学、化学、计算机科学、材料科学以及伦理、法律等社会科学
20、HGP带来的科学挑战带来的科学挑战HGP:Pandoras Box 首要科学问题首要科学问题 如何找到记载在基因组DNA一维结构上控制生命时间、空间的调控信息的编码方式和调节规律。 应用数学、复杂系统理论、信息论、非线性科学 催生生物信息学生物信息学、计算生物学、系统生物学计算生物学、系统生物学 DNA芯片技术芯片技术 交叉性技术领域:物理学、微电子信息技术、生化技术、信息技术 结构生物学结构生物学 前沿领域之一:生物物理学、生物化学、晶体学、波谱学、光谱学以及X射线晶体衍射技术、核磁共振技术计算生物学和生物信息学计算生物学和生物信息学后基因组时代的呼唤后基因组时代的呼唤物理科学发展对生命科学
21、的启示物理科学发展对生命科学的启示面对堆积如山的生物学数据面对堆积如山的生物学数据新的生物学研究模式的出发点应该是理论的。科学家将从理新的生物学研究模式的出发点应该是理论的。科学家将从理论推测出发,然后再返回到实验中去,追踪或验证这些理论假设。论推测出发,然后再返回到实验中去,追踪或验证这些理论假设。生物学家不仅必须成为计算机学者,而且也要改变他们研究生物学家不仅必须成为计算机学者,而且也要改变他们研究生命现象的途径。生命现象的途径。W. Gilbert, Towards A Paradigm Shift in Biology, Nature, 349(1991)99传统生物学:传统生物学:实
22、验科学实验科学现代生物学的发展:现代生物学的发展:1、高通量数据获取日益实现自动化、半工业化高通量数据获取日益实现自动化、半工业化 从数据库中实现数据挖掘、知识发现2、海量数据海量数据 难以完全依赖实验手段对新数据进行分析,必须借助计算机实现分析和筛选3、更复杂层次的生物学问题更复杂层次的生物学问题 复杂的基因调控网络、代谢网络;细胞间信号转导过程;生物个体全部基因表达变化分析、筛选大量新数据分析、筛选大量新数据生物中的复杂网络、复杂过生物中的复杂网络、复杂过程、复杂现象程、复杂现象理论生物学理论生物学计算生物学计算生物学21212121世纪生命科学世纪生命科学世纪生命科学世纪生命科学理理理理
23、论论论论计计计计算算算算实实实实验验验验数学与物理科学数学与物理科学数学与物理科学数学与物理科学计算生物学计算生物学计算生物学计算生物学计算生物学计算生物学/ / / / / /理论生物学与传统生物学的关系理论生物学与传统生物学的关系理论生物学与传统生物学的关系理论生物学与传统生物学的关系理论生物学与传统生物学的关系理论生物学与传统生物学的关系 实验永远起着决定作用实验永远起着决定作用 计算计算/理论生物学的发展离不理论生物学的发展离不开实验生物学的贡献开实验生物学的贡献 实验生物学日益依赖计算实验生物学日益依赖计算/理理论生物学的指导论生物学的指导美国国家卫生研究院(美国国家卫生研究院(NI
24、H)的定义:的定义:Bioinformatics Bioinformatics (Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data.) 为拓展生物学、医学、行为学和卫生学数据的用途
25、,而进行有关计为拓展生物学、医学、行为学和卫生学数据的用途,而进行有关计算机方法手段的研究、开发与应用,包括此类数据的采集、存贮、整理、算机方法手段的研究、开发与应用,包括此类数据的采集、存贮、整理、归档、分析与可视化。归档、分析与可视化。 Computational Biology Computational Biology (The development and application of data-analytical and theoretical methods, mathematical modeling and computational simulation techniq
26、ues to the study of biological, behavioral, and social systems. ) 开发和应用数据分析、理论方法、数学模型和计算机仿真技术,用开发和应用数据分析、理论方法、数学模型和计算机仿真技术,用于生物学、行为学和社会群体系统的研究。于生物学、行为学和社会群体系统的研究。BioinformaticsComputational BiologyWhat is Bioinformatics / Computational Biology ? 生物信息学生物信息学(Bioinformatics)的来源Dr. Hwa A. Lim (林华安)(林华安)
27、1987年提出年提出“Bio-informatique” “Bioinformatics” 1955年出生于马来西亚。联合国年出生于马来西亚。联合国Bioinformatics专家,专家,University of Texas at Dallas分子与细胞生物学分子与细胞生物学Adjunct Professor、中国科学院基因遗传研究所客座、中国科学院基因遗传研究所客座教授。教授。1981年英国伦敦大学帝国学院年英国伦敦大学帝国学院(Imperial College, London University)毕业,毕业,1986年获得美国年获得美国Rochester University生化物理学
28、博士学位,生化物理学博士学位,30岁取岁取得佛罗里达州立大学终生教授。得佛罗里达州立大学终生教授。1992年受聘担任美年受聘担任美国国家癌症中心及美国国家科学基金会审核委员。国国家癌症中心及美国国家科学基金会审核委员。1995年后,历任多家生物科技公司生化信息执行长、年后,历任多家生物科技公司生化信息执行长、副总裁等高层管理职位。副总裁等高层管理职位。1997年,创立结合软件与年,创立结合软件与数据分析的专业顾问公司数据分析的专业顾问公司D Trends,服务生物技术、,服务生物技术、制药及卫生保健等机构。制药及卫生保健等机构。林华安最近又将林华安最近又将Biothechnology、Info
29、rmation结合纳结合纳米科技(米科技(Nano),提出),提出 Binformatics(生纳信息学)。(生纳信息学)。生物信息学之父生物信息学之父林华安林华安1999年年9月月9日,随着日,随着“国际人类基因组计划国际人类基因组计划 1% 项目项目”的正的正式启动,北京华大基因研究中心在北京正式成立。式启动,北京华大基因研究中心在北京正式成立。华大基因先后完成了国际人类基因组计划华大基因先后完成了国际人类基因组计划“中国部分中国部分”(1%)、国际人类单体型图计划()、国际人类单体型图计划(10%)、水稻基因组)、水稻基因组计划、家蚕基因组计划、家鸡基因组计划、抗计划、家蚕基因组计划、家
30、鸡基因组计划、抗SARS研究、研究、炎黄一号等多项具有国际先进水平的科研工作,炎黄一号等多项具有国际先进水平的科研工作, 以以基因组基因组DNA序列信息为源头,识别基因组序列中代表蛋白质序列信息为源头,识别基因组序列中代表蛋白质和和RNA基因的编码区,阐明非编码区的信息特征,破译隐藏在基因的编码区,阐明非编码区的信息特征,破译隐藏在DNA序列中的遗传语言规律序列中的遗传语言规律。生物信息学生物信息学/计算生物学计算生物学揭示基因组蛋白质组信息结构的复杂性、遗传语言的根本规律揭示基因组蛋白质组信息结构的复杂性、遗传语言的根本规律生物学信息的计算机处理生物学信息的计算机处理计算生物学计算生物学 /
31、 理论生物学理论生物学前基因组时代的前基因组时代的“钓鱼钓鱼”和后基因组时代的和后基因组时代的“捞鱼捞鱼”生物学家生物学家生物学家生物学家( ( ( (生物学问题生物学问题生物学问题生物学问题) ) ) )数学物理学家数学物理学家数学物理学家数学物理学家计算机科学家计算机科学家计算机科学家计算机科学家( ( ( (基础理论问题基础理论问题基础理论问题基础理论问题) ) ) )工程师工程师工程师工程师(技术应用)(技术应用)(技术应用)(技术应用)计算生物学计算生物学/ /生物信息学:生物信息学:三种科学文化的融合三种科学文化的融合DNA序列序列RNA序列序列蛋白质蛋白质由由重复的核苷酸或氨基酸
32、单元组成的线性高分子,具重复的核苷酸或氨基酸单元组成的线性高分子,具有高度有序并能完成特定生物学功能的三维结构有高度有序并能完成特定生物学功能的三维结构目的目的揭示序列蕴含的更高级的结构和功能信息揭示序列蕴含的更高级的结构和功能信息主要思想主要思想具有相似序列的分子,可能具有相似的三维结构和生物学具有相似序列的分子,可能具有相似的三维结构和生物学功能。功能。首要任务:提取反映结构、功能性质的序列特征首要任务:提取反映结构、功能性质的序列特征主要方法主要方法基于数据挖掘或知识发现(基于数据挖掘或知识发现(data-mining, knowledge discovery)的方法:的方法:统计方法统
33、计方法、机器学习机器学习、神经网络神经网络等等 核酸和蛋白质序列分析研究核酸和蛋白质序列分析研究第一节第一节 微生物基因组与生物信息学微生物基因组与生物信息学一、生物信息学的发展一、生物信息学的发展二、微生物基因组与生物信息学二、微生物基因组与生物信息学细菌基因组细菌基因组DDBJ/EMBL/GenBankEMBL核苷序列数据库是欧洲主要的核苷序列收集单位。这个数据库是由欧洲生物信息中心EBI维护的。核苷数据来自基因组测序中心、个别科学家、欧洲专利局、以及跟合作伙伴DDBJ (Japan)和GenBank (USA)交换的数据。为了达到最佳的同步性,每天在DDBJ/EMBL/GenBank之间
34、都要交换最新的数据。用户只要进入任意一个数据库都能得到最新数据。这三个数据库之间坚持统一的文件指导方针,它规范了数据库登录的内容和语法。 种类种类数目数目备注备注古细菌(Archaea)35真细菌(Bacteria)421其中有的测定了2个以上的菌株真核生物(Eukaryo)47包括酵母、线虫、果蝇、蚊子、拟南芥、人等病毒(Virus)1,275包括不同亚类或不同株系类病毒(Viroid)39包括不同亚类或不同株系噬菌体(Phage)347包括不同亚类或不同株系细胞器(Organelle)1,097包括线粒体和叶绿体质粒(Plasmid)480(http:/www.ebi.ac.uk/genomes)已完成测序的已完成测序的3,000多个基因组多个基因组已完成测序的基因组网络服务器: 在20世纪80年代早期EMBL数据库中存放了第一批完成测序的病毒,噬菌体和细胞器的信息。从那以后,数以百计的已完成基因组测序的数据加入到数据库中,这些信息包括古生菌,细胞和真核生物。在http:/www.edi.ac.uk./genomes/上可直接获取已经完成测序的基因组序列。