人类基因组计划的概述人类基因组计划的概述一、人类基因组计划的由来一、人类基因组计划的由来 在人类刚刚进入21 世纪的时候,回顾过去一百年中所取得的辉煌成就,最激动人 心的伟大创举之一就是和“曼哈顿原子弹计划“、“人类登月计划“一起被誉为本世纪科学史 上三个里程碑的“人类基因组计划 (Human Genome Project, HGP)“这一人类历史上最伟 大的工程从讨论到实施经历了十几年的时间 1984 年, 在美国 Alta Utah 召开的专业会议上,一些科学家已开始讨论对人类基因 组DNA 进行全序列分析的前景 1985 年 5 月,在美国加州的 Santa Cruz 由 Robert Sinsheimer 组织的专门会议上, 提出了测定人基因组全顺序的动议. 1986 年,美国生物学家、诺贝尔奖获得者 Renato Dulbecco 在“Science“上发表短文 首次提出人类基因组计划的设想,并建议组织国家级和国际级的项目来进行这方面的研究1986 年 3 月, 美国能源部在召开的一次专门会议上, 正式提出实施测定人类基因组 全顺序的计划 1988 年 4 月,国际人类基因组织(HUGO)成立。
1988 年 10 月美国能源部和美国国立卫生研究院达成协议,共同管理和实施这一计划1990 年 10 月由美国国会批准正式启动HGP 研究,随后法国、英国、意大利、德国、 日本等也相继宣布开始各自的HGP 研究中国于 1987 年在“863 计划“中开始设立人类 基因组研究课题 二、人类基因组计划的目标二、人类基因组计划的目标 人类基因组计划是一项国际性的研究计划它的目标是通过以美国为主的全球性的国 际合作,在大约 15 年的时间里完成人类 24 条染色体的基因组作图和 DNA 全长序列分析, 进行基因的鉴定和功能分析人类基因组计划的“科学产品“将是一个人类遗传信息数据库, 将是一本指导人类进化的“说明书“ 人类基因组计划的最终目标就是确定人类基因组所携 带的全部遗传信息,并确定、阐明和记录组成的人类基因组的全部 DNA 序列 有人将 HGP 比作一张 20 世纪的生命(生物学)周期表,因为它一改经典分子生物学 零敲碎打地研究个别基因的习惯,而力求在细胞水平上解决基因组的问题,同时研究 10 万 个基因及其产物,以建立对生命现象的整体认识 三、人类基因组研究的应用三、人类基因组研究的应用 人类基因组计划的成果不仅可以揭示人类生命活动的奥秘,而且人类 6 千多种单基因 遗传性疾病和严重危害人类健康的多基因易感性疾病的致病机理有望得到彻底阐明,为这 些疾病的诊断、治疗和预防奠定基础。
同时,人类基因组计划的实施还将带动医药业、农 业、工业等相关行业的发展,产生极其巨大的经济效益和无法估量的社会效益要想完成 这样一个雄心勃勃的计划,必须要发展一系列新的实验技术及手段为科学家、医生及其他 研究者所共享,从而使研究成果能够尽快的服务于公众 日新月异的生物医学研究是人类基因组计划的另一受益者随着计划的不断发展,将 培养出能熟练使用研究工具、利用知识资源、从事使整个人类的健康水平不断提高的生物 学家自从人类基因组计划一开始,人们就清楚地认识到获得和利用这些遗传学知识对个 人、社会都具有重大意义社会也形成了许多关于公众和专业讨论的政策机构,参与人类 遗传学研究与伦理、法律及社会有关问题的分析1、 在医学领域的应用(1)对特殊疾病基因的确定 人体的各种器官系统和组织常受到各种特殊疾病的侵袭,这些疾病对人类健康关系重 大,但通过常规医疗手段无法进行诊断和治疗通过认识这些疾病的基因序列及确定发生 了规律性改变的 DNA 片段,为这类疾病的诊断和治疗提供了可能比如,杜兴肌营养不良、 慢性肉芽肿、视网膜母细胞瘤、亨廷顿氏舞蹈症和家族性早老年痴呆症等基因就是依赖于 人类基因组计划的实施 各种人类基因组图谱会使寻找与特定遗传疾病有关的基因的工作变得容易。
以限制性 内切酶酶切片段长度多态性(RFLPs)为基础的精细遗传连锁图谱将很快地使与疾病有关的 位点定位在染色体亚区上成为可能 利用 DNA 克隆库和限制酶切图谱,人们可以对正常的患者的 DNA 进行有效的分析比较, 达到对某一疾病的基因进行定位的目的 人类基因组的 DNA 全序列将有助于证实假定存在的所有基因,可为分析病人 DNA 样品 的序列提供一个数据库 (2)有利于优生和产前诊断 人类对基因组的了解会推动对遗传性疾病的诊断和预防随着分离到的疾病基因的增 多,以 DNA 为基础的诊断会更为普遍医生和遗传学家可以通过基因检测,识别出带有遗 传疾病的胚胎细胞,比如:囊性纤维变性和镰状细胞性贫血 在不久的将来,胎儿期的检测也许能够预测一般的常见病,比如:肥胖症、抑郁症和 心脏病等 应用遗传座位专一性的分子探针,可检测出疾病基因的携带者,将使父母了解其子女 出现遗传缺陷的危险程度 (3)加强对癌症的认识和治疗 癌症的高死亡率严重地威胁着人类生命癌症是由于细胞生长失控造成的分子遗传 学研究表明,细胞分裂的失控是因为特定基因的异常造成的遗传的缺陷通常会使人体对 特定的癌症具有高的易感性寻找与癌症相关的基因的研究是当前医学研究的热点之一。
人类基因组计划将会大大地促进这方面的研究一旦确定了易感基因,就可以进行癌前或 早期癌症的特殊监护和治疗 尽管,人类对癌症的认识已有很大的进步,但是仍然存在着许多问题何种正常蛋白 质参与了细胞生长?这类蛋白质的改变如何使细胞发展成肿瘤,进而扩散到远处的器官? 这些变化的远遗传机制是什么?人体肿瘤的癌基因或癌转移有关基因的类型如何?这些问 题的解决将依赖于人类基因组计划的研究 (4)有利于医学生物学的研究 ①确定人类基因组中的转座子(transposon)、逆座子(retroposon)和病毒残余序列 的分布,了解有关病毒基因组侵染人类基因组的情况, 可指导人类有效地利用病毒载体进行 基因治疗. ②对染色体和个体之间的多样性的研究结果可被广泛用于基因诊断、个别识别、亲子 鉴定、组织配型、发育进化等许多医疗、司法和人类学的研究中. ③研究 DNA 的突变、重排和染色体断裂等, 了解疾病的分子机制, 包括遗传性疾病、 易感性疾病、放射性疾病和感染性疾病引发的分子病理学改变及其进程, 为这些疾病的预 后以及分子水平上的诊断、预防和治疗提供依据. 2、在基础理论研究方面的应用 (1)确定人类基因组中基因的序列、组织和物理位置,有利于研究基因的功能以及 它们相互之间在表达和调控机制方面的联系。
(2)了解转录和剪接调控元件的结构与位置,有助于从整个基因组结构的宏观水平上理解基因转录与转录后的调控 (3)从整体上了解染色体结构,包括各种重复序列以及非转录“框架序列“的大小 了解各种重复序列和非转录序列在染色体结构、DNA 复制、基因转录和表达调控中的影响 和作用 (4)研究空间结构对基因调控的作用有些基因表达的调控序列与被调控基因从直 线距离上看,似乎相距较远,但若从整个染色体的空间结构上看则恰恰处于最佳的调控位 置因此有必要从三维空间的角度来研究真核基因的调控 (5)研究正常基因与突变基因的差别,会帮助阐明与正常的生理学和疾病发生都有 关的新的生化和细胞学机制尽快地确定出疾病基因,能使研究者对该基因的蛋白产物及 其细胞生物学效应进行深入的研究 (6)有利于确立有重要功能意义的基因组组构的特征 人类染色体含有许多不是基 因的片段, 一些特定片段对细胞分裂前染色体复制和确保染色体组正确地分配到两个子细 胞中是不可缺少的 这些片段的性质及行使功能的机制鲜为人知,人类基因组的物理图谱 将为探讨这些特定片段性质及作用的实验打下基础 (7)发现新的基因和蛋白质迄今仅有少数参与正常和疾病的人类基因被确定。
对 人类基因组作图和测序将会确定出大量新的人类基因及其编码的蛋白质另外,物理图谱 将有助于对那些已大体定位在染色体上,但尚未分离出的基因进行精确定位 3、在生物学研究领域的应用 (1)生物进化研究 人类基因组记载着人类的进化史如果知道了人和其它生物基因组的全序列,就有可 能追溯出人类基因的起源因为所有哺乳动物有着相似的蛋白质谱,所以哺乳动物之间的 差异主要表现在受控的基因表达的时间、表达的水平,以及细胞类型专一的调控信号等方 面人胚胎的有序发育需要特定的场所和时间的活化,使多潜能细胞成为新类型的细胞, 这一过程至少部分地受控于位于基因附近的调节顺序这些顺序在其活化的基因中大多是 同源的对人类基因组进行顺序分析,并将与其它哺乳动物进行比较,将使我们能确定出 大量的调节顺序此外,我们将了解基因调控的规律,及其在人从其它哺乳动物分化出来 的过程中在分子水平上所发生的变化 人类基因组研究的目的,不是为了单纯地积累数据,而是要揭示大量数据中所蕴藏的 内在规律,从而更好地认识和保护生命对基因和蛋白质结构数据的大量分析表明,生命 体基因组所含的基因数量与基因编码的蛋白质的基本结构单位数存在着较大的差距,前者 为 105,后者仅为 103 左右。
说明数量有限的蛋白质编码区段的倍增、重排和融合,产生 了大量含有多个模块的复合基因,构成了庞大而复杂的人类基因组所编码序列如果把一 个基因比作一个个体,那些起源于同一祖先,在不同生物体中行使同一功能的基因群就可 比作为一个门类,这些类似的基因被称为“直向同源物(Ortholog)“ 另一方面,同一生 物体中由同一基因复制而产生的多个蛋白质的基因称为“横向同源物(Paralog)“α-珠 蛋白、β-珠蛋白和肌红蛋白的基因就是典型的 Paralog 的例子,它们是由脊椎动物中的祖 先珠蛋白基因复制而来的近年来, 由于基因资料的骤增,人们发现所有生物体中都富含 Paralog 的关系 (2)分子考古研究 真核生物基因组中,编码序列仅占一小部分,而绝大部分的序列是非编码序列其中 相当于转座元件的重复序列家族又占据了相当大的一部分转座元件可以通过 RNA 中间产 物的逆转录,或 DNA 自身的切割和整合来完成转座功能已知的转座因子可分为四类:短 散在元件(SINE)、长散在元件(LINE)、长末端重复顺序逆转录病毒样元件和 DNA 转座 子研究表明,在人类基因组中存在着 11x105 个 Alu 顺序(一种 SINE)和 59x104 个 Linel 顺序(一种 LINE)。
另外,基因组中某些不确定的系列可能也是由散在的重复系列 组成,只是这些重复系列已相当退化而难以识别有人推测,若能识别出退化的重复系列, 则有可能 50%的人基因组和 50%以上的鼠基因组是由重复序列组成的重复序列可能具有 以下功能:(1)作为特异组织表达基因调控区内的重复序列;(2)通过易化同源重组、 转座或倒位重塑基因组结构;(3)可能与基因组外现象(亲代印迹、位置作用的多样性等) 有关由于重复序列出现和持续的年代可由种系之间的比较来确定,它们可作为一种很有 价值的时间标志,用于分子考古学的有关复杂基因位点的研究。