序列比较的生物学基础

资源描述

《序列比较的生物学基础》由会员分享，可在线阅读，更多相关《序列比较的生物学基础（36页珍藏版）》请在金锄头文库上搜索。

1、序列比较的生物学基础,构成生命的基本单位是蛋白质； 20种氨基酸组成的多肽折叠而成；什么决定蛋白质的氨基酸序列？ DNA由4种脱氧核苷酸组成:ATGC RNA由4种核肝酸组成:AUGC 重要特征：互相配对 4种核苷酸组成64个三联密码子形成6个开放读码框序列测定,序列比较的生物学基础,构成生命的基本单位是蛋白质。而作为在细胞中催化各种化学反应的分子机器的酶，也是蛋白质。另外，细胞的许多结构也是蛋白质组成的。连非蛋白质的构成部分也是由属于蛋白质的酶所催化生产的。一个人体含有大约100,000种不同的蛋白质，正是这100,000种蛋白质的特性及其相互作用使我们无所不能。,序列比较的生物学基础

2、,蛋白质由20种氨基酸组成的多肽折叠而成。蛋白质由20种不同的氨基酸组成不同长度的聚合体，也称为肽或多肽。由这种线性拓朴结构的聚合体折叠起来产生形状各异的不同蛋白质，不同的形状以及20种氨基酸的化学特性决定了蛋白质的功能。现代生物学中的一个很主要的概念是，蛋白质的功能特性主要决定于线性多肽链中20种氨基酸的序列。由于大多数蛋白质都是自身折叠而成，所以理论上知道了一个蛋白质的序列后即可推导出其功能。,序列比较的生物学基础,什么决定蛋白质的氨基酸序列？分子生物学的中心内容就是描述我们从父母获得的遗传信息是如何储存于DNA中，它们是如何被用于复制相同的DNA副本，如何从DNA转录到RNA再翻译到蛋白

3、质的。,序列比较的生物学基础,DNA由4种脱氧核苷酸组成:ATGC。DNA是由4种脱氧核苷酸形成的线性多聚体，这4种核苷酸是：腺嘌呤脱氧核苷单磷酸(deoxyAdenosine monophosphate, A)、胸腺嘧啶脱氧核苷单磷酸(deoxyThymidine monophosphate, T)、鸟嘌呤脱氧核苷单磷酸(deoxyGuanosine monophosphate, G)、胞嘧啶脱氧核苷单磷酸(deoxyCytidine monophosphate, C)。,序列比较的生物学基础,RNA则是由A、U、G、C，4种核苷酸形成的相似线性多聚体，这4种核苷酸是：腺嘌呤核苷单磷酸

4、(Adenosine monophosphate, A)、尿嘧啶核苷单磷酸(Uridine monophosphate, U)、鸟嘌呤核苷单磷酸(Guanosine monophosphate, G) 胞嘧啶核苷单磷酸(Cytidine monophosphate, C)。,序列比较的生物学基础,DNA和RNA的重要特征：互相配对DNA和RNA的一个重要特征是线性多聚体可以互相配对，其配对是序列特异的，由此而形成的双链聚合体因其特殊的形状而被称为“双螺旋”(double helix)。双链中G与C配对，A与T或U配对，其中一链可以作为合成另一链的模板，这就是DNA复制以至所有遗传学的基础。

5、由DNA转录为RNA也使用类似的模板合成方式，而由RNA序列转化为蛋白质序列则较为复杂，这是通过三联密码子翻译成氨基酸的过程完成的，这一过程有转移RNA和核糖体(tRNA和ribosomes)的参与。,序列比较的生物学基础,遗传密码三联子 mRNA上每3个核苷酸翻译成蛋白质多肽链上的一个氨基酸，这3个核苷酸就称为一个密码，也叫三联子密码。翻译时从起始密码子AUG开始，沿mRNA53的方向连续阅读直到终止密码子，生成一条具有特定序列的多肽链。mRNA中只有4种核苷酸，而蛋白质中有20种氨基酸，若以一种核苷酸代表一种氨基酸，只能代表4种(41=4)。若以两种核苷酸作为一个密码（二联子），能代表42

6、=16种氨基酸。而假定以3个核苷酸代表一个氨基酸，则可以有43=64种密码，满足了编码20种氨基酸的需要。,序列比较的生物学基础,4种核苷酸组成64个三联密码子。4种核苷酸可以组成64个不同的三联密码子(triplet codes)，用于编码20种氨基酸绰绰有余。其中三个为终止密码子，代表多肽序列的末端，一种氨基酸可以由16个三联密码子编码。由多个密码子编码的氨基酸，不同密码子的使用频率并不相等，这种使用频率的不同分布称为“密码子偏好”(coden usage)。不同种的生物密码子偏好不同。,序列比较的生物学基础,4种核苷酸组成61个编码氨基酸的密码子和3个终止密码子，它们不能与tRNA的反密

7、码子配对，但能被终止因子或释放因子识别，终止肽链的合成。由一种以上密码子编码同一个氨基酸的现象称为简并（degeneracy），对应于同一氨基酸的密码子称为同义密码子（synonymous codon）。,序列比较的生物学基础,形成6个开放读码框由于氨基酸是由三联密码子编码的，因此DNA序列就包含三个不同的开放读码框，取决于从第一、第二或第三位核苷酸开始(第四位和第一位同框)。而双链DNA的两条链都可以转录RNA，后者翻译蛋白质。因此，一个DNA序列及其互补链可以有6个不同的读码框(reading frames)。,序列比较的生物学基础,基因一般概念基因作为唯一能够自主复制、永久存在的单位，

8、其生理学功能以蛋白质形式得到表达。DNA序列是遗传信息的贮存者，它通过自主复制得到永存，并通过转录生成mRNA，翻译生成蛋白质的过程控制所有生命现象。编码链（coding strand）又称sense strand，是指与mRNA序列相同的那条链。非编码链（anticoding strand），又称antisense strand，是指那条根据碱基互补原则指导mRNA生物合成的DNA链。,序列比较的生物学基础,基因表达的一般概念基因表达包括转录（transcription）和翻译（translation）两个阶段。转录是指拷贝出一条与DNA链序列完全相同（除了TU之外）的RNA单链的过程，

9、是基因表达的核心步骤。翻译是指以新生的mRNA为模板，把核苷酸三联子遗传密码翻译成氨基酸序列、合成蛋白质多肽链的过程，是基因表达的最终目的。只有mRNA所携带的遗传信息才被用来指导蛋白质生物合成，所以人们一般用U、C、A、G这4种核苷酸而不是T、C、A、G的组合来表示遗传性状。,序列比较的生物学基础,序列测定。可以用化学方法测定蛋白质的氨基酸序列以及DNA和RNA的核苷酸序列。可是，就目前来说，测定DNA的核苷酸序列比测定RNA序列和蛋白质序列容易的多。由于蛋白质序列可以由编码它的DNA序列推导出来，许多已知的蛋白质序列其实就是从DNA序列推导出来的。将mRNA转为DNA(cDNA)是一个

10、简单的实验技术，因此RNA分子的序列通常是以cDNA序列测定的。序列分析其实就是从已知蛋白质、RNA、DNA序列作出生物学推论的过程。,序列分析的困难,技术欠缺 DNA非编码区比编码区多编码区不连续:内含子、外显子 mRNA非编码区、tRNA、SnRNA 从DNA序列推导蛋白质序列从蛋白质序列推导结构和功能二级结构:alpha helix、beta sheet 超级二级结构、三级结构、四级结构为什么结构命名如此复杂？结构决定功能、实验方法欠缺蛋白质三级结构推导的基础目前不能从结构推导功能,序列分析的困难,技术欠缺。尽管从理论上来说，知道一个蛋白质的序列后，完全可以推导出它的特性

11、，可是目前的生物学技术还远远不能做到这一点。当前的序列分析手段实际能做的与希望做到的还相去甚远。下面就谈谈序列分析困难在哪里。另外，上面也已提到，由于蛋白质序列测定的困难，目前大多数的蛋白质序列其实都是由编码它的DNA推导出来的。遗憾的是，从DNA转录RNA再翻译蛋白质的细胞学途径所具有的特点使这种推导难度大增。,序列分析的困难,DNA非编码区比编码区多。许多蛋白质是由一个片段的DNA编码的，所以当分析DNA序列时，生物学家只需要知道蛋白质编码区从哪里开始，到哪里结束。然而在人类基因组中情况就不是那么简单了，因为人类基因组中包含着远远多于编码区的非编码区序列，随机获取的一个片段很可能并不编

12、码任何蛋白质。,序列分析的困难,编码区不连续:内含子、外显子。编码蛋白质的DNA并不是连续的，而是在其中分布有许多叫做“内含子”的分隔区。大多数情况下，这个问题可以通过测定mRNA(cDNA)的序列来解决，因为cDNA中所含的非编码的额外部分很少，而原来被分隔开的外显子(exons)在mRNA(cDNA) 中已经被连接成为一个连续的片段。当然，在某些特殊情况下，难以分析RNA而只能分析DNA本身。,序列分析的困难,mRNA非编码区、tRNA、SnRNA。虽然RNA分子中编码蛋白质的区域相对非编码区的比例远大于DNA分子，然而RNA分子中也还存在非编码区，如编码区的上游和下游，有时甚至比编码

13、区还大。许多RNA分子并不编码任何蛋白质。例如，核糖体RNA(Ribosomal RNA, rRNA)，转移RNA(transfer RNA, tRNA)以及一些核仁小分子RNA(small nuclear ribonucleoproteins, SnRNA)等就属于非编码的RNA。,序列分析的困难,从DNA序列推导蛋白质序列。就目前来说，从DNA序列推导编码的蛋白质序列还没有一个总体的、通用的、完全的解决办法。不过，通过各种计算方法以及一些实验生物学，人们已经比较成功的做到这一点。目前，这个问题仍然是计算生物学最重要的问题之一。,序列分析的困难,从蛋白质序列推导结构和功能。当我们得到一个蛋

14、白质序列之后，从序列推导它的结构和功能遇到的困难更大。上面提过，蛋白质的结构是通过多肽链本身的折叠，有时还有多个多肽链的组合。这种折叠通过组成肽链的氨基酸内部的化学键的转动和氨基酸之间肽键的转动而达成。遗憾的是，折叠的可能方式实际上是无限多的。为了帮助解决这一棘手问题，生物学家们将蛋白质的结构特征分成了等级。一级结构指的是蛋白质中氨基酸的序列(primary structure)，这是我们已经知道的。,序列分析的困难,二级结构：alpha helix、beta sheet。几十年前，人们发现多肽链可以形成有规则的结构，也就是在不同的多肽中都会形成一些相同形状的结构。其中之一是螺旋，被称为a-螺

15、旋(alpha helix)；另一种形状是多肽链来回折叠所产生的片状面，这个结构被称为b-折叠(beta sheet)。它们形成蛋白质的二级结构。也有一些多肽根本不形成这种规则结构，事实上，大多数较长的多肽链在不同区域折叠成不同的二级结构。,序列分析的困难,超级二级结构、三级结构、四级结构。上面描述的肽链环绕形成a-螺旋和前后折叠形成b-片层都属于简单和规则的结构，还有一些比较复杂的结构，其中之一的是在许多转录因子中发现的螺悬-环-螺旋模体(helix-loop-helix motif)。这些被称为超二级结构。当我们看一个真实的多肽链时，其最终的形状是由二级结构的特征、也许有超二级结构的特征、

16、加上一些随机的形态构造所一起形成的，这一整体结构被称为三级结构。最后，许多生物蛋白质由多个多肽链构成的，多条多肽链组合的方式被称为蛋白质的四级结构。,序列分析的困难,为什么结构命名如此复杂？为什么要对蛋白质的结构作如此复杂的命名呢？因为对蛋白质结构的理解实在是太重要又太困难了。其重要性体现在以下两点：1. 结构决定功能2. 实验方法欠缺,序列分析的困难,结构决定功能、实验方法欠缺。首先，蛋白质的功能绝对取决于它的结构。其实，让蛋白质失活的常规方法之一就是破坏它的结构，如通过加热或机械力(如抽打鸡蛋白)。只有完全正确折叠的蛋白质才有活性；其次，通过实验的方法测定蛋白质的结构极端困难。至今，已测定序列的蛋白质有约30000，而已知三级结构的蛋白只有约500个。显然，如果能够从一级结构推导出三级结构，甚至功能，将引起医学、药理学、化学以及生态学的伟大变革。,序列分析的困难,蛋白质三级结构推导的基础。目前对蛋白质三级结构进行推导的研究主要基于以下两点：同源性和最小自由能。前者通过与相关已知结构的蛋白质序列作比较来预测其三级结构。这种方式工作量大但却很成功。不过前提是必须有相似的已知结构蛋白质，很多情况下根本不可能找到。后者尝试测定最小自由能的结构，这是通过Monte-Carlo方法或Neural Net软件来实现。,

展开阅读全文