基于图形表示的蛋白质二级结构序列的比较

上传人:gg****m 文档编号:227199474 上传时间:2021-12-20 格式:DOCX 页数:6 大小:55.95KB
返回 下载 相关 举报
基于图形表示的蛋白质二级结构序列的比较_第1页
第1页 / 共6页
基于图形表示的蛋白质二级结构序列的比较_第2页
第2页 / 共6页
基于图形表示的蛋白质二级结构序列的比较_第3页
第3页 / 共6页
基于图形表示的蛋白质二级结构序列的比较_第4页
第4页 / 共6页
基于图形表示的蛋白质二级结构序列的比较_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《基于图形表示的蛋白质二级结构序列的比较》由会员分享,可在线阅读,更多相关《基于图形表示的蛋白质二级结构序列的比较(6页珍藏版)》请在金锄头文库上搜索。

1、基于图形表示的蛋白质二级结构的比较作者: 单位:大连交通大学 摘要:蛋白质结构的比较已经成为当前生命科学研究的重要内容。本文给出了蛋白质二级结 构的一种新的2-D图形表示,把蛋白质二级结构转化成平面上的点列,根据点列的分布特点 得到其拟合曲线,并利用a-螺旋、0-折叠和无规则卷曲结构的频率构造三维向量来描述蛋 白质二级结构的属性,对layd等12个蛋白质二级结构进行相似性比较,得到了较好的结果。 本方法简单快速,为蛋白质二级结构比较提供了新的手段。关键词:蛋白质二级结构;图形表示;特征序列频率;曲线拟合1引言蛋白质是生物体内占有特殊地位的生物大分子,它是生物体的基本构件,也是生命活动 的重要物

2、质基础,几乎一切生命现象都要通过蛋白质的结构和功能而体现出来。因此,在分 子生物学中,深刻阐明蛋白质的结构和功能,是探索生命奥秘的最基本任务。具有相似结构 的两个蛋白质,其氨基酸序列可能相差很大,甚至完全不同。原因在于,趋同进化作用使得 两个不同进化源点出发的蛋白质可以折叠得到相似的空间结构。所以,需要在结构上对蛋白 质进行比较以发现具有相似结构的蛋白质。蛋白质结构的比较已经成为当前生命科学研究的 重要内容。通过比较蛋白质结构,可以发现蛋白质的共性,发现属于同一家族蛋白质的保守结构, 发现与蛋白质功能密切相关的结构域。目前为止,蛋白质结构的比较有多种方法:球体法(球 壳法)(BALL)、三维网

3、格法(GRID)、球面映射法(SPH)和扇形法(SPH) 1;蛋白质结构 的拓扑比较可以较好地解决几何比较方法中由于蛋白质结构内部频繁的原子动态性而引起 的问题也。G订bert等采用模式匹配技术从TOPS图获得超二级结构的模式,从而获得结构域 信息。在分析点集的空间分布时,Voronoi图起着重要的作用,Poupon Anne利用Voronoi 图来分析蛋白质结构问题I4役张任给出了一种蛋白质二级结构序列的图形表示冈,该方法 追踪每一时刻之前的三种蛋白质二级结构单元的频率,然后将这三个频率按照一定的法则对 应到平面上的一个点,再将这些点顺次连接起来,得到一个曲线,命名为S曲线。接着,他 们利用

4、S曲线来研究划分蛋白质结构。以上这些方法往往计算比较简单,空间占用大,虽然 得到的比较结果不是很精确,但是有助于快速地剔除差异性较大的对象皿。针对这些问题,本文提出了蛋白质二级结构的一种新的2-D图形表示,把蛋白质二级结 构转化成平面上的点列,根据点列的分布特点得到其拟合曲线,并利用a-螺旋、B-折叠和 无规则卷曲结构的频率构造三维向量来描述蛋白质二级结构的属性,对layd等12个蛋白质 二级结构进行相似性比较。2蛋白质二级结构序列的2-D图形表示2. 1蛋白质二级结构的特征序列DSSP是一个二级结构标准化定义系统。DSSP根据蛋白数据库(PDB)中的原子坐标定义 蛋白质二级结构、几何特征等,

5、它将每一个氨基酸残基的二级结构定义为a -螺旋、B-折叠 和无规则卷曲等结构。图1蛋白质layd的二级结构图1给出了蛋白数据库(PDB)代码为layd的蛋白质二级结构,该蛋白质属于a+B结 构类。在这个图中,波浪部分代表a -螺旋,粗箭头部分代表B -折叠,分别用H和E来描述, 其余的无规则卷曲部分用c来描述。这样,一个蛋白质二级结构序列由3个抽象字符构成。 以蛋白质layd为例说明,位置处在84至93这段部分的子序列和子结构如图2所示。残基序列 HHGQLKEKNGI I I I I I I I I I二级结构 CHHHCEECCC图2蛋白质layd的二级结构特征序列由DSSP方法得到12个

6、蛋白质的二级结构序列,见表lo表112个蛋白质的二级结构特征序列PDB代码二级结构序列lmbaCCCCHHHHHHHHHHHHHHHHCHHHHHHHHHHHHHHHCHHHHHHCCCCCCCCHHHHHCCCCHHHHHHHHHHHHHHHHHHCCCHHHHHHHHHHHHHHHHHCCCCHHHHHHHHHHHHHHHHCCCCCCCCHHHHHHHHHHHHHHHHHHCCClrcbCCCCCHHHHHHHHHHHHHHCCCCCCCCEEECHHHCCCCCCHHHHHHHHHHHHHHHHHHHCCCCCCCCCCHHHHHHHHHHHHHHHHHHHHHHHHHCCCCCCCC

7、CCCEEEHHHHHHHHHHHHHHHHHHHHC2hmqaCCCCCCCCCCCHHHCCCCCCCCHHHHHHHHHHHHHHHHCCCHHHHHHHHHHHHHHHHHHHHHHHHCCCCCHHHHHHHHHHHHHHHHCCCCCHHHHHHHHHHHHHHCCHHHCCCClplcCEEEECCCCCCCCEECCEEEECCCCEEEEEECCCCCCCCEECCCCCCCCCCHHHHCCCCCCCCCCCCCEEEEECCCCEEEEEECHHHCCCCCEEEEEEC4fgfCCEEEECCCCEEEEECCCCCEEEECCCCCHHHCEEEEEEECCEEEEE

8、ECCCCEEEEECCCCCEEEECCCCHHHCEEEEECCCCCEEEEECCCCCCCCCCCCCCCCCCHHHCCCCCHHHCEEEEClnoaCCCEEEEECCCCCCCCCEEEEEEECCCCCCEEEEEEEEEEECCEEEECHHHCEEEECCCCCCEEEEEECCCEEEEECCCCCEEEEEECCCCCEEEEEECCCCCCCCCEECCCClshaCCCCEEECCCHHHHHHHHCCCCCCCCCEEEEECCCCCCCEEEEEEEEECCCEEEEEEEEEEECCCCCEECCCCCEECCHHHHHHHHCCCCCCCCCCCCCCCC

9、ClubqCEEEEEECCCCEEEEECCCCCCHHHHHHHHHHHHCCCHHHEEEEECCEECCCCCCCHHHCCCCCCEEEEEECCCCClaydCCCCCCCCCCHHHHHHHHHHHCCCCEEEEEECCCCCCCEEEEEEECCEEEEEEEEECCCCEECCCCCCCCCHHHHHHHHHHCHHHCEECCCEECCCCEECClwsyaCHHHHHHHHHHCCCCCCEEEEEEECCCCCHHHHHHHHHHHHHCCCCCEEEECCCC2pgdlCCCCEEEECCCHHHHHHHHHHHHCCCCEEEECCCCHHHHHHHHCCCCCC

10、CCEECCCHHHHHHHHCCCCCEEEECCCCCHHHHHHHHHHHHHCCCCCEEEECCCCCHHHHHHHHHHHHHCCCEEEEEEEECHHHHHHHCCEEEEEECCCCHHHHHHHHHHHCCCCCCCCCCCCCCCCCC CCCCCCEECCHHH2trxaCCCEEECCCCCHHHHCCCCCCEEEEEEECCCCHHHHHHHHHHHHHHHHCCCCEEEEEEECCCCCCHHHHCCCCCCCEEEEEECCEEEEEEECCCCHHHHHHHHHHHHC2. 2蛋白质二级结构的2-D图形表示设G = gig?是蛋白质二级结构序列的特征序列,

11、我们给出一种蛋白质二级结构序列 的“正方形”图形表示,首先定义一个映射0,将G映射为一个点列,0(G) = 0(gJ0(g2)。 其中:0(g,J = -0.51 sha2hmqaC10.500.51 noa0.51 ayd C 1 彎T” 。C1 OO10.5O O2QiE00.51 ubqEOo1cECECECE图4 12个蛋白质的2-D图形表示(HCE正方形模式)H、C、E的全排列共有6种,所以可得到6种正方形模式,本文主要讨论HCE正方形模 式,其它模式类似。从图4中,可以知道H落在图像的第一部分,C落在第二部分,E落在第四部分,这些点不会落在正方形以外,这样可以节省表不空间。3 2-

12、D图形表示的应用3. 1二次曲线拟合根据蛋白质二级结构特征序列的2-D表示,可得到表1中12个蛋白质二级结构特征序 列的12个特征点列,利用y = ax2+bx + c对特征点列进行二次曲线拟合,得到了二次曲 线的系数,见表2。表2 12条拟合曲线的系数PDB代码 abclmba0. 1108-0.11951.0024lrcb-0. 0417-0.09830. 99512hmqa0. 1259-0.13571.0029lplc-0.2925-0.08430. 97864fgf0. 0336-0. 64241.1470lnoa0. 1781-0.75361.0540lsha-0.91660.54

13、950. 9566lubq-0. 0969-0.38971.0311layd-0.66730. 23970. 9909lwsya-0.86890. 46870. 96632pgdl-1. 18440. 70730. 96942trxa-0. 66890. 33630. 98183. 2蛋白质特征序列的频率描述蛋白质特征序列中H、C、E出现频率:p=L(2)其中兀为7在蛋白质序列中出现的个数,为序列的长度,i = H,C,E通过(2)式,计算了 12个蛋白质二级结构特征序列H、C、E出现频率,见表3。表3 12个蛋白质二级结构特征序列H、C、E岀现频率PDB代码PhPcPelmba0. 75510. 24490lrcb0. 62790.32560.0465

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号