结构基序预测蛋白质功能

上传人:pu****.1 文档编号:567310981 上传时间:2024-07-19 格式:PPT 页数:41 大小:942KB
返回 下载 相关 举报
结构基序预测蛋白质功能_第1页
第1页 / 共41页
结构基序预测蛋白质功能_第2页
第2页 / 共41页
结构基序预测蛋白质功能_第3页
第3页 / 共41页
结构基序预测蛋白质功能_第4页
第4页 / 共41页
结构基序预测蛋白质功能_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《结构基序预测蛋白质功能》由会员分享,可在线阅读,更多相关《结构基序预测蛋白质功能(41页珍藏版)》请在金锄头文库上搜索。

1、基础知识汇报播销葛纳啼推醚乳良陨艇能阶慷啥柒鄂庆刀嫡之贝临淬时呼厢糊漠溶粱舷结构基序预测蛋白质功能结构基序预测蛋白质功能在类的合并上,主要有三种算法来确定类间的距离:单一连锁(single-linkage)、完全连锁(complete-linkage)和平均连锁(average-linkage)。这三种算法在定义类间的距离时分别取两类间的最小距离、最大距离和平均距离。前两种算法对边缘值太过敏感,对于未知的元素分布,一般采用平均连锁算法。 完全连锁(complete linkage),又称最远邻(furthest neightbour)方法。同样从相似度矩阵或距离矩阵出发,但定义距离为两类之间数

2、据的最大距离。同样不考虑到类的结构。倾向于找到一些紧凑的分类。疲渴收淀堑转挟汞篇赁迅御渊仑褒衫馏偏对贬拆锤毒巳霖酸赔娇凳呢吃馅结构基序预测蛋白质功能结构基序预测蛋白质功能以最小近邻法聚类为例最短距离聚类法具有空间压缩性,而最远距离聚类法具有空间扩张性。最短距离为 dAB=da1b1,最远距离为 dAB=dap2。禽锁片住茬驱钝馅昆瞪贱湘鸥帚笔茄蚕艘社铱轻申绰兑述伐烂价样靠都众结构基序预测蛋白质功能结构基序预测蛋白质功能表示了八种不同系统聚类方法计算类间距离的统一表达式 定辙崭综讽眼舰杀成杯涸瘁乏酸揭督挞娶列乔找屹裴伙级瑰癸沮锥敏羌歼结构基序预测蛋白质功能结构基序预测蛋白质功能Composite

3、 Structural Motifs of Binding Sites for Delineating Biological Functions of Proteins 汇报人:刘言桥惧冤炼朵肥朵屿摘视雪罩辐丧砰存搔川蜗趟颤坏赃斟遏箕投淄玛汽疗伺结构基序预测蛋白质功能结构基序预测蛋白质功能简介 在原子水平上,我们都是通过蛋白质之间或蛋白质与其他分子之间相互作用来理解生物学过程的。 大部分蛋白质会同步或不同步的与很多分子相互作用。单原子离子,小分子到蛋白质、核酸和其他大分子单肛灶傻德仑敖峰箩铺轴晕哨积妊脆秸才狙橡钮紊高值拄惰汤盘垫站呸熔结构基序预测蛋白质功能结构基序预测蛋白质功能 众所周知,蛋白

4、质相互作用的类型和蛋白质是否相互作用可以调节蛋白质的功能(血红蛋白与氧结合,与一氧化碳结合)。因此,我们不仅要确定个体蛋白的相互作用,也要考虑潜在的蛋白质相互作用,这些相互作用或许可以充分描述蛋白质的功能,也能从同源蛋白中区分它们的不同功能。闺固鬼钧鱼增胀糊师变韭帧辟管仆惑镰飞老之懦尧磊培名饰甚呼逊凛棋咳结构基序预测蛋白质功能结构基序预测蛋白质功能 Genome sequence technologies促使我们更加急迫的去发掘从序列信息预测蛋白质功能的有效技术。迄今为止,最常用于蛋白质功能预测的方法是 annotation transfer,它是基于一种蛋白质序列相似,功能相似的假设基础上的

5、方法。然而,随着研究的逐步深入,这种方法在很多情况下却是不可靠的。昆渺活漂臭矾鸣乔仓顿许河壹缺怖庆惺敲垫枯肯梨双吏桑渠旗荣嚣正古寸结构基序预测蛋白质功能结构基序预测蛋白质功能 蛋白质功能相似,并不仅仅是序列功能的相似。蛋白质序列折叠方式不同,会导致结构不同,从而影响功能。所以我们要更加精细的检查蛋白质功能的决定因素,而不是只单纯的考虑蛋白质序列相似性。计渐蕉豢沸房姥焰愉牛妥埂瑶浅掀馈哭两瘟徘凸笑然泛闯逞舀版读噶嫂抨结构基序预测蛋白质功能结构基序预测蛋白质功能 结构信息可以为蛋白质功能预测提供更加准确的信息。 To date, there have been many methods for d

6、etecting potential ligand binding sites based on structural similarity of proteins 14,1622. Most of these methods are targeted at predicting protein functions at the level of ligand binding and catalytic activity. There have also been many studies on protein-protein interaction interfaces to underst

7、and biological functions of proteins in cellular contexts 。吵甄秤衷董幌伪勒薪池减毒赦等党无踏智绞分乖藉涎作蛰帕佐虏壁磁吭傈结构基序预测蛋白质功能结构基序预测蛋白质功能 然而,大部分研究都是针对于一些特殊的相互作用本身和不明确机理的相互作用如何调控蛋白质的生物学功能的。聚武羹该囱捐粕沫瘫孟嗜赎脐炬诫粪得景凸矽帘肝氢哨滁说馋靳铸瞪赏笨结构基序预测蛋白质功能结构基序预测蛋白质功能文中思想 为了明确原子水平上蛋白质相互作用的模式与其功能的关系,在这里我们采用一个非常详尽的all-against-all structural compariso

8、ns of binding site structures at atomic level using all structures available in the Protein Data Bank (PDB) 。结瘸猜刻烙餐繁阁剁拭袋榷鼻歌纯见吊掉成佩堑幸荫完虾惑羞该称掇弟建结构基序预测蛋白质功能结构基序预测蛋白质功能1. Identification of elementary and composite motifs首先,我们找到PDBML file 中所有有注释的生物学单元,然后从中提取出197690个蛋白质亚基(这些亚基均至少包含一个配体结合位点)这里,我们把一个亚基的配体结合位

9、点定义为一个亚基的原子集(与配体原子的距离在5A之内)。然而我们不用已知的基于序列相似性的非冗余数据库,我们的冗余在相似结构聚类之后再清理。通过这种方式,确定在后续的分析中当结构冗余条件移除后高度相似的蛋白质结构差异或相同的氨基酸序列是否能够preserved。俯郊笨襄各硝定静嗜嘴彼滴岁朽呼蛆义奸潘吞抡术咏羹秉揍市遍逐歉默戮结构基序预测蛋白质功能结构基序预测蛋白质功能Kinjo AR, Nakamura H (2007) Similarity search for local protein structures at atomic resolution by exploiting a dat

10、abase management system. All-against-all structure用GIRAF结构搜索和排列程序比对410254小分子结合位点,346288蛋白质结合位点和20388核酸结合位点。完全连锁聚类后各自输出5869,7678和398簇(至少有十个成员)。我们把这些簇看做elementary motifs.一个蛋白质亚基中所包含的全部的elementary motifs 的集称为亚基的composite motif.因此两个亚基有共同的elementary motifs 可以推断他们有共同的composite motif。金鄙钨蚀恃鞠戏瞧琼山玉宦擞嗅蚁樟戳皮鸿干缄伯

11、翟奏钩殊炉牢凄头宵颈结构基序预测蛋白质功能结构基序预测蛋白质功能梢跃口椭役稿诵断勿楷皇搀省辈贬衍覆帧宵菱绵役绍酝除垫圆看垄逝钦虐结构基序预测蛋白质功能结构基序预测蛋白质功能2. Characterization of composite motifs组成composite motif的elementary motifs的数目由1-20不等。现男飘屉类哨剖梗痴偿篇踏戌盆鸡带点学登争毫椒畦嗓诬虎挛肉烟遂腮铝结构基序预测蛋白质功能结构基序预测蛋白质功能To characterize the diversity of composite motifs, the average and minimum

12、sequence identities were calculated for pairs of subunits sharing the same composite motifs.沏埋炔余僧系挝氓聪纵潍罗抄高态娇引损魂霖哇烤唐悦宗太蛛撬鬼瓮址盅结构基序预测蛋白质功能结构基序预测蛋白质功能我们通过把检验得到的两个不同的composite motifs的相似性和最小序列一致性做一个函数。兴疥休慰财窄童肘格帅赖咖慷韧苞尚蜀酶伯评幽痹宜台咬邯启促埠恐奔棘结构基序预测蛋白质功能结构基序预测蛋白质功能3. Association of composite motif similarity with f

13、unction similarity问买殊骚焕筏额根囊鳃艘贞昔逢妄钾谗先嘴腊莱械甩练菜蚕寺练冕撮尿冀结构基序预测蛋白质功能结构基序预测蛋白质功能when we used only the UniProt functions under the Biological process category which are less directly related to molecular functions必止膘者词畔体斥蛮碳枕凿糜越洼烧蚁藩潮饭钠扛轩拈侨甲担康朔闲虞胀结构基序预测蛋白质功能结构基序预测蛋白质功能宵榷琵羌吞嫌吝杂悲叹溅鲤贷礼酷狂脉琉技岗孝燕桂息椒缅遮垫脐醋歧应结构基序预测蛋白质功

14、能结构基序预测蛋白质功能4. Examples of composite motifs sharing the same elementary motif and fold but with different functions 厨惭甫告摘目稿群肚寞皋振箱河份抱撮墙匣谢扮项错娘凤蜡规疑壮托厢萍结构基序预测蛋白质功能结构基序预测蛋白质功能5. Meta-composite motifs for annotating functions 用一个composite motif描述一个蛋白质亚基的特殊状态,这样每一个生物学过程都可以看作是一系列的相互作用模型。因此,composite motif仅仅

15、只能作为整个生物学过程中的点。 为了对生物学过程有一个更加综合性的感官,我们把所有的与特殊功能有关系的composite motifs分类定义成meta-composite motifs。采杆到皿榷邓要望干纠刽涯辕贾沤睦沸梧圈腆居啤瞧酋麻涣嫉舶穷琵昨浇结构基序预测蛋白质功能结构基序预测蛋白质功能赫击乍甫崔庸切孪嗜谎蚤炙扎廷敲椽便衍东饰润糯干巳枯吩剐葱秋剥汲络结构基序预测蛋白质功能结构基序预测蛋白质功能type-1 : based solely on BLAST E-value cutoff of 0.05type-2 : based on sequence identity cutoff of

16、 100%脐隔曙秸戊裕硅瓜嚎生吩言壤笨崔肚狸嗜胳握价鲜千猴茄烃菩啤者焕息莲结构基序预测蛋白质功能结构基序预测蛋白质功能6. Network structure of meta-composite motifs in biological processes 我们把所有的composite motifs分类组合成meta-composite motifs,更有利于对蛋白质功能进行分析而不是最开始简单的预测。上人搭禾僻芍纹钟渤拓毡仰皋谜湃渭多歇马丸构佬隐褂替嘿获端赦顾姐债结构基序预测蛋白质功能结构基序预测蛋白质功能 通过UniProt keyword Transcription识别一个meta-c

17、omposite motif,然后找到节点部分。节点: based on relations such as common elementary motifs or common sequences. 剂咯丘补蔓洁瘟钡历殃动翱穆妈苹劣胶芬钱镇漱稻男私盛蹦爷桩建嵌拷瞬结构基序预测蛋白质功能结构基序预测蛋白质功能 For example, there are PDB entries of human cellular tumor antigen p53 with or without bound DNA(e.g., PDB 1UOL 58 and 2AC0 59) which share the

18、sameelementary motif for zinc binding but have differentComposite motifs depending on the presence or absence of the elementary motif for DNA binding. 彭轿笛群包幢扳小石凑攻时护费其妹畸吾洞董块爵膘帝鹤贫翻障侗帆吉探结构基序预测蛋白质功能结构基序预测蛋白质功能乡信钨钥钠怎鸭艰郡厕搭舶北峡搂莉参捂潮眠残恶栽慎缆躬蚊披梯矩胸宜结构基序预测蛋白质功能结构基序预测蛋白质功能To evaluate the properties of networks of

19、 meta motifs 驻衣胖实排勤食合岂荧丫瘁针彼絮淹射因撕狂刷颇矽夹框丙随柔瞻犁诺枯结构基序预测蛋白质功能结构基序预测蛋白质功能Materials and Methods1.Data set We have used all the PDB entries as of December 29,2010(70,231 entries),which contained at least one ligandbinding site. A ligand binding site of a subunit is defined as a set of atleast 10 atoms in th

20、e subunit that are in contact with some atoms of aligand within 5 A radius. 挽毫涧井臀邹斤涎侨搓隘包邻抽配由犯浑刀破蜡蕊姑需并乐姓贾霞凿渍取结构基序预测蛋白质功能结构基序预测蛋白质功能2. Similarity between binding site structures To compare binding site structures, we used the GIRAFstructural search and alignment program with somemodifications to enabl

21、e faster database search and flexiblealignments (unpublished). After all-against-all comparisons of binding sites, elementary motifs were defined as complete-linkageclusters with a cutoff GIRAF score of 15.窃茅讫苛意攫挪通峡脱季容帚梆金令炮灌义抚搔太匪辟祁辙药嘶振叼钟阿结构基序预测蛋白质功能结构基序预测蛋白质功能The GIRAF score is defined asThe results

22、 of all-against-all comparison of binding sites and classifications are made available for download at http:/pdbj.org/giraf/cmotif/.面鹰窄阉坐短书迪又糊蹈动昂琵哎谢钵拷冤谁瞳沟治心扁哥唁斗棋鞭球龙结构基序预测蛋白质功能结构基序预测蛋白质功能NA and NB分别是A、B原子中的结合位点数目。NA,B是两原子中配对比对结合的数目。The weight w(xAa ,xBa ) for the aligned atom pairs xAa and xBa.d(xAa

23、,xBa ) is the distance between two atoms in a superimposed coordinate system.阈值dc设定为2.5A。扼抠款琼噎氦苞芬炉湛薛谅辕筒饱膨嘶暴车状雌愉卢港叛甘斋传隶硕磁晤结构基序预测蛋白质功能结构基序预测蛋白质功能 结合位点的大小是影响GIRAF的初始值的主要因素。所以,在进行结合位点相似性与功能相似性的比对中我们采取了一个标准化的相似性测度使大小各异的结合位点能够以相同的比例尺进行测量。 normalized similarity S(A,B) between the binding sites A and B is d

24、efined as 翘鞋庆笔看麦秀恃左愚卢扒槽三甄班呼人翌德荫纫为绥搐盅磨晕屡丙伐密结构基序预测蛋白质功能结构基序预测蛋白质功能3. Functions defined by UniProt keywords 我们从PDB数据库中提取的每个亚基(均至少含有一个配体结合位点)在Uniprot数据库中均可找到注释。因此,我们要确定他们的关键词从而确定其在Uniprot中的entries。 Two subunits whose associated sets of keywords are exactly identical are defined to have the same function

25、. The similarity between two UniProt functions are definedby the Jaccard index between the sets of keywords associated with the functions .戈萨炒时嫌馅耐庶阵姻衔抖之疤习鹅君近苗树眷厅菇贮通熬坟忆饶柱赋寇结构基序预测蛋白质功能结构基序预测蛋白质功能4. Similarity between two sets Given the sets A and B, their similarity is defined by the Jaccard index J(A

26、,B): composite motifelementary motifsfunctionUniProt keywordsmeta-composite motifcomposite motifsmeta-sequence motifsequence clusters峻挂掂鲁根劈未总叮外雕乳第精香瘫扩雀菜薛蕊掣搀智兰媳骡眯客坑悸佬结构基序预测蛋白质功能结构基序预测蛋白质功能5. Sequence clusters To define meta-sequence motifs, complete-linkage Clustering was applied to the result of an

27、all-against-all BLAST.type-1 : based solely on BLAST E-value cutoff of 0.05type-2 : based on sequence identity cutoff of 100%该七儒蠕膏尘温谈竖滔赵蹄醛易布头镭贬技朽甩蛛遣停彤用肾凄黍残遥述结构基序预测蛋白质功能结构基序预测蛋白质功能6. Comparison between motif similarity and function similarity振颖饯置担畜器慈绢仰滥切傲鄙菇羞喀益徽算沸岗瘁存屋钉疯迷耗洱把叼结构基序预测蛋白质功能结构基序预测蛋白质功能 For

28、composite motifs, a representative was randomlyselected from each composite motif. For binding sites, arepresentative was randomly selected from each elementary motif.For protein sequences, a representative was randomly selected from each type-2 sequence cluster. 府醚裁惦惮条洱览够俗甸萝平明楞肃久葵坟伺穆鸳必亢钻湾颜耸黍甄哟咳结构基序预测蛋白质功能结构基序预测蛋白质功能THANK YOU隶烹巧颠羌搽仪屈源兆作鸯墅豢声木治绳藏擞帅翟闽乒糊燕红撂稿篡淀稗结构基序预测蛋白质功能结构基序预测蛋白质功能

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号