结核分枝杆菌(H37Rv)分泌性蛋白的生物信息学预测方法

上传人:油条 文档编号:1263672 上传时间:2017-06-04 格式:DOC 页数:11 大小:37KB
返回 下载 相关 举报
结核分枝杆菌(H37Rv)分泌性蛋白的生物信息学预测方法_第1页
第1页 / 共11页
结核分枝杆菌(H37Rv)分泌性蛋白的生物信息学预测方法_第2页
第2页 / 共11页
结核分枝杆菌(H37Rv)分泌性蛋白的生物信息学预测方法_第3页
第3页 / 共11页
结核分枝杆菌(H37Rv)分泌性蛋白的生物信息学预测方法_第4页
第4页 / 共11页
结核分枝杆菌(H37Rv)分泌性蛋白的生物信息学预测方法_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《结核分枝杆菌(H37Rv)分泌性蛋白的生物信息学预测方法》由会员分享,可在线阅读,更多相关《结核分枝杆菌(H37Rv)分泌性蛋白的生物信息学预测方法(11页珍藏版)》请在金锄头文库上搜索。

1、1结核分枝杆菌(H37Rv)分泌性蛋白的生物信息学预测方法【关键词】 结核分枝杆菌Bioinformatics prediction strategy for Mycobacterium tuberculosis (H37Rv) secreted proteins【Abstract】 AIM: To establish a prediction strategy for Mycobacterium tuberculosis (H37Rv) secreted proteins to pave the way for further research. METHODS: The whole pro

2、tome of H37Rv was scanned by SignalP and TMHMM. The protein date analysis system based on Visual FoxPro was established to process the output of SignalP and TMHMM and identify the secreted proteins. The sequences of the secreted proteins were aligned by BLASTp. RESULTS: One hundred and seventynine s

3、ecreted proteins were identified, where 12 of them were found to be unique in H37Rv. CONCLUSION: Bioinformatics approaches can be used as an assistant tool in secreted protein research.【Keywords】 Mycobacterium tuberculosis;secreted 2protein;signal peptide;bioinformatics【摘要】 目的:建立一种结核分枝杆菌(H37Rv) 分泌性蛋

4、白的预测方法,为后续研究提供参考依据. 方法:以 SignalP 和TMHMM 两个软件对结核分枝杆菌蛋白组进行扫描,基于 Visual FoxPro 构建 “蛋白质数据分析处理系统”对扫描原始数据进行分析处理以识别分泌性蛋白,再经 BLASTp 完成相似性比对. 结果:预测出了 179 种分泌性蛋白,其中 12 种为 H37Rv 所特有. 结论:生物信息学方法可作为一种研究分泌性蛋白的辅助工具,用于指导实验.【关键词】 结核分枝杆菌;分泌蛋白;信号肽;生物信息学0 引言结核分枝杆菌(Mycobacterium tuberculosis, MTB)的分泌蛋白不但在豚鼠实验中可以引发迟发性超敏反

5、应,在结核病患者体内也可诱导抗体的产生1,对结核病的预防和诊断具有重要意义. 目前有两种实验生物学方法用于 MTB 分泌蛋白的研究,一种是通过二维凝胶电泳的方法分离 MTB 早期培养滤液蛋白(CFP ) ,再通过 N 端测序2或免疫学方法加以确定3. 另一种是通过基因融合的方法将 MTB 的基因与报告基因融合后进行表达,再对报3告基因的表达产物进行定位,以确定是否为分泌表达4. 已有30 多种 MTB 分泌蛋白通过实验方法得以确认, 但 MTB 分泌蛋白远不止这 30 多种,尚有很多未被发现. MTB 蛋白分泌的主要途径是sec-依赖性的分泌途径也称为 II 型分泌途径,该类分泌蛋白的结构特点

6、是新生肽链的 N 末端具有典型的信号肽特征,主要分为 N 区、H 区、C 区三个部分. N 区位于信号肽 N 端,含有 13 个带正电荷的氨基酸残基;H 区位于信号肽中间,由 1015 个疏水氨基酸残基组成;C 区位于信号肽 C 端,富含亲水氨基酸,能被信号肽酶识别. 信号肽所具备的这些数量化特点为计算机自动化分析预测提供了可能.分泌蛋白和膜蛋白都含有信号肽序列,所不同的是分泌蛋白在信号肽之外不再有疏水的跨膜区,信号肽引导分泌蛋白跨膜穿梭之后,信号肽酶在相应位点将信号肽切除,以此完成成熟分泌性蛋白的分泌过程;而膜蛋白在信号肽之外还有一个以上的疏水跨膜区,信号肽在引导膜蛋白跨膜时,由于疏水跨膜区

7、的存在使得膜蛋白停留在细胞膜中. 本文预测 MTB 分泌性蛋白的方法主要涉及到两方面内容:一方面是对信号肽序列的识别,另一方面是对蛋白疏水跨膜区的识别. 首先通过对信号肽的识别将分泌性蛋白和膜蛋白从其他蛋白质组中区分出来,然后从中寻找疏水跨膜螺旋以区分分泌性蛋白和膜蛋白,最后利用 NCBI 提供的 MTB 蛋白序列相似性搜索(BLASTp)发现有 12 条预测出的分泌性蛋白为 MTB 所特有.41 预测方法预测方法如图 1 所示.1.1 搜集结核杆菌 H37Rv 基因组和蛋白组信息在美国国家生物技术信息中心(www.ncbi.nlm.nih.gov)的核酸数据库 Nucleotid中查寻关键词

8、“H37Rv complete genome”. 从搜索结果中查找H37Rv 全基因组,并以 FASTA 格式下载. 从英国基因组研究中心Sanger center 的数据库(ftp:/ftp.sanger.ac.uk/pub/tb/sequences/)下载全蛋白质组信息.1.2 分析数据分别向 SignalP 和 TMHMM 提交 H37Rv 蛋白组数据. 由于 SignalP 服务器对单次提交数据量有数量限制,因此将 H37Rv 蛋白组数据分为 8 次提交(Rv0001Rv0500,Rv0501Rv1000,Rv3501Rv3924). 另由于 Rv2048 单数据量过大,超过 Sign

9、alP 服务器对单数据的处理范围,因此将 Rv2048 C 端部分氨基酸残基除去(不影响 N 端信号肽分析). 由于 TMHMM 服务器对提交数据量没有限制,可一次全部提交. 返回数据一次保存.1.3 建立数据库根据本课题的实际需求,依据 SignalP 和5TMHMM 分析结果的数据特点,使用 VFP6.0 开发了“蛋白质数据分析处理系统”用来存储和处理 SignalP 和 TMHMM 的原始分析结果(图 2).1.4 获得分泌性蛋白和膜蛋白通过上述数据分析系统自动完成分泌性蛋白和膜蛋白的识别和查询.1.5BLASTp 分析将预测出的所有 H37Rv 分泌性蛋白通过NCBI 的 BLASTp

10、 服务器与所有已知的蛋白序列进行相似性比对,以获得结核杆菌 H37Rv 特有的分泌性蛋白.2 结果2.1H37Rv 基因组和蛋白组信息搜集从美国国家生物技术信息中心 www.ncbi.nlm.nih.gov 的核酸数据库 Nucleotid 中查寻到编号为 NC_000962 的记录,其中包含了 H37Rv 的全部基因组信息共 4 411 529 bp,从 Sanger 的数据库获得蛋白组信息,共 3924条蛋白序列数据.2.2H37Rv 蛋白组信号肽和跨膜区分析将 SignalP 和TMHMM 的原始分析结果通过“蛋白质数据分析处理系统”自动识别 N 端具有 N 区、H 区和 C 区等典型信

11、号肽特征的蛋白质和具有6典型跨膜螺旋特征的蛋白质,通过数据库的自动查询功能共发现了179 个分泌性蛋白(其中有 12 个已得到相关文献的证实,表 1)和150 个膜蛋白.表 1H37Rv 蛋白组信号肽和跨膜区分析结果(略)2.3BLASTp 分析对 179 条分泌性蛋白经 BLASTp 分析发现有 12 条蛋白为 H37Rv 特有,在其他物种已发表的蛋白质序列中无任何相似区域(表 2) .表 2BLASTp 分析结果(略)3 讨论在对结核杆菌 H37Rv 的 3924 条蛋白质分析过程中 SignalP共预测出了 573 条蛋白质含有信号肽;TMHMM 预测出了 786 条蛋白质含有疏水跨膜螺

12、旋,其中 623 条蛋白质含有信号肽. SignalP和 TMHMM 对信号肽预测结果的交集为 329 条,其中 150 条含有信号肽外疏水跨膜区被列为膜蛋白,其余 179 条蛋白不含信号肽外疏水跨膜区因而被列为分泌性蛋白.SignalP 和 TMHMM 的原始分析结果数据量非常大,每条蛋白质包含了“蛋白编号” 、 “可信度”以及“酶切位点”等 11 项不同信息,因此 H37Rv 的分析结果中信息量多达 43 164 条. 若要对 4 万多条信息进行人工比较将是一项费时、费力的工作,且人工比较的准确性也难得到保证. 我们开发出基于 Visual FoxPro 的7“蛋白质数据分析处理系统” ,

13、不仅能将 SignalP 和 TMHMM 的原始分析结果自动导入数据库,而且可对数据库中的各项数据进行比较,实现了将分泌性蛋白和膜蛋白的识别工作完全交给计算机来完成. 以前用人工方法可能要花费数周时间的工作,现在利用这套系统仅需数秒钟即可完成,同时排除了人为可能造成的错误.蛋白质的功能由其特定的空间结构决定,而这种空间结构又由蛋白质的氨基酸顺序决定. 如果两个蛋白质的一级序列相似,尤其是活性位点的一级序列相似,便很可能预示着这两种蛋白质具有相似的功能. 因此,对未知功能的蛋白质进行序列比对是生物信息学中的一项重要工作. 本研究通过对预测出的 179 种分泌性蛋白进行序列相似性比对(BLASTp

14、)发现其中有 12 种为结核杆菌所特有且功能未知. 可以设想,这 12 种蛋白质或许对结核杆菌的临床诊断具有一定的潜在应用价值. 作为分泌性蛋白,它们也可能是具有保护性作用的抗原,在治疗结核病的疫苗研究中成为新的靶点14.综上所述,利用该体系可实现对结核杆菌 H37Rv 分泌性蛋白和膜蛋白的快速预测. 我们开发的“蛋白质数据分析处理系统”可以处理所有 SignalP 和 TMHMM 的分析结果,因而该系统不仅能用于结核杆菌的分泌性蛋白和膜蛋白的预测,而且还可用于其他原核细胞或真核细胞的分泌性蛋白和膜蛋白的预测. 作为尝试性的研究,本课题还存在很多不足之处. 例如:该预测体系建立在GSP(Gen

15、eral secretory pathway)理论基础之上,虽然大多数蛋白8质的分泌途径遵守 GSP 理论,但是蛋白质的分泌过程却不止这一种途径,有些蛋白质的分泌并不需要信号肽的存在15 ,这类蛋白质无法被该系统检测出来. 另外,膜蛋白的疏水跨膜区有些是以 桶型结构存在16 ,而非 螺旋结构,因此在预测过程中有可能将这类膜蛋白误认为是分泌性蛋白.【参考文献】1 柏银兰,薛莹,李元,等.结核分枝杆菌分泌蛋白MPT64 的免疫学特性J. 第四军医大学学报, 2004,25(13) :1182-1184.2 Sonnenberg MG,Belisle JT. Definition of Mycoba

16、cterium tuberculosis culture filtrate proteins by twodimensional polyacrylamide gel electrophoresis, Nterminal amino acid sequencing, and electrospray mass spectrometryJ . Infect Immun, 1997,65(11):4515-4524.3 Weldingh K,Rosenkrands I,Jacobsen S,et al. Twodimensional electrophoresis for analysis of Mycobacterium tuberculosis culture filtrate and purification and characterization of six novel proteinsJ. Infect Immun, n

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 大学论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号