《蛋白结构数据库.》由会员分享,可在线阅读,更多相关《蛋白结构数据库.(54页珍藏版)》请在金锄头文库上搜索。
1、PDB数据库 1.简介 美国Brookhaven实验室1971年建立的大 分子结构数据库PDB 蛋白质晶体结构 资料数据库 (Protein Data Bank)。 PDB数据库的维护由结构生物信息学 研究合作组织(Research Collaboration for Structural Bioinformatics, RCSB)负责。 2.数据来源 通过实验(X射线晶体衍射,核磁共振 ,电子显微镜方法等)测定的生物大分 子的三维结构。 主要是蛋白质的三维结构,还包括核酸 、糖类、蛋白质与核酸复合物的三维结 构。 3.数据统计 截止2008年4月,PDB数据库已含有 50277 个结构数据,
2、其中约93%是蛋白质 的结构。 Other 包括 proteins nucleicacids complexes X-ray NMR Microscopy 4.数据查询 PDB中的记录有唯一的PDB-ID,包括4 个字符串,可由大写字母AZ和数字09 组合而成。 PDB和它的镜像站点提供每个PDB记 录的查询,可按一些专门的查询项目( 如提交数据、作者姓名、结构表达)进 行检索。 例1:查询“PDB ID = 2ITY ”的结构数据 (1)登陆PDB网站 http:/www.rcsb.org/pdb/ (2)在上方的搜索栏选中“PDB ID or keyword ” ,在文本框中输入“2ITY
3、 ”,单击Site Search按钮,出现结果。 数据查看: (3)分别单击标签Biology & Chemistry生物学和化学, Materials & Methods材料和方法,Sequence Details细 分序列,Geometry几何形态,观察数据信息。也可以 单击Help查看帮助文件。 (4)回到Structure Summary组织摘要,标签,在右侧的 Images and Visualization区域可以观察蛋白的三维结构 ,可以单击KiNG,Jmol,WebMol等查看三维结构。 (5)单击左侧目录中的Download Files下载不同格式和内 容的文件;或下载FAS
4、TA序列文件;也可单击1adz 右 侧的Download PDB file 图标下载PDB文件(1adz.pdb) 。 例2:查询“人calmodulin (钙调素蛋白:一种钙结 合蛋白)” (1)登陆PDB网站 (2)单击Advanced search将Structure Title 限制为 human和calmodulin 单击Evaluate Query (3)得到多个结构数据,其中“PDB ID = 1GGZ”的搜 索结果最符合要求,是人上皮细胞中的钙调素样 蛋白,单击此ID,进入1GGZ的具体界面。 5.数据结构 PDB中对于每一个结构记录,包含名称 、参考文献、序列、一级结构、二级
5、结构 和原子坐标等信息。 每条记录有两种序列信息,一种是显式 序列信息(explicit sequence),一种是隐式序 列信息(implicit sequence)。 在PDB文件中,以关键字SEQRES作为 显式序列标记,以该关键字打头的每一行 都是关于序列的信息;PDB的隐式序列即 为立体化学数据,包括每个原子的名称和 原子的三维坐标。 PDB数据库的详细字段说明如下: HEADER分子类,公布日期,ID号 OBSLTE注明该ID号已改为新号 TITLE说明试验方法类型 CAVEAT可能的错误提示 COMPND化合物分子组成 SOURCE化合物来源 KEYWDS关键词 EXPDTA测定
6、结构所用的试验方法 AUTHOR结构测定者 REVDAT修订日期及相关内容 SPRSDE已撤销或更改的相关记录 JRNL发表坐标集的文献 REMARK 1有关文献 REMARK 2最大分辨率 REMARK 3用到的程序和统计方法 REMARK 4其他注解 DBREF其他序列库的有关记录 SEQADVPDB与其它记录的出入 SEQRES残基序列 MODRES对标准残基的修饰 HET非标准残基 HETNAM非标准残基的化学名称 HETSYN非标准残基的同义字 FORMUL非标准残基化学式 HELIX螺旋 SHEET折叠 TURN转角 SSBOND有二硫键存在 LINK残基间化学键 HYDBND氢键
7、 SLTBRG盐桥 CISPEP顺势残基 SITE特性位点 CRYST1晶胞参数 ORIGXn直角PDB坐标 SCALEn直角部分结晶学坐标 MTRIXn非晶相对称 TVECT转换因子 MODEL多亚基时显示亚基号 ATOM标准基团的原子坐标 SIGATM标准差 ANISOU温度因子 SIGUIJ各种温度因素导致的标准差 TER链末端 HETATM非标准基团原子坐标 ENDMDL亚基结束 CONECT原子间的连通性有关记录 MASTER版权拥有者 END文件结束 6.结构模型显示软件 RasMol RasMol是一个进行分子三维立体结构显示 的软件,可以非常方便地观察蛋白质、核酸以 及一些小分
8、子的三维结构,并在自己的个人电 脑上,以各种模式、各种角度,甚至按照自己 的意愿旋转,观察此分子的微观三维立体结构 ,进而了解化合物分子结构和各种微观性质与 宏观性质之间的定量关系。 例如:在RasMol软件下观察1GGZ.pdb结构 (1)下载并安装RasMol 2.7.3.1( http:/www.rasmol.org/software/rasmol/ ) (2)单击开始程序RaswinRaswin,运行RasMol。 (3)当运行RasMol时,程序首先打开具有黑色背景的主窗口 (显示窗口),同时也会打开另一个窗口,其背景色是白 色的,被称作“命令行窗口”。初始运行时,命令行窗口通 常为
9、最小化状态,用ALT+TAB键切换,即可打开该窗口 ,在主显示窗口的菜单中的任何选择和操作,均可在此窗 口中输入命令行实现。 (4)单击RasMol主菜单上的“File/Open”载入“人上皮细 胞calmodulin样蛋白”的结构数据(即1GGZ.pdb)。 (5)蛋白质分子的外观立体结构观察: 利用RasMol主菜单上的“Display”命令中的不同显 示模式来变换分子的三维立体结构的外观。 (6)蛋白质分子的外观立体结构的颜色显示模式: 利用主菜单上的“Colours”命令来选择不同的颜色 显示模式,以进一步更直观、清晰地展示所要观 察的分子的立体结构。 (7)蛋白质分子三维结构的选择性
10、显示: RasMol主菜单中的“Display”和“Colours”命令主要 用于分子的正常显示,在主菜单上还有一个 “Options”选项命令,可以进行一些非正常的显示。 (8)蛋白质分子三维结构的旋转显示: 鼠标点击窗口右方与下方的滚卷条,将以X轴或Y轴旋转。 将鼠标移至主屏幕区,按住鼠标左键,移动鼠标,就可以任意 旋转此分子。按住Shift键,同时按住鼠标的右键,移动鼠标,即 可实现以Z轴旋转。 通过命令行方式。 (9)蛋白质三维立体结构图像的输出 4.3.2 MMDB数据库 1.简介 分子模型数据库MMDB (Molecular Modeling Database)是一个关于三维生物分
11、子结构的数据库 ,是美国生物技术信息中心(NCBI)所开发的生物 信息数据库集成系统Entrez的一个部分。 MMDB是来源于PDB三维结构的一部分, MMDB重新组织和验证了这些信息,从而保证在 化学和大分子三维结构之间的交叉参考。 2.查询 (1)登陆网站 http:/www.ncbi.nlm.nih.gov/Structure/MMDB/m mdb.shtml (2)在文本框中输入“1ggz”(或者右下角的 PDB/MMDB Code文本框中 ),单击Go按 钮,显示查询结果。 家族构成 3D大分子结构保守区域数据库 3.三维结构显示程序 Cn3D Cn3D是MMDB一个配套的三维结构显
12、 示程序,它具有可靠的显示三维数据库 结构的能力。图像以动画形式显示,用 户可以旋转或缩放结构,也可以用条带 图、空间结构图、热能分布图等方式来 显示,掌握分子结构的不同功能 (1)在刚才的查询结果页,单击左侧结构图下方的View options,展开选项。 (2)Tasks选择Save File,Program选择Cn3D,Drawing 选择Backbone。 (3)在结构图上单击,下载文件3 。 (4)下载并安装Cn3D软件。 (5)开始程序NCBICn3DCn3D4.1 注:MMDB采用ASN.1的记录格式,而非PDB格式 。 4.3.3 SCOP数据库 1.简介 蛋白质结构分类数据库
13、SCOP (Structural Classification of Proteins)的目标是提供关于 已知结构蛋白质之间的结构和进化关系的 信息,所涉及的蛋白质包括结构数据库 PDB中的所有条目。 SCOP数据库除了提供蛋白质结构和进化 关系信息外,对于每一个蛋白质还包括下 述信息:到PDB的链接,序列,参考文献 ,结构的图像等。 SCOP的结构分类主要是通过人工来完成 的,通过图形显示器观察和比较蛋白质结 构,并借助于一些软件工具进行分析。 2.分类的层次结构 (1)家族: 具有明显进化关系的蛋白质聚集到一个 家族中,意味着两个蛋白质之间的等同 氨基酸残基数超过30%。然而,在某些情 况
14、下,虽然两个蛋白质序列不相似,但 它们具有相似的结构和相似的功能,表 明属于同一个家族。 (2)超家族: 超家族中的成员具有远源进化关系,具有 共同的进化源。 (3)折叠: 无论有无共同的进化起源,只要具有相同 排列和拓扑结构的主要二级结构,即将蛋 白质分类为具有相同的折叠。 3. SCOP查询 (1)网址:http:/scop.mrc-lmb.cam.ac.uk/scop/ (2)单击 top of the hierarchy SCOP首先从总体上将蛋白质进行分类,例如 全型,全型,以平行折叠为主的/型,以 反平行折叠为主的+型 等。 例如: SCOP1.73版本有46456个全型蛋白质,该
15、结构 类型下有258个折叠类。在这258个折叠类中的 第一个超家族是类球蛋白;类球蛋白又包含4个 家族,其中第一个家族包含6个结构域;每个结 构域下面有很多蛋白质成员。 也可以直接利用查找工具,查找特定的蛋白质1GGZ。 4.3.4 DSSP数据库 1.简介 蛋白质二级结构数据库DSSP (Database of Secondary Structure of Protein)是一个二 级结构推导数据库。对生物大分子数据库 PDB中的任何一个蛋白质,根据其三维结 构推导出对应的二级结构。 2.分类 结构描述分类 -helixH 310helixG -helixI -strandE -bridgeB or b CoilC, L or space TurnT BendS 3. DSSP查询 (1)网址: http:/www.sander.embl-heidelberg.de/dssp/ (2)DSSP的输出文件 1adz.dssp (3)DSSPcont查询 http:/cubic.bioc.columbia.edu/services/DSSPcont/