万维网上的分子生物学信息资源——介绍布鲁克海文brookhaven蛋白质数据库

上传人:w****i 文档编号:111819078 上传时间:2019-11-03 格式:PDF 页数:4 大小:211KB
返回 下载 相关 举报
万维网上的分子生物学信息资源——介绍布鲁克海文brookhaven蛋白质数据库_第1页
第1页 / 共4页
万维网上的分子生物学信息资源——介绍布鲁克海文brookhaven蛋白质数据库_第2页
第2页 / 共4页
万维网上的分子生物学信息资源——介绍布鲁克海文brookhaven蛋白质数据库_第3页
第3页 / 共4页
万维网上的分子生物学信息资源——介绍布鲁克海文brookhaven蛋白质数据库_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《万维网上的分子生物学信息资源——介绍布鲁克海文brookhaven蛋白质数据库》由会员分享,可在线阅读,更多相关《万维网上的分子生物学信息资源——介绍布鲁克海文brookhaven蛋白质数据库(4页珍藏版)》请在金锄头文库上搜索。

1、 电子工程师,1 9 9 9 年增刊 万维网上的分子生物学信息资源 介绍布鲁克海文( B r o o k H a v e n ) 蛋白质数据库 周果宏刘雪韩利 首娜医科大学生物医李s权京( 北京, 1 0 0 0 5 4 ) . 要 本文简要介绍布鲁克海文蛋白 质数据库( T h e B r o o k H a v e n P r o t e i n D a t a B a n k - P D B ) , 它是经实验洲定的、 关于生物大分子三维结构的数据档案. 为全球服务. 其内容包括原子坐 标、 参考文献、 一级和二级结构信息, 还包括晶体结构因数以及N MR实验数据. P D B时事通 讯

2、和C D R O M每三个月发布一次. 关.词蛋白质数据库万维网 P D B由联邦政府代理基金会与用户提 供的经费联合资助。 由美国国家科学墓金、 美 国公众健康服务部、 国家健康协会、 国家研究 资源中心、 国家综合医学院、 国家医学图书 馆, 以及美国能源部在 D E - A C 0 2 一 7 6 C H 0 0 0 1 6 合约之下与用户提供的费用共 同支持. 可以看出, P D B中主要收集蛋白质的结 构信息, 也包括了少f的核酸及艳的三维结 构。 获得信息的实验技术主要为X射线衍射 技术以及N MR实验技术. 1 P D B数据库内容统计 P D B创立于 1 9 ” 年, 到了

3、9 0年代, P D B中数据开始逐步发展丰富起来。据统 计, 从1 9 9 2 年1 9 9 6 年该库收集的生物大 分子结构的数目 分别是1 0 0 7 , 1 7 2 7 , 2 9 2 1 , 3 8 2 1 和 4 7 0 7 , 平均每年递增 5 0 %, 到 1 9 9 8 年4 月8日 为止, 该库共收集了7 4 2 9 个原 子坐标的人口 文件, 1 7 3 9 个结构因数文件, 4 2 9 个N MR抑制文件. 1 9 9 8 年4 月8日 载人的P D B大分子坐 标人口数目列表如下: 分子类旦衍射 NMR 理论 建棋 总计 蛋白 质, 编氛酸, 病毒 5 4 8 39

4、5 31 5 76 5 9 3 核酸3 5 01 7 01 55 3 5 蛋白质/ 核酸合成物 2 3 84 29 2 8 9 特I 1 02 0 I 1 2 其它 。 000 总计 6 0 8 11 1 6 7 一1 1 8 1 7 4 2 9 2 P D B教据库文件结构 在蛋白质晶体结构数据库P D B中, 各大 分子结构是以分立的文件形式记录的, 这些 文件被称作P D B的人口 文件( e n t r y ) 。 一个 文件只反映某个大分子结构的信息。 每个大 分子结构通过唯一的I D码( 四位代码) 来识 别。早期的人口文件名后级为“ . p d b ; , 一种 大分子对应一个文

5、件, 如: 阿比西尼亚卷心菜 ( C R A MB E A B Y S S I N I C A) 种子蛋白的 I D 码是1 C R N , 其人口文件名为l c r n . p d b , 9 7 年以后, 每一种生物大分子有一组( 3 个) 相 关文件与之对应, 它们是: 全文文件、 书目文 件、 图形文件, 例如, 抗菌素MI N O R C O A T P R O T E I N的I D码是l g 3 p , 它的3 个相关 文件分别为l g 3 p . f u l l ( 全文文件 ) , l g 3 p . b i b l i o( 书目 文件 ) 、 l g 3 p . g i

6、f ( 图形文件 ) ; 免疫球蛋白的I D码为l a p 2 , 它的3 个相关 文件分别为 l a p 2 . f u l l , l a p 2 . b i b l i o , l a p 2 . g i f , 等等。 在这三个文件中, . f u l l 文件相当 于 原来的. p d b 文件。 每一个P D B 人口文件包含有标题部分、 .4 6 0. 周果宏, 等: 万维网上的分子生物学信息资裸介绍布鲁克海文( B r o o k H a v e n ) 蛋白质数据库 注释部分、 一级结构、 异质、 二级结构、 连通性 注释、 各种特性、 结晶学、 坐标变换、 原子坐 标、 化

7、学连接、 薄记等1 2 个部分。 文件中每一 行被称作一条记录, 也被称作人口( e n t r y ) , 可理解为记录人口。每行包括3 0 列, 每个记 录人口的最后一个字符是一个e n d -o f - l i n e ( 行结束符) 。 P D B文件也可以被看作记录类型 ( r e c o r d t y p e ) 的集合。它和一般的关系数据 库概念不同。 在关系数据库的库文件中, 每条 记录由不同数据类型和数据格式的若干字段 组成, 所有记录的字段结构都是相同的。 而在 P D B文件中, 包含众多的记录类型, 每类记 录都有不同的格式。 基于记录类型在一个 P D B人口文件中

8、 出现的次数可将一组记录划分成以下六类之 S i n g l e : 单次记录型。如 H E A D E R , E N D . . . , 在一个文件中仅出现一次, 没有接 续部分。 S i n g l e C o n t i n u e d ; 单次接续型。 如A U - T H O R , C A V E A T , C O MP N D . . . , 在一个文 件中概念性地存在一次, 其内容超过一行, 可 表示在后续行中, 这些后续行包括一个接续 指示字段。 Mu l t i p l e : 多次记录型, 在一个文件中出 现多次。如A T O M, C O N E C T , H E

9、 L I X . . . , 在这类记录类型中信息以列表的形式出现。 M u lt i p l e C o n t i n u e d : 多次接续型。如 F O R MU L , H E T A T M, H E T N A M, 在一个 人口 文件中概念性地存在多次, 每条记录内 容超过一行的部分, 可表示在后续行中. 这些 后续行包括一个接续指示字段。 G r o u p i n g : 用来 作为其它记录类别的分 组标志记录型。如: E N D MD L , M O D E L , TE R 。 O t h e r : 其它记录类型, 如: J R N L - 定义坐标系列的文献引用。

10、 R E MA R K一般注释。 每个记录类型被固定的列数分割成若干 字段, 字段应包含数据类型、 字段名和字段定 义。没有被定义的列应留空。 3 P D B文件中对于大分子结构的描 述 3 . 1 蛋白质一级结构 在生物化学上定义一级结构为蛋白质分 子中氨基酸残基的排列顺序。一级结构中的 氨基酸是蛋白质最基本的结构单位, 标准的 氨基酸有二十几种, 在一个氨荃酸中含有氨 基-N H 2 和散基-0 0 0 H, 若氮基中失去一 个H原子, 梭基中失去O H基团. 就形成了 残基。 两个氨基酸可以脱水缩和成肤, 形成肤 键和稳定的肤平面。 相邻两个氨基酸残基以 肤键相连接, 依次连接下去即构成

11、了一级结 构一肤链。 在P D B人口 文件中, 蛋白质一级结构部 分主要描述生物大分子每条链中氨基酸的排 列顺序. 该部分包含有D B R E F , S E Q A D V , S E Q R E S , M O D R E S等4 种记录, 其中S E - Q R E S 记录对氨荃酸残荃有序排列进行了描 述。 例如, 在l g 3 p 人口 文件中共有1 7 条S E - Q R E S 记录, 每行为一条记录, 按排列顺序列 出氨基酸残基, 一行一行连贯下去, 就组成了 由A L A, G L U, T H R, . . . , VA L, A S N, A L A 氨荃酸残基顺序连

12、接而成的肤链。 3 . 2异质 在P D B 文件的异质( H e t e r o g e n ) 部分包 含了对非标准氨基酸残荃的说明。这部分包 含 H E T, HE T N A M, H E T S Y N, F O R MUL 4 种记录。 H E T记录描述了已给出坐标的非标 准氮基酸, 如. 溶性分子、 辅签、 铁等, 同时也 描述未知化学名称的异质。在 l g 3 p 人口文 件里, 有关H E T的第一条记录为: H E T TRO 2 1 1 5 这里“ H E T “ 为记录名称, T R O为H E T 标识符, 2 1 为顺序编号, 1 5 为H E T A T M记

13、录中本组群出 现的次数, 也就是说, 本记录描 述了顺序编号为 2 1 的非标准氨苍酸 T R O .4 6 1. 电子工程师1 9 9 9 年增刊 在坐标人口H E T A T M 记录中出现 1 5次。 H E T N A M记录描述了具有给定非标准氨基 酸标识符的化合物的化学名称。例如, l g 3 p 文件中H E T N A M记录之一为: HE TNAM S 04 S UL F ATE I ON 描述了H E T标识符为S 0 4 的化合物的 化学名称为S U L F A T E I O N. F O R MU L记 录描述了非标准组群的化学表示式及其所带 的电荷数。 3 . 3

14、蛋白质二级结构 二级结构是指多肤链的主链骨架以肤平 面为单位盘曲、 折盈而形成的构象。 二级结构 包括了三种情况: ( 1 )( 一h e l i x( ( 一螺旋 ) ( 上、 下螺旋以 氢键连接) ( 2 ) p - p l e a t e d s h e e t ( P 一片层 ) ( 肤链 或肤段间以氢键连接) ( 3 ) 0 - b e n d甲一转角)(指肤链中相邻 的第一个氮基酸残基的暇与第四个氨基酸残 基的氢形成氢健) 。 在0 一片层中, 肤键平面 折盈成锯齿状. 相邻两肤链平面之间的夹角 呈1 1 0 0 角。 在P D B 人口文件中, 描述蛋白质二级结 构的有H E L

15、 I X 、 S H E E T , T U R N三种记录。 H E L I X记录用于描述分子中( 一螺旋 结构的位置。 给出螺旋的名字和编号, 标示出 螺旋开始和结束处的残基, 以及总长度。 S H E E T记录用于描述分子中俘 一片层结构 的位It。 记录格式与H E L I X类似。 T U R N记 录描述折盈和转角。 3 . 4 化学连接部分 这一部分描述了有关二硫键及其它一些 化学连接情况, 描述化学连接的记录有 S S B OND, C ONE C T, L I NK, HYDB ND, C I S P E P等五种记录。S S B O N D记录描述了 AT OM 1 N

16、 AL A 1 一1 0 . 6 8 4 ATOM 2 CA AL A 1一1 0 . 4 5 9 AT OM 3 C A L A 1 一1 0 . 3 6 0 A TOM 4 O A L A 1 一1 0 . 8 2 6 .4 6 2. 蛋白 质和多肤结构中的二硫键, C O N E C T记 录表示了其它记录未能表示出的原子间关联 状态。 例如, 在l g 3 p 文件中, 有关C O N E C T 的第一条记录为: C ONEC T 4 9 4 8 2 9 9 这里” C O N E C T” 为记录名称, 其后内容 表示在A T O M或H E T A T M记录中的第4 8 位原子和第2 9 9 位原子分别与第4 9 位原子 有成链关系。L I N K记录详细描述了在一级 结构中不能明确的残基间的关系, 它实质上 是上面介绍的C O N E C T记录的一个补充。 H Y D B N D记录描述了原子间形成的氢键。 3 . 5 坐标章节 坐标章节主要记录了原子的坐标, 相关 的记录有: A T O M, H E T A T I

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号