KEGG使用教程

上传人:灯火****19 文档编号:121070235 上传时间:2020-02-15 格式:PDF 页数:21 大小:922.37KB
返回 下载 相关 举报
KEGG使用教程_第1页
第1页 / 共21页
KEGG使用教程_第2页
第2页 / 共21页
KEGG使用教程_第3页
第3页 / 共21页
KEGG使用教程_第4页
第4页 / 共21页
KEGG使用教程_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《KEGG使用教程》由会员分享,可在线阅读,更多相关《KEGG使用教程(21页珍藏版)》请在金锄头文库上搜索。

1、最近要学 KEGG 先粘2个有用的内容存档 以下是我归纳出的使用 KEGG 方法敲门 供给大家参 考使用 KEGG 数据库一个主要用途就是查询分析 pathway 然而直接通过网页打开的是一个图片形 式的数据 如下介绍如何利用下载的数据 以及使用软件 VisANT 首先需要安装 java 虚拟 机 太大了请自己去网上下载 来分析 KEGG 数据 以人类 MAPK 通路 编号 hsa04010 为例 一 如何确定一组基因 蛋白 是否在 MAPK 通路中 通过 ftp 下载人类 hsa04010相关的所有数据 找到 hsa04010 gene 这个文件 其中包含的 就是 geneid gene n

2、ame gene 的描述 通过这个表就能确定哪个基因是在这个通路中了 二 如何确定一组基因 蛋白 互作是否在 MAPK 通路中 首先通过 http www genome jp kegg xml KEGG regulatory pathways linked to KO http www genome jp kegg KGML KGML v0 6 1 ko ko04010 xml 下载 MAPK 通路的 xml 格式的数据 并保存为 xml 文件 hsa04010 xml 使用 VisANT 软件 http visant bu edu 进行分析 步骤如下 1 打开后 点击左边按钮 Clear 清

3、除以前的文件 2 点 File open 打开 hsa04010 xml 文件 这时出现 MAPK 调控网络 3 点 File Export as Tab Delimited File All 之后将在网页上出现如下格式的数据 K04463 K04464 1 M9999 0 0 K02308 K04426 1 M9999 0 0 K04371 K04376 1 M9999 0 0 K04375 K04379 1 M9999 0 0 将此数据 copy 下来 命名为 KO2KOppi 这里的 K0 编号意思是 KO KEGG Orthology ID 4 打开表 hsa04010 orth 将其

4、中的分号 全部替换为 Tab 符号 将全部的逗号替换为 Tab 符号 之后用 xls 打开 除去所有没有 KO 编号对应的行 我们得到了 KO 编号对 gene name 的表 命名为 KO2GENE 5 通过表 KO2KOppi 与表 KO2GENE 对应后 可以得到 gene2gene 的互作数据 6 使用这个gene2gene互作的这个表可以确定要研究的互作数据是不是在MAPK通路中 KEGG Kyoto Encyclopedia of Genes and Genomes 是系统分析基因功能 基因组信息 数据库 它有助于研究者把基因及表达信息作为一个整体网络进行研究 基因组信息存储在 G

5、ENES 数据库里 包括完整和部分测序的基因组序列 更高级的功能信息存储在 PATHWAY 数 据库里 包括图解的细胞生化过程如代谢 膜转运 信号传递 细胞周期 还包括同系保守 的子通路等信息 KEGG 的另一个数据库是 LIGAND 包含关于化学物质 酶分子 酶反应等 信息 可以免费获取 KEGG 提供的整合代谢途径 pathway 查询十分出色 包括碳水化合物 核苷 氨基酸等的代谢及有机物的生物降解 不仅提供了所有可能的代谢途径 而且对催化 各步反应的酶进行了全面的注解 包含有氨基酸序列 PDB 库的链接等等 KEGG 是进行生物 体内代谢分析 代谢网络研究的强有力工具 KEGG 简介 K

6、EGG 简介一 KECC 概况 全基因组及代谢途径数据库 虽然决定生物体基因分类的基因组测序工程有了飞速的发展 但对单个基因功能的研究 仍然相差甚远 同时活细胞的生物学功能是许多分子相互作用的结果 不能仅仅归功于单个 基因或单个分子 日本教育 科学 体育 文化部人类基因组计划于1995年5月建立了 KEGG 工程 KEGG 将基因组信息和高一级的功能信息有机地结合起来 通过对细胞内已知生物学 过程的计算机化处理和将现有的基因功能解释标准化 对基因的功能进行系统化的分析 KEGG 的另一个任务是一个将基因组中的一系列基因用一个细胞内的分子相互作用的网络连 接起来的过程 如一个通路或是一个复合物

7、通过它们来展现更高一级的生物学功能 其目的是由细胞或生物体的基因组信息去了解其较高层次的功能与作用之生物信息资 源 也就是整理出现存的调控网络 并建立其中每个组件与基因间的关系 一但研究者找到 基因即可透过 KEGG 让研究者由基因组至细胞层次做一整合性连结 并对生命现象做 in silico 分析 虽然 KEGG 的工作受到肯定 但距离理想目标还有一大段距离 因为反应路 径图上的每一个关系都应有文献资料做后盾 我们不能只相信一张可能带有个人偏见的路径 图 目前数据库中虽已建立各基因与其它数据库的关系 但它缺少的是讨论到路径正确性或 调控机制的数据 KEGG 是基因组破译方面的数据库 在后基因

8、时代一个重大挑战是如何使细胞和有机体 在计算机上完整的表达和演绎 让计算机利用基因信息对更高层次和更复杂细胞活动和生物 体行为做出计算推测 为达到此目的 人们建立了一个在相关知识基础上的网络推测计算工 具 在给出染色体中一套完整的基因的情况下 它可以对蛋白质交互 互动 网络在各种细 胞活动起的作用做出预测 二 KEGG 的组成 KEGG 现在由6个各自独立的数据库组成 分别是基因数据库 GENES database 通路数 据库 PATHWAY database 配体化学反应数据库 NGAND database 序列相似性数据库 SSDB 基因表达数据库 EXPRESSION 蛋白分子相互关系

9、数据库 BRITE 等 1 基因数据库 GENES database 含有所有已知的完整的基因组和不完整的基因组 有 细菌 蓝藻 真核生物等生物体的基因序列 如人 小鼠 果蝇 Arabidopsis 等等 总共 240943个条目 其总的条目数远远大于 SWISS PROT 数据库 基因数据库 GENES database 含有关于每个基因的最低限度的信息 并且在不断地更新和改进 同时还可作为通往其他相 关信息的路径 2 通路数据库 PATHWAY database 储存了基因功能的相关信息 通过图形来表示细胞 内的生物学过程 例如代谢 膜运输 信号传导和细胞的生长周期 在通路数据库 PATH

10、WAY database 中 有一部分由 ortholog group 图表组成的保守的亚通路 通路基序 信息 亚通 路是由染色体位置偶联的基因编码的 它对预测基因的功能有很大的作用 1 代谢通路 目前在通路数据库 PATHWAY database 中代谢通路是建立得最好的 有 大约90个参考代谢途径的图形 每个参考代谢途径是一个由酶或 EC 号组成的网络 利用如 下方法可通过计算机构建出生物体特有的代谢通路 先根据基因的序列相似性和位置相关性 确定基因组中酶的基因 然后合理地安排 EC 号 最后将基因组中的基因和参照通路中用 EC 号编号的基因产物结合起来 图4 5 19为通路数据库的页面尔

11、例 2 Ortholog group 图表 在 KEGG 中目前有83个 ortholog 图表 Ortholog 对单个基因 的序列的相似性进行识别 检查功能组 如保守的亚通路或分子复合物 中所有组分 KEGG ortholog grope 图表表达了三个特征 一个生物体是否具备组成一个功能组的完整基因 这些基因是否偶联在染色体上 在不同生物体中的 orthologous 基因是什么 例如在基 因组中的一个基因簇编码代谢通路中的功能相关的酶簇 在 KEGG 中 这样的相关簇首先被 一个启发式的图表比较算法检测 然后手工编辑为 ortholog group 图表 现有两种类型的 图表比较法 基

12、因组 通路和基因组 基因组比较法 一个 ortholog grope 图表是这样一 组比较的组成部分 它代表了一个通路的保守的部分 也就是通常说的通路基序 3 蛋白 蛋白反应 KKGG 通路表达的重点在于由基因产物的构成的网络上 其中包含 大多数蛋白和功能性 RNAs 代谢通路是蛋白 蛋白的间接相互作用 实际上是酶 酶相互作 用 形成的网络 而调节通路是蛋白 蛋白的直接相互作用 如结合 磷酸化 和另一种蛋白 蛋白的间接相互作用 通过基因表达与转录因子及基因的翻译产物相关联 构成的网络 一 般的蛋白 蛋白的相互作用包括了上面所述的这三种形式的相互作用 它是一个抽象的网 络 但是它在与基因组信息的

13、连接中起到关键作用 这样网络中的节点 基因产物 与基因织 中的节点 基因 就可以直接相连 有了这样一个蛋白 蛋白相互作用的网络 就可以增加手 工绘制的参考通路图了 3 配体数据库 LIGAND database 包括了细胞内的化学复合物 酶分子和酶反应的信 息 三 KEGG 的使用 KEGG 提供了 java 的图形工具用于浏览基因组图谱 比较两个基因组图谱 操作表达图 谱 还可作为比较序列 图表 通路的计算工具 KEGG 需要各种各样的计算工具用来维护基因数据库 GENES database 尤其是从 GenBank 中提取信息和对基因功能的系统化解释 网络注释工具和其他计算机工具一起用来

14、分配 EC 号 ortholog 识别符 合并文献中的新的实验证据 并且对以通路结构为基础的推 断做出解释 Ortholog 识别号可以作为查找工具 自动比较通路基因组和基因产物的基因 GENES 的主要检索系统是 DBGET LinkDB 系统 另外也有其他进入数据库的办法 包括 Java 虚拟的基因组图谱浏览器和文件分层浏览器 用于将基因目录进行功能性分层 表达 浏览器是 Java 图形浏览器中的一种 它可以分析从 cDNA 微序列或寡核苦酸序列实验中得到 的基因表达文件 从这样的功能性基因组实验中得到的大量数据将对基因组序列进行补充 这样有助于理解更高一级的细胞的生物学功能 利用与 KE

15、GG 的通路数据和基因组图谱数据 相连接的一个表达图谱浏览器的预备版本 用户可以检查一组共同调节的基因是否在通路上 也有相互联系或是否由染色体上的一群基因编码 四 KEGG 的 Object Identifier 本部分内容设定了隐藏 需要回复后才能看到 五 例子 KEGG 中每一个 Object 除基因外 都含有一个唯一的 KEGG 标识符 它包括一个5位数 的号码并有一个大写字母作为前缀 如 K05032和 D00336 或由一个有2 4的字母代码开头 的标识符 如 map00010和 br08301 每个 KEGG 的数据库资料都配有一个独特的标识符 如下图所示 Release Data

16、base Object Identifier 1995 KEGG PATHWAY map number KEGG GENES locus tag GeneID KEGG ENZYME EC number KEGG COMPOUND C number 2000 KEGG GENOME organism code T number 2001 KEGG REACTION R number 2002 KEGG ORTHOLOGY K number 2003 KEGG GLYCAN G number 2004 KEGG RPAIR A number 2005 KEGG BRITE br number KEGG DRUG D number 2007 KEGG MODULE M number KEGG DISEASE H number 下面我以一个例子来介绍怎样使用 pathway 在 KEGG 上找有关氨基酸代谢的代谢图 首 先打开 KEGG PATHWAY 找到 Amino Acid Metabolism 然后找相应的氨基酸代谢途径就可以 了 如点击 Glutamate metabolism 就

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号