GEO数据库简介

上传人:我*** 文档编号:134417596 上传时间:2020-06-05 格式:PPT 页数:37 大小:4.47MB
返回 下载 相关 举报
GEO数据库简介_第1页
第1页 / 共37页
GEO数据库简介_第2页
第2页 / 共37页
GEO数据库简介_第3页
第3页 / 共37页
GEO数据库简介_第4页
第4页 / 共37页
GEO数据库简介_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《GEO数据库简介》由会员分享,可在线阅读,更多相关《GEO数据库简介(37页珍藏版)》请在金锄头文库上搜索。

1、GEO GeneExpressionOmnibus 数据库简介 报告人 沈健2014 3 8 近几年来 随着分子生物学技术的发展 微阵列芯片技术已成为生物学研究最重要的实验之一 尤其是基因芯片的广泛应用 产生了海量的数据 为基因研究提供大量高通量数据资料 基因芯片发展历程 DNA RNA印记杂交 斑点印迹法 基因芯片概述 基因芯片 DNA芯片 是通过微阵列技术 根据核酸杂交的原理 将大量探针分子固定于支持物上 然后与标记的样品进行杂交 通过检测杂交信号的强度及分布来进行分析 基因芯片技术流程 基因芯片技术流程 基因芯片检测结果 什么是GEO数据库 随着微阵列芯片技术尤其是基因芯片的广泛应用 产

2、生了海量的数据 为基因研究提供大量高通量数据资料 迫切需要一个统一管理的公共数据库 基因表达数据库 GeneExpressionOmnibus GEO 隶属于美国国立卫生研究院的NCBI GEO是当今最大 最全面的公共基因表达数据资源 网址 www ncbi nlm nih gov geo GEO数据库的构成 1 用户提交的原始数据 2 GEO数据库整理后的数据 平台 Platform 平台是描述一联串在特定实验中被检测或被定量分析的因素 同一个提交者 许多样本有关 是关于用于以高通量方式检查样本的物理试剂的信息 比如寡核苷酸探针组 cDNA SAGE标签 抗体等 平台 Platform 平台

3、数据包含阵列或序列以及阵列平台的简要描述 每一个平台都分配了一个特有的检索号GPL 例如平台GPL341 http www ncbi nlm nih gov geo query acc cgi acc GPL341 样本 Sample 样本是指以一个平台为基础 描述某个杂交实验或者实验条件的所有特征因素的大量测量信息 即关于被检查的mRNA样本 实验条件 和实验产生的基因表达测量数据信息 每个样品有一个而且只有一个必须先前被确定的亲代平台 同一个提交者 一个平台和许多系列有关 样本 Sample 样本数据描述了每个样本的操作环境 处理方法和分离出的各个成分的丰度测量 每个样本均分配了一个特有的

4、检索号GSM 例如样本GSM81022http www ncbi nlm nih gov geo query acc cgi acc GSM81022 系列 Series 系列是把构成某个实验的相关样本集中到一个有生物意义的数据集 同时可能还收集一些已被递呈者注明的重要基因或者分析结果纲要 即样本收集 样本是如何相关的 如何排序的 分析是如何进行的 和聚类数据是如何获得的信息 一个系列中的样品是通过某一共同的属性联结在一起的 同一个提交者 许多样本有关 系列 Series 系列数据将一系列相关的样本联系起来 提供了整个研究的关注点和描述 也包含了描述提取数据 简要结论和分析的表格 每个系列均分

5、配了一个特有的检索号GSE 例如系列GSE3541http www ncbi nlm nih gov geo query acc cgi acc GSE3541 数据集组 DataSets GEO存储的是一个分类广泛的 经过多种手段处理和不同方法分析的高通量实验数据 为了说明这些内容 GEO还增添了一个辅助分析工具 该工具可以把被提交的样本归纳集中到有生物学意义和在统计学上可比较的GEO数据集组 GEODataSets 能提供关于一个实验的相关梗概 以此作为下游数据挖掘和数据显示工具的基础 GEO数据集组 Datasets 储存了所有的元数据 提供了GEO数据以 实验为中心 的主要观点 数据集

6、组的检索为GDS 例如 GDS2225 表达谱 Profiles 表达谱数据储存了来自于DataSets基因表达谱信息 每一个表达谱都表现为一个能反映一个数据集组中所有样本的基因表达量的统计图 GEO表达谱 Profiles 储存了单个基因表达的数据资料 提供了GEO数据以 基因为中心 的主要看法 数据集组和表达谱的关系 在GEODataSets中每个数据集组个体都各自确定一个实验 而在GEOProfiles中每个数据集组都对应多个表达谱个体 对平台上的每个基因 比如基因A 有多个样本 测量值 多个相关样本构成一个数据集 从中可以产生单个或多个基因的表达谱比较图 GEO数据的数据检索 方法 从

7、GEO数据库主页面右侧找到搜索栏 直接输入要查找信息的关键词或者检索词 如 mir29a 或者 GDS2225ANDfto 就会搜索到相应的DataSets和Profiles 从主页面右侧直接打开库浏览器 从中按照不同的 系列 平台 样本 物种 历史 来进行选择需要的数据类型 直接从GEO数据库的ftp服务器下载 ftp ftp ncbi nlm nih gov geo GEO数据的数据检索 方法 直接从NCBI主页用Entrez进行检索 GEO数据主要存放在GEODataSets和GEOProfiles两个数据库内 Entrez是NCBI建立的生物医学数据库集成检索系统 Entrez集成系统

8、的最大特点是通过任何一个数据库检索出的信息可直接链接到Entrez其它数据库并找到相关的检索结果 GEO数据的数据检索 关键词 GEO可和其他NCBI数据库一样用标准关键词的方法和基于文本布尔检索 基于序列检索 基于特有表达行为挖掘检索或结合这些参数来进行检索查询例如 在GEODataSets中可以用检索词 prostatecancerANDhuman Organism 寻找有关人类前列腺癌微阵列实验数据集 GEO数据的数据检索 关键词 例如 在GEOProfiles数据库中可以用检索词fto GeneSymbol AND Smok 搜索所有与吸烟相关并包含肥胖基因的相关实验的基因表达谱 GE

9、O数据的处理 以数据集组GDS402为例来介绍一下GEO数据库提供的一些数据挖掘分析工具 Findgenes Findgenenameorsymbol 直接查找数据集组中该基因的基因表达谱 Findgenesthatareup downforthiscondition s 可以根据选择的实验筛选条件 来找到一系列随该筛选条件有较明显表达差异的基因表达谱 数据分析工具1 基因表达谱图 以Fto 肥胖基因 在二型糖尿病与肾脏功能试验中的表达谱为例 从原始样本记录中提取的基因表达值以红色的条形柱表示 蓝色条形柱代表内部样本的百分等级信息 以提供该基因与阵列上所有其它基因相互比较的相对表达水平值 数据

10、分析工具2 2 Compare2setsofsamples 选择比较方式和显著性水平选择A和B两组样本组进行A B样本组的比较查看两组基因可供比较的表达谱 数据分析工具3 3 Clusterheatmaps聚类分析图 Clusteranalysesareoneofthemostpowerfulmethodstomineandvisualizehigh dimensionaldata 包含三种聚类算法 层级聚类方法 Single Link 最近距离 Complete Link 最远距离 Average Link 平均距离 分散性聚类方法 K Medioids算法 特点 用类中的某个点来代表该聚类

11、 优点 能处理任意类型的属性 对异常数据不敏感 K Means算法 特点 聚类中心用各类别中所有数据的平均值表示 优点 应用最为广泛 收敛速度快 能扩展以用于大规模的数据集 缺点 倾向于识别凸形分布 大小相近 密度相近的聚类 中心选择和噪声聚类对结果影响大 按基因处于染色体上位置来聚类 数据分析工具3 数据分析工具4 4 Experimentdesignandvaluedistribution 箱线图 aboxplotdisplayingthedistributionofexpressionvaluesofeachSamplewithinaDataSet Theplotisusefulford

12、eterminingwhethertheDataSetisnormalized i e thevaluedistributionsaremedian centeredacrossSamples GEOBLAST 可以在GEO核酸数据库中进行序列比对 GEO2R工具 GEO2RisaninteractivewebtoolthatallowsuserstocomparetwoormoregroupsofSamplesinaGEOSeriesinordertoidentifygenesthataredifferentiallyexpressedacrossexperimentalconditions

13、 Resultsarepresentedasatableofgenesorderedbysignificance UnlikeGEO sotherDataSetanalysistools GEO2RdoesnotrelyoncuratedDataSetsandinterrogatestheoriginalSeriesMatrixdatafiledirectly ThisallowsagreaterproportionofGEOdatatobeanalyzedinatimelymanner GEO2R能利用开源软件R平台和bioconductor进行数据处理 基因芯片数据分析软件 bioconductor和R平台MATLABBioinformaticsToolbox 利用GEO2R比较同一系列中不同样本中的基因表达量差异 利用GEO2R求对比组的各样本中基因表达值在样本中的分布状况 包括箱线图和可供导出的数值 通过输入实验平台的某个指针项目ID 可以直接检索到该指针对应的基因在不同样本中的表达谱图 GEO2R程序在R平台上运行 Thanks

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号