基因表达谱芯片数据分析与其bioconductor实现

上传人:第*** 文档编号:61707533 上传时间:2018-12-10 格式:PDF 页数:17 大小:363.42KB
返回 下载 相关 举报
基因表达谱芯片数据分析与其bioconductor实现_第1页
第1页 / 共17页
基因表达谱芯片数据分析与其bioconductor实现_第2页
第2页 / 共17页
基因表达谱芯片数据分析与其bioconductor实现_第3页
第3页 / 共17页
基因表达谱芯片数据分析与其bioconductor实现_第4页
第4页 / 共17页
基因表达谱芯片数据分析与其bioconductor实现_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《基因表达谱芯片数据分析与其bioconductor实现》由会员分享,可在线阅读,更多相关《基因表达谱芯片数据分析与其bioconductor实现(17页珍藏版)》请在金锄头文库上搜索。

1、 1 基因表达谱芯片数据分析及其 Bioconductor 实现 1. 表达谱芯片及其应用 表达谱DNA芯片(DNA microarrays for gene expression profiles)是指将大 量DNA片段或寡核苷酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片, 待测样品中的mRNA被提取后,通过逆转录获得cDNA,并在此过程中标记荧 光,然后与包含上千个基因的DNA芯片进行杂交反应30min20h后,将芯片上 未发生结合反应的片段洗去,再对玻片进行激光共聚焦扫描,测定芯片上个点 的荧光强度,从而推算出待测样品中各种基因的表达水平。用于研究基因表达 的芯片可以有两种: cDN

2、A芯片; 寡核苷酸芯片。 cDNA芯片技术及载有较长片段的寡核苷酸芯片采用双色荧光系统:目前 常用 Cy3一dUTP(绿色)标记对照组mRNA,Cy5一dUTP(红色)标记样品 组 mRNA1。 用不同波长的荧光扫描芯片, 将扫描所得每一点荧光信号值自动 输入计算机并进行信息处理, 给出每个点在不同波长下的荧光强度值及其比值 (ratio值),同时计算机还给出直观的显色图。在样品中呈高表达的基因其杂 交点呈红色,相反,在对照组中高表达的基因其杂交点呈绿色,在两组中表达 水平相当的显黄色,这些信号就代表了样品中基因的转录表达情况2 基因芯片因具有高效率,高通量、高精度以及能平行对照研究等特点,被

3、 迅速应用于动、植物和人类基因的研究领域,如病原微生物毒力相关基因的。 基因表达谱可直接检测mRNA的种类及丰度,可以同时分析上万个基因的表达 变化,来揭示基因之间表达变化的相互关系。表达谱芯片可用于研究: 同一 个体在同一时间里,不同基因的表达差异 。芯片上固定的已知序列的cDNA或 寡聚核苷酸最多可以达到30 000多个序列,与人类全基因组基因数相当,所以 基因芯片一次反应几乎就能够分析整个人的基因 。 3。 同一个体在不同时间 里,相同基因的表达差异。 不同个体的相同基因表达上的差异 。利用基因芯 片可以分析多个样本, 同时筛选不同样本 (如肿瘤组织、 癌前病变和正常组织) 之间差异表达

4、的基因,这样可以避免了芯片间的变异造成的误差4 。张辛燕5 等将 512个人癌基因和抑癌基因的cDNA用点样仪点在特制玻片上制成表达谱 芯片,对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究,结果 发现在卵巢癌组织中下调的基因有23个,上调的基因有15个,初步筛选出了卵 巢癌相关基因。Lowe6等利用胰腺癌、问充质细胞癌等组织的cDNA制备基因 芯片,筛选到胰腺癌细胞中高表达的基因,为医疗诊断、病理研究及新药设计 2 奠定基础。 2. 表达谱芯片的数据处理技术 2.1 探针水平数据(probe-level data)的获得 提取生物样品的mRNA并反转录成cDNA,同时用荧光素或同位素

5、标记。 在液相中与基因芯片上的探针杂交, 经洗膜后用图像扫描仪捕获芯片上的荧光 或同位素信号7 2.2 预处理 ,由此获得的图像就是基因芯片的原始数据(raw data),也 叫探针水平数据。获取探针水平的数据是芯片数据处理的第一步,然后需要对 其进行预处理 (pre-processing) , 以获得基因表达数据 (gene expression data) 。 基因表达数据是芯片数据处理的基础。 2.2.1 背景(background)处理 背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。 一般以图 像处理软件对芯片划格后, 每个杂交点周围区域各像素吸光度的平均值作为背 景。但此法

6、存在芯片不同区域背景扣减不均匀的缺点,同时会使157的 点产生无意义的负值。也可利用芯片最低信号强度的点(代表非特异性的样本 与探针结合值)或综合整个芯片非杂交点背景所得的平均值做为背景8 。 Brown8 背景处理之后,我们可以将芯片数据放入一个矩阵中: 等提出利用整个芯片杂交点外的平均吸光度值作为背景的best-fit方 法,使该问题得到较好的解决,并有效地提高了处理数据的质量。 M = 其中,各字母的意义如下: N:条件数; G:基因数目(一般情况下,GN) ; 行向量mi=(mi1,mi2,miN 列向量mj=(m )表示基因i在N个条件下的表达水平(这里指绝 对表达水平,亦即荧光强度

7、值) ; 1j,m2j,mGj 元素m )表示在第j个条件下各基因的表达水平(即一张 芯片的数据) ; ij 2.2.2 数据清洗(data cleaning) 表示第基因i在第j个条件下(绝对)基因表达数据。m可以是R(红 色,Cy5,代表样品组) 。也可以是G(绿色,Cy3,代表对照组) 。 11121 22122 12 N N GGGN mmm mmm mmm 3 经过背景校正后的芯片数据中可能会产生负值, 显然负值是没有生物学意 义的。数据集中还可能包括一些单个异常大(或小)的峰(谷)信号,它们被 认为是随机噪声。 另外, 对于负值和噪声信号, 通常的处理方法就是将其去除。 然而,数据

8、的缺失(除了上述原因会造成数据缺失以外,扫描的过程中也可能 会产生缺失)对后续的统计分析(尤其是层式聚类和主成分分析)有致命的影 响。所以对数据的删除,通常是删去所在的列向量或行向量。一个比较常用的 做法是,事先定义个阈值M。若行(列)向量中的缺失数据量达到阈值M,则 删去该向量。若未达到M,有两种方法处理,一是以0或者用基因表达谱中的 平均值或中值代替,另一个是分析基因表达谱的模式,从中得到相邻数据点之 间的关系,据此利用相邻数据点估算得到缺失值(类似于插值)。 2.2.3 归一化( 经过背景处理和数据清洗处理后的修正值反映了基因表达的水平 normalization) 9。然而 在芯片试验

9、中,各个芯片的绝对光密度值是不一样的,在比较各个试验结果之 前必需将其归一化(normalization,也称作标准化)。在同一块芯片上杂交的、 由不同荧光分子标记的两个样品间的数据,也需归一化。常用的标准化方法有 “看家基因法”、基于总光密度的方法、回归方法、比率统计法 10 “看家基因(house-keeping gene)”法 等。 此法最为常用,可以用于几张芯片的数据归一化。它预先选择一组表达水 平不变的看家基因,计算出这组基因平均ratio值为1时标准化系数,然后将其 应用于全部的数据以达到归一化的目的。但是目前尚未找到理想的看家基 因11,另外此前有研究表明,所谓“看家基因”在不同

10、实验条件下其表达水平同 样发生变化12 基于总光密度的方法 。 此方法用于标准化同一块芯片上杂交的两种样品,它假设两批待标记的 mRNA的量相同;相对于对照组样品,实验组的表达应既有上调也有下调。而 且,扫描所得的所有Cy5和Cy3荧光分子的光密度值是相同的。据此计算出一 个标准化系数,用以重新计算芯片上每个基因的光密度。 13 回归的方法 此方法用于标准化同一块芯片上杂交的两种样品。如果mRNA来自紧密相 关的样品,那么大部分基因的表达水平是相近的。这样,在以Cy5和Cy3为坐 标的散点图上,这些基因应呈一直线。如果两批样品的标记和检测效率相同, 则直线的斜率也是惟一的。那么,标准化这些数据

11、就等同于用回归的方法计算 其最适斜率。但在实际试验中,光密度值常为非线性,此时应该使用局部回归 方法,如LOWESS(1ocally weighted scatterplot smoothing)回归法。 13 4 比率统计法 此方法用于标准化同一块芯片上杂交的两种样品, 并且建立于以下的假设 之上:在近似的两个样品中,虽然基因有上调和下调,但一些基本的基因(如 管家基因) 的表达量是近似相同的。 由此得出一个近似概率密度公式: 比率T =R /G(R 和G分别是芯片上第K个点的红光和绿光的强度),经过迭代算法处理 得到一个平均表达比率及其可信限,用于数据的标准化计算。 13 2.3 基因表达

12、数据 经过预处理,探针水平数据转变为基因表达数据。为了便于应用一些统计 和数学术语,基因表达数据仍采用矩阵形式。 随着生物学进入后基因组学时代, 类似芯片数据这样的的非序列生物数据 几乎呈指数形式膨胀。这些生物数据往往维数高,具有异质性和网络性,传统 的分析方法已不能胜任,发展优秀的算法分析生物数据成为生物学研究的瓶 颈。 数据挖掘等决策支持技术因其在大规模数据处理方面的卓越能力而在其中 占据越来越重要的地位14 数据挖掘也被称为数据库知识发现(knowledge discovery in database, KDD) , 是从数据库中识别出有效的、 新颖的、 潜在有用的并且最终可理解的、 模

13、式的非平凡过程 。 15。 迄今还没有一套完整、 统一的数据挖掘理论体系来指导 如何获取有用信息16 2.4 差异表达基因(differentially expressed genes,DEGs)筛选 。 用于检测基因表达水平的DNA微阵列的应用之一是比较实验, 目的是比较 两个条件下的基因差异表达, 从中识别出与条件相关的特异性基因或显著差异 表达的基因。 2.4.1 倍数变化法(fold chang, FC) 比较两个各不同生物样本时,可根据ratio值来筛选,一般认为ratio值在0.5 2.0范围内的基因不存在显著表达差异,该范围之外则认为表达有显著差异。 当然,上述范围需要根据不同实

14、验条件作调整。 FC法的优点是简单直观,需要的芯片量少,节约研究成本16;缺点是结 论过于简单,其阈值的划分主观性较强、缺乏生物学和统计学支持,尤其对于 分析样本中的低拷贝或高拷贝转录子,容易产生假阳性和假阴性问题12 2.4.2 参数分析(parameter analysis) 。 一 般而言,FC法可用于对于预实验和实验初筛。 t-检验(t-test) t 检验可用于两个生物条件下多个重复样本的差异表达基因的筛选。当 t 超过根据可信度选择得标准时,比较的两样本被认为存在着差异。受样本量和 5 成本的限制,研究者提出了调节性 t 检验(regulated t-test)。它根据在基因 表达

15、水平和变异之间存在着相互关系, 相似的基因表达水平有着相似的变异这 个经验,应用贝叶斯条件概率统计方法,通过检测同一张芯片上其他临近基因 表达水平,理论上可对任何基因的变异程度估计进行弥补。调节性 t 检验法 对基因表达的标准差估计优于一般t检验和FC法20 F 检验 。 F 检验又称变异数分析或方差分析(analysis of variance, ANOVA)。F 检 验适用于多个生物条件下DEGs的检测,它检验两个或多个样本均数的差异是 否有统计学意义。方差分析需要参照实验设计,参照样本常用多种细胞的 mRNA混合而成,由于所有的细胞同时表达基因众多,结果低表达基因在样本 混合后就被稀释而

16、减少了参照样本的代表性,因此,增加参照样本的细胞不会 提高参照样本的代表性。 方差分析的缺点在于虽然能计算出那些基因有统计差异, 但是他没有对那 些组之间有统计差异进行区分。如果相区分组间的统计差异,则需要使用均值 间的两两比较(post-hoc comparisons)检验,该检验是对方差分析后的基因进 行下一水平更细节的分析15 回归分析(regression analysis) 。 基因表达谱的回归分析可以处理多个基因变量间线性依存关系, 研究者提 出了“使用回归分析的基因表达谱数据”。Li 等22使用互变量(Cox)回归方 法分析基因表达谱数据,用于患者的生存率预判;Huang 等23 2.4.3 非参数分析(nonparamet

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号