基因表达谱芯片数据分析及其Bioconductor实现

资源描述

《基因表达谱芯片数据分析及其Bioconductor实现》由会员分享，可在线阅读，更多相关《基因表达谱芯片数据分析及其Bioconductor实现（17页珍藏版）》请在金锄头文库上搜索。

1、基因表达谱芯片数据分析及其Bioconductor实现1. 表达谱芯片及其应用表达谱DNA芯片（DNA microarrays for gene expression profiles）是指将大量DNA片段或寡核苷酸固定在玻璃、硅、塑料等硬质载体上制备成基因芯片，待测样品中的mRNA被提取后，通过逆转录获得cDNA，并在此过程中标记荧光，然后与包含上千个基因的DNA芯片进行杂交反应30min20h后，将芯片上未发生结合反应的片段洗去，再对玻片进行激光共聚焦扫描，测定芯片上个点的荧光强度，从而推算出待测样品中各种基因的表达水平。用于研究基因表达的芯片可以有两种： cDNA芯片；寡核苷酸芯片。c

2、DNA芯片技术及载有较长片段的寡核苷酸芯片采用双色荧光系统：目前常用 Cy3一dUTP（绿色）标记对照组mRNA，Cy5一dUTP（红色）标记样品组 mRNA1。用不同波长的荧光扫描芯片，将扫描所得每一点荧光信号值自动输入计算机并进行信息处理，给出每个点在不同波长下的荧光强度值及其比值（ratio值），同时计算机还给出直观的显色图。在样品中呈高表达的基因其杂交点呈红色，相反，在对照组中高表达的基因其杂交点呈绿色，在两组中表达水平相当的显黄色，这些信号就代表了样品中基因的转录表达情况2。基因芯片因具有高效率，高通量、高精度以及能平行对照研究等特点，被迅速应用于动、植物和人类基因的研究领域，如病原

3、微生物毒力相关基因的。基因表达谱可直接检测mRNA的种类及丰度，可以同时分析上万个基因的表达变化，来揭示基因之间表达变化的相互关系。表达谱芯片可用于研究：同一个体在同一时间里，不同基因的表达差异。芯片上固定的已知序列的cDNA或寡聚核苷酸最多可以达到30 000多个序列，与人类全基因组基因数相当，所以基因芯片一次反应几乎就能够分析整个人的基因3。同一个体在不同时间里，相同基因的表达差异。不同个体的相同基因表达上的差异。利用基因芯片可以分析多个样本，同时筛选不同样本（如肿瘤组织、癌前病变和正常组织）之间差异表达的基因，这样可以避免了芯片间的变异造成的误差4 。张辛燕5等将 512个人癌基因和抑癌

4、基因的cDNA用点样仪点在特制玻片上制成表达谱芯片，对正常人卵巢组织及卵巢癌组织基因表达的差异性进行比较研究，结果发现在卵巢癌组织中下调的基因有23个，上调的基因有15个，初步筛选出了卵巢癌相关基因。Lowe6等利用胰腺癌、问充质细胞癌等组织的cDNA制备基因芯片，筛选到胰腺癌细胞中高表达的基因，为医疗诊断、病理研究及新药设计奠定基础。 2. 表达谱芯片的数据处理技术2.1 探针水平数据（probe-level data）的获得提取生物样品的mRNA并反转录成cDNA，同时用荧光素或同位素标记。在液相中与基因芯片上的探针杂交，经洗膜后用图像扫描仪捕获芯片上的荧光或同位素信号7，由此获得的图像就

5、是基因芯片的原始数据（raw data），也叫探针水平数据。获取探针水平的数据是芯片数据处理的第一步，然后需要对其进行预处理（pre-processing），以获得基因表达数据（gene expression data）。基因表达数据是芯片数据处理的基础。2.2 预处理2.2.1 背景（background）处理背景处理即过滤芯片杂交信号中属于非特异性的背景噪音部分。一般以图像处理软件对芯片划格后，每个杂交点周围区域各像素吸光度的平均值作为背景。但此法存在芯片不同区域背景扣减不均匀的缺点，同时会使157的点产生无意义的负值。也可利用芯片最低信号强度的点（代表非特异性的样本与探针结合值）或综合整

6、个芯片非杂交点背景所得的平均值做为背景8 。Brown8等提出利用整个芯片杂交点外的平均吸光度值作为背景的best-fit方法，使该问题得到较好的解决，并有效地提高了处理数据的质量。背景处理之后，我们可以将芯片数据放入一个矩阵中：M = 其中，各字母的意义如下：N：条件数；G：基因数目（一般情况下，GN）；行向量mi=(mi1,mi2,miN)表示基因i在N个条件下的表达水平（这里指绝对表达水平，亦即荧光强度值）；列向量mj=(m1j,m2j,mGj)表示在第j个条件下各基因的表达水平（即一张芯片的数据）；元素mij表示第基因i在第j个条件下（绝对）基因表达数据。m可以是R（红色，Cy5，代表

7、样品组）。也可以是G（绿色，Cy3,代表对照组）。2.2.2 数据清洗（data cleaning）经过背景校正后的芯片数据中可能会产生负值，显然负值是没有生物学意义的。数据集中还可能包括一些单个异常大（或小）的峰（谷）信号，它们被认为是随机噪声。另外，对于负值和噪声信号，通常的处理方法就是将其去除。然而，数据的缺失（除了上述原因会造成数据缺失以外，扫描的过程中也可能会产生缺失）对后续的统计分析（尤其是层式聚类和主成分分析）有致命的影响。所以对数据的删除，通常是删去所在的列向量或行向量。一个比较常用的做法是，事先定义个阈值M。若行（列）向量中的缺失数据量达到阈值M，则删去该向量。若未达到M，有

8、两种方法处理，一是以0或者用基因表达谱中的平均值或中值代替，另一个是分析基因表达谱的模式，从中得到相邻数据点之间的关系，据此利用相邻数据点估算得到缺失值（类似于插值）。2.2.3 归一化（normalization）经过背景处理和数据清洗处理后的修正值反映了基因表达的水平9。然而在芯片试验中，各个芯片的绝对光密度值是不一样的，在比较各个试验结果之前必需将其归一化（normalization，也称作标准化）。在同一块芯片上杂交的、由不同荧光分子标记的两个样品间的数据，也需归一化。常用的标准化方法有“看家基因法”、基于总光密度的方法、回归方法、比率统计法 10等。 “看家基因（house-keep

9、ing gene）”法此法最为常用，可以用于几张芯片的数据归一化。它预先选择一组表达水平不变的看家基因，计算出这组基因平均ratio值为1时标准化系数，然后将其应用于全部的数据以达到归一化的目的。但是目前尚未找到理想的看家基因11，另外此前有研究表明，所谓“看家基因”在不同实验条件下其表达水平同样发生变化12。基于总光密度的方法13此方法用于标准化同一块芯片上杂交的两种样品，它假设两批待标记的mRNA的量相同；相对于对照组样品，实验组的表达应既有上调也有下调。而且，扫描所得的所有Cy5和Cy3荧光分子的光密度值是相同的。据此计算出一个标准化系数，用以重新计算芯片上每个基因的光密度。回归的方

10、法13此方法用于标准化同一块芯片上杂交的两种样品。如果mRNA来自紧密相关的样品，那么大部分基因的表达水平是相近的。这样，在以Cy5和Cy3为坐标的散点图上，这些基因应呈一直线。如果两批样品的标记和检测效率相同，则直线的斜率也是惟一的。那么，标准化这些数据就等同于用回归的方法计算其最适斜率。但在实际试验中，光密度值常为非线性，此时应该使用局部回归方法，如LOWESS（1ocally weighted scatterplot smoothing）回归法。比率统计法13此方法用于标准化同一块芯片上杂交的两种样品，并且建立于以下的假设之上：在近似的两个样品中，虽然基因有上调和下调，但一些基本的基因

11、（如管家基因）的表达量是近似相同的。由此得出一个近似概率密度公式：比率T =R /G（R 和G分别是芯片上第K个点的红光和绿光的强度），经过迭代算法处理得到一个平均表达比率及其可信限，用于数据的标准化计算。2.3 基因表达数据经过预处理，探针水平数据转变为基因表达数据。为了便于应用一些统计和数学术语，基因表达数据仍采用矩阵形式。随着生物学进入后基因组学时代，类似芯片数据这样的的非序列生物数据几乎呈指数形式膨胀。这些生物数据往往维数高，具有异质性和网络性，传统的分析方法已不能胜任，发展优秀的算法分析生物数据成为生物学研究的瓶颈。数据挖掘等决策支持技术因其在大规模数据处理方面的卓越能力而在其中占据

12、越来越重要的地位14。数据挖掘也被称为数据库知识发现（knowledge discovery in database，KDD），是从数据库中识别出有效的、新颖的、潜在有用的并且最终可理解的、模式的非平凡过程15。迄今还没有一套完整、统一的数据挖掘理论体系来指导如何获取有用信息16。2.4 差异表达基因（differentially expressed genes,DEGs）筛选用于检测基因表达水平的DNA微阵列的应用之一是比较实验，目的是比较两个条件下的基因差异表达，从中识别出与条件相关的特异性基因或显著差异表达的基因。2.4.1 倍数变化法（fold chang, FC）比较两个各不同生物样

13、本时，可根据ratio值来筛选，一般认为ratio值在0.52.0范围内的基因不存在显著表达差异，该范围之外则认为表达有显著差异。当然，上述范围需要根据不同实验条件作调整。FC法的优点是简单直观，需要的芯片量少，节约研究成本16；缺点是结论过于简单，其阈值的划分主观性较强、缺乏生物学和统计学支持，尤其对于分析样本中的低拷贝或高拷贝转录子，容易产生假阳性和假阴性问题12。一般而言，FC法可用于对于预实验和实验初筛。2.4.2 参数分析（parameter analysis） t-检验（t-test）t 检验可用于两个生物条件下多个重复样本的差异表达基因的筛选。当 t 超过根据可信度选择得标准时

14、，比较的两样本被认为存在着差异。受样本量和成本的限制，研究者提出了调节性 t 检验（regulated t-test）。它根据在基因表达水平和变异之间存在着相互关系，相似的基因表达水平有着相似的变异这个经验，应用贝叶斯条件概率统计方法，通过检测同一张芯片上其他临近基因表达水平，理论上可对任何基因的变异程度估计进行弥补。调节性 t 检验法对基因表达的标准差估计优于一般t检验和FC法20。 F 检验F 检验又称变异数分析或方差分析（analysis of variance, ANOVA）。F 检验适用于多个生物条件下DEGs的检测，它检验两个或多个样本均数的差异是否有统计学意义。方差分析需要参照实

15、验设计，参照样本常用多种细胞的mRNA混合而成，由于所有的细胞同时表达基因众多，结果低表达基因在样本混合后就被稀释而减少了参照样本的代表性，因此，增加参照样本的细胞不会提高参照样本的代表性。方差分析的缺点在于虽然能计算出那些基因有统计差异，但是他没有对那些组之间有统计差异进行区分。如果相区分组间的统计差异，则需要使用均值间的两两比较（post-hoc comparisons）检验，该检验是对方差分析后的基因进行下一水平更细节的分析15。回归分析（regression analysis）基因表达谱的回归分析可以处理多个基因变量间线性依存关系，研究者提出了“使用回归分析的基因表达谱数据”。Li

16、等22使用互变量（Cox）回归方法分析基因表达谱数据，用于患者的生存率预判；Huang 等23将线性回归方法应用于肿瘤的分类研究中。2.4.3 非参数分析（nonparameter analysis）由于噪声的存在，通过数据转换后微阵列数据可能仍然不呈正态分布，因此使用参数分析法可能有风险。非参数检验的优点在于不必假设数据满足特殊的正态分布，尽管其对数据进行筛选有些粗放，而且其对表达数据分析的敏感性不如参数分，但是仍然可行。常用的基因表达谱数据分析的非参数检验方法有：传统的非参数t-检验（nonparametric t-test）24、Wilcoxon秩和检验（Wilcoxon rank sun test）24

展开阅读全文