生物信息学讲解——基因芯片数据分析

资源描述

《生物信息学讲解——基因芯片数据分析》由会员分享，可在线阅读，更多相关《生物信息学讲解——基因芯片数据分析（66页珍藏版）》请在金锄头文库上搜索。

1、第七章基因芯片数据分析,Microarray Data Analysis,第一节引言 Introduction,基因芯片（DNA微阵列）是上世纪九十年代，随着计算机技术和基因组测序技术的发展而发展起来的一种新型的生物技术，它能够平行、高通量地监测成千上万基因转录本的表达水平，从而为系统地监测细胞内mRNA分子的表达状态进而推测细胞的功能状态提供了可能。,第二节芯片平台及数据库 General Microarray Platform and Database,一、cDNA微阵列芯片,寡核苷酸芯片类似于cDNA芯片，但是在探针的设计上优于cDNA芯片，它的探针并不是来源于cDNA克隆，而是预

2、先设计并合成的代表每个基因特异片段的约50mer左右长度的序列，然后将其点样到特定的基质上制备成芯片，从而克服了探针序列太长导致的非特异性交叉杂交和由于探针杂交条件变化巨大导致的数据结果的不可靠。,二、寡核苷酸芯片,三、原位合成芯片,四、光纤微珠芯片(Bead Array),五、基因表达仓库 Gene Expression Omnibus，GEO 六、斯坦福微阵列数据库 The Stanford Microarray Database，SMD 七、其他常用基因表达数据库 ArrayExpress、CGED,第三节基因芯片数据预处理 General Microarray Data Type a

3、nd Database,一、基因芯片数据提取,(一) cDNA微阵列芯片,(二) 原位合成芯片,定性信息提取：P/A/M(Present/Absent/Marginal）定量信息提取：基于探针集汇总后的基因水平的荧光信号强度值,二、对数转换,对芯片数据做对数化转换后，数据可近似正态分布,三、数据过滤,数据过滤的目的是去除表达水平是负值或很小的数据或者明显的噪声数据。过闪耀现象物理因素导致的信号污染杂交效能低点样问题其他,四、补缺失值,(一)数据缺失类型非随机缺失基因表达丰度过高或过低随机缺失与基因表达丰度无关，数据补缺主要针对随机缺失情况,(二)数据补缺方法,1. 简单补

4、缺法,missing values = 0 expression missing values = 1 expression (arbitrary signal) missing values = row (gene) average missing values = column (array) average,2. k近邻法,选择与具有缺失值基因的k个邻居基因用邻居基因的加权平均估计缺失值参数: 邻居个数距离函数,3. 回归法 4. 其他方法,五、数据标准化,(一)为什么要进行数据标准化存在不同来源的系统误差染料物理特性差异(热光敏感性，半衰期等) 染料的结合效率点样针差异数

5、据收集过程中的扫描设施不同芯片间的差异实验条件差异,(二)运用哪些基因进行标准化处理芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同) 不同条件间稳定表达的基因(如持家基因) 控制序列(spiked control) 在不同条件下表达水平相同的合成DNA序列或外源的DNA序列。,1. 片内标化(within-slide normalization) (1) 全局标化(global normalization),(三) cDNA芯片数据标准化处理,假设： R=k*G 方法: c=log2k：中值或均值,(2) 荧光强度依赖的标化(intensity dependent norm

6、alization),为什么方法: scatter-plot smoother lowess拟合 c(A) 为M 对A 的拟合函数标化后的数据,(3) 点样针依赖的标化(within-print-tip-group normalization),为什么一张芯片的不同区域运用不同的点样针点样，从而引入点样针带来的系统误差。 method,(4) 尺度调整(scale adjustment) 为什么调整不同栅格(grids)间的数据离散度方法：计算不同栅格的尺度因子,2. 片间标化(multiple-slide normalization) 线性标化法(linear scaling me

7、thods) 与芯片内标化的尺度调整(scale adjustment) 方法类似非线性标化法(non-linear methods) 分位数标化法(quantile normalization) 两张芯片的表达数据的分位数标化至相同，即分布于对角线上,3. 染色互换实验(dye-swap experiment ) 的标化实验组对照组芯片1 cy5(R) cy3(G) 芯片2 cy3(G) cy5(R) 前提假设：cc 方法:,1. 提取定性信号 (1)对每个探针对计算R R = (PM MM ) / (PM + MM ) (2)比较R与定义的阈值Tau(小的正值，默认值为0.015

8、). (3) 单侧的Wilcoxons Signed Rank test产生p值，根据p值定义定量信号值 Present call Marginal call Absent call,(四) 芯片数据标准化,2. 提取定量信号 (1)分析步骤获取探针水平数据背景值效正标准化处理探针特异背景值效正探针集信号的汇总,(2)分析方法,M = log2R - log2G A = (log2R + log2G)/2,前面提及的标准化方法仅效正了数据分布的中心，在不同的栅格间log-Ratios 的方差也不同。,第四节差异表达分析 Analysis of Differentially Expr

9、ession Gene,一、倍数法,实验条件下的表达值,对照条件下的表达值,通常以2倍差异为阈值，判断基因是否差异表达,二、t检验法,运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性,三、方差分析,方差分析可用于基因在两种或多种条件间的表达量的比较，它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在，如果存在则表明基因在不同条件下的表达有差异。,四、SAM (significance analysis of microarrays),(一) 多重假设检验问题型错误（假阳性）即在假设检验作推断结论时，拒绝了实际上正确的检验假设，即

10、将无差异表达的基因判断为差异表达。型错误（假阴性）即不拒绝实际上不正确的，即将有差异表达的基因判断为无差异表达。在进行差异基因挑选时，整个差异基因筛选过程需要做成千上万次假设检验，导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率，需要进行纠正。常用的纠正策略有Bonferroni效正，控制FDR（false discovery rate）值等。,(二) 分析步骤计算统计量扰动实验条件，计算扰动后的基因表达的相对差异统计量计算扰动后的平均相对差异统计量,确定差异表达基因阈值：以最小的正值和最大的负值作为统计阈值，运用该阈值，统计在值中超过该阈值的假阳性基因个数，估

11、计假阳性发现率FDR值。通过调整FDR值的大小得到差异表达基因。,五、信息熵,运用信息熵进行差异基因挑选时，不需要用到样本的类别信息，所以运用信息熵找到的差异基因是指在所有条件下表达波动比较大的基因。,第五节基因芯片数据的聚类分析 Cluster Analysis of Microarray Data,一、聚类目的,基于物体的相似性将物体分成不同的组,二、基因表达谱数据的聚类,对基因进行聚类识别功能相关的基因识别基因共表达模式对样本进行聚类质量控制检查样本是否按已知类别分组发现亚型,样本,基因,基因表达谱,三、距离尺度函数,几何距离线性相关系数非线性相关系数互信息

12、其他,四、聚类算法 (一)层次聚类,层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现，进行层次聚类时不需要预先设定类别个数，树状的聚类结构可以展示嵌套式的类别关系。,在对含非单独对象的类进行合并或分裂时，常用的类间度量方法,2000年Alizadeh等运用基因芯片数据，基于层次聚类算法证实了DLBCL肿瘤病人在mRNA层面确实存在两种亚型,(二)k均值聚类,基本思想,(三)自组织映射聚类,基本思想：在不断的学习过程中，输出层的神经元根据输入样本的特点进行权重调整，最后拓朴结构发生了改变,(四)双向聚类,双向聚类就是识别基因表达谱矩阵中同质的子矩阵，运用特定的基因子类识别样本子类。,

13、第六节基因芯片数据的分类分析 Classification of Microarray Data,一、线性判别分类器,二、k 近邻分类法,基本思想,三、PAM分类法 Prediction Analysis for Microarray,基因1,基因2,基本思想每类样本的质心向所有样本的质心进行收缩，即收缩每个基因的类均值，收缩的数量由值决定。当收缩过程发生时，某些基因在不同类中将会有相同的类均值，这些基因就不具有类间的区别效能。,计算统计量对公式经过变换得到收缩各类的均值,分析步骤,判断新样本类别当,四、决策树,(一)基本思想决策树又称为多级分类器，利用决策树分类可以把一个复杂的

14、多类别分类问题转化为若干个简单的分类问题来解决决策树的结构：一个树性的结构，内部节点上选用一个属性进行分割，每个分叉都是分割的一个部分，叶子节点表示一个分布,(二)分析步骤：提取分类规则，进行分类预测在构造决策树的过程中最重要的一点是在每一个分割节点确定用哪个属性来分类(或分裂）这就涉及到关于使用什么准则来衡量使用A属性比使用B属性更合理,(三)衡量准则信息增益information gain 基尼指数Gini index,(四)决策树的修剪消除决策树的过适应问题消除训练集中的异常和噪声所涉及的方法很多，比如先剪枝算法（print）与后剪枝（sprint 算法）等等,五、分类效能

15、评价,(一)构建训练集和检验集 n倍交叉验证（n-fold cross validation） Bagging（bootstrap aggregation）无放回随机抽样留一法交叉验证（leave-one-out cross validation，LOOCV）,(二)分类效能灵敏度(sensitivity，recall) 特异性(specificity) 阳性预测率（positive predictive value，precision）阴性预测率（negative predictive value）均衡正确率（balanced accuracy）正确率（correct or ac

16、curacy）,第七节基因芯片数据的其他分析 Complementary Analysis of Microarray Data,一、降维处理（主成分分析）,新指标是原来基因的线性组合,二、时间序列的表达谱分析,(一)扩大的基因表达谱矩阵 (二)时间点延迟的共表达方式,延迟t个时间点,基因i,基因j,三、基因转录调控网络分析参考第十一章和十二章四、功能富集性分析参考第八章,第八节常用的表达谱分析软件 General Microarray Analysis Software,ArrayTools DChip（DNA-Chip Analyzer） SAM Cluster和TreeView R语言和BioConductor: affy、marray、limma Matlab: Bioinformatics Toolbox,

展开阅读全文