生物信息学讲义——基因芯片数据分析资料课件

上传人:m**** 文档编号:570977279 上传时间:2024-08-07 格式:PPT 页数:66 大小:1.91MB
返回 下载 相关 举报
生物信息学讲义——基因芯片数据分析资料课件_第1页
第1页 / 共66页
生物信息学讲义——基因芯片数据分析资料课件_第2页
第2页 / 共66页
生物信息学讲义——基因芯片数据分析资料课件_第3页
第3页 / 共66页
生物信息学讲义——基因芯片数据分析资料课件_第4页
第4页 / 共66页
生物信息学讲义——基因芯片数据分析资料课件_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《生物信息学讲义——基因芯片数据分析资料课件》由会员分享,可在线阅读,更多相关《生物信息学讲义——基因芯片数据分析资料课件(66页珍藏版)》请在金锄头文库上搜索。

1、第七章第七章 基因芯片数据分析基因芯片数据分析Microarray Data Analysis第一节 引言 IntroductionIntroduction 基因芯片(基因芯片(DNA微阵列)是上世纪微阵列)是上世纪九十年代,随着计算机技术和基因组测九十年代,随着计算机技术和基因组测序技术的发展而发展起来的一种新型的序技术的发展而发展起来的一种新型的生物技术,它能够平行、高通量地监测生物技术,它能够平行、高通量地监测成千上万基因转录本的表达水平,从而成千上万基因转录本的表达水平,从而为系统地监测细胞内为系统地监测细胞内mRNA分子的表达分子的表达状态进而推测细胞的功能状态提供了可状态进而推测细

2、胞的功能状态提供了可能。能。第二节 芯片平台及数据库 General Microarray Platform and Database General Microarray Platform and Database 一、一、cDNA微阵列芯片微阵列芯片 寡寡核核苷苷酸酸芯芯片片类类似似于于 cDNA芯芯片片,但但是是在在探探针针的的设设计计上上优优于于 cDNA芯芯片片,它它的的探探针针并并不不是是来来源源于于 cDNA克克隆隆,而而是是预预先先设设计计并并合合成成的的代代表表每每个个基基因因特特异异片片段段的的约约 50mer左左右右长长度度的的序序列列,然然后后将将其其点点样样到到特特定

3、定的的基基质质上上制制备备成成芯芯片片,从从而而克克服服了了探探针针序序列列太太长长导导致致的的非非特特异异性性交交叉叉杂杂交交和和由由于于探探针针杂杂交交条条件件变变化化巨巨大大导导致致的的数数据据结结果果的的不不可可靠靠。 二、寡核苷酸芯片二、寡核苷酸芯片 三、原位合成芯片三、原位合成芯片 四、光纤微珠芯片四、光纤微珠芯片(Bead Array)五、基因表达仓库五、基因表达仓库 Gene Expression OmnibusGene Expression Omnibus,GEOGEO六、斯坦福微阵列数据库六、斯坦福微阵列数据库 The Stanford MicroarrayThe Stan

4、ford Microarray DatabaseDatabase,SMD SMD 七、其他常用基因表达数据库七、其他常用基因表达数据库 ArrayExpressArrayExpress、CGEDCGED第三节 基因芯片数据预处理General Microarray Data Type and Database General Microarray Data Type and Database 一、基因芯片数据提取一、基因芯片数据提取(一一) cDNA微阵列芯片微阵列芯片(二二) 原位合成芯片原位合成芯片定性信息提取:P/A/M(Present/Absent/Marginal) 定量信息提取:基

5、于探针集汇总后的基因水平的荧光信号强度值 二、对数转换二、对数转换对芯片数据做对数化转换后,数据可近似正态分布 三、数据过滤三、数据过滤 数据过滤的目的是去除表达水平是负值或很小的数据过滤的目的是去除表达水平是负值或很小的数据或者明显的噪声数据。数据或者明显的噪声数据。n过闪耀现象过闪耀现象 n物理因素导致的信号污染物理因素导致的信号污染 n杂交效能低杂交效能低n点样问题点样问题n其他其他四、补缺失值四、补缺失值(一一)数据缺失类型数据缺失类型n非随机缺失非随机缺失 基因表达丰度过高或过低基因表达丰度过高或过低n随机缺失随机缺失 与基因表达丰度无关,数据与基因表达丰度无关,数据 补缺主要针对随

6、机缺失情况补缺主要针对随机缺失情况(二二)数据补缺方法数据补缺方法1. 简单补缺法简单补缺法nmissing values = 0 expressionnmissing values = 1 expression (arbitrary signal)nmissing values = row (gene) averagenmissing values = column (array) average2. k近邻法近邻法n选择与具有缺失值基因的选择与具有缺失值基因的k k个邻居基因个邻居基因n用邻居基因的加权平均估用邻居基因的加权平均估计缺失值计缺失值参数参数: :n邻居个数邻居个数n距离函数距

7、离函数3. 回归法回归法4. 其他方法其他方法五、数据标准化五、数据标准化(一一)为什么要进行数据标准化为什么要进行数据标准化存在不同来源的系统误差存在不同来源的系统误差1.1.染料物理特性差异染料物理特性差异( (热光敏感性,半衰期等热光敏感性,半衰期等) )2.2.染料的结合效率染料的结合效率3.3.点样针差异点样针差异4.4.数据收集过程中的扫描设施数据收集过程中的扫描设施5.5.不同芯片间的差异不同芯片间的差异6.6.实验条件差异实验条件差异(二二)运用哪些基因进行标准化处理运用哪些基因进行标准化处理n芯片上大部分基因芯片上大部分基因( (假设芯片上大部分基因在不同假设芯片上大部分基因

8、在不同条件下表达量相同条件下表达量相同) ) n不同条件间稳定表达的基因不同条件间稳定表达的基因( (如持家基因如持家基因) )n控制序列控制序列(spiked control)(spiked control) 在不同条件下表达水平相同的合成在不同条件下表达水平相同的合成DNADNA序列或外源序列或外源的的DNADNA序列。序列。1. 片内标化片内标化(within-slide normalization) (1) 全局标化全局标化(global normalization)(三三) cDNA芯片数据标准化处理芯片数据标准化处理n n假设: R=k*Gn n方法:n nc=log2k:中值或均

9、值 (2) 荧光强度依赖的标化荧光强度依赖的标化(intensity dependent normalization)n n为什么n n方法: scatter-plot smoother lowess拟合n n c(A) 为M 对A 的拟合函数n n标化后的数据 (3) 点样针依赖的标化点样针依赖的标化(within-print-tip-group normalization) n n为什么为什么 一张芯片的不同区域运用不同的点样针点样,从一张芯片的不同区域运用不同的点样针点样,从而引入点样针带来的系统误差。而引入点样针带来的系统误差。n nmethod(4) 尺度调整尺度调整(scale a

10、djustment)n n为什么为什么 调整不同栅格调整不同栅格(grids)(grids)间的数据离散度间的数据离散度 n n方法:计算不同栅格的尺度因子方法:计算不同栅格的尺度因子2. 片间标化片间标化(multiple-slide normalization)n线性标化法线性标化法(linear scaling methods)(linear scaling methods) 与芯片内标化的尺度调整与芯片内标化的尺度调整(scale adjustment) (scale adjustment) 方方法类似法类似n非线性标化法非线性标化法(non-linear methods)(non-l

11、inear methods)n分位数标化法分位数标化法(quantile normalization)(quantile normalization) 两张芯片的表达数据的分位数标化至相同,即分两张芯片的表达数据的分位数标化至相同,即分布于对角线上布于对角线上3. 染色互换实验染色互换实验(dye-swap experiment ) 的标化的标化实验组实验组 对对照组照组 芯片芯片1 cy5(R) cy3(G1 cy5(R) cy3(G ) ) 芯片芯片2 cy3(G) cy5(R2 cy3(G) cy5(R ) )n n前提假设:前提假设:c cc c n n方法方法: : 1. 提取定性信

12、号提取定性信号(1)(1)对每个探针对计算对每个探针对计算R R R R = (= (PMPM MM MM ) / () / (PMPM + + MM MM ) )(2)(2)比较比较R R与定义的阈值与定义的阈值Tau(Tau(小的正值,默小的正值,默认值为认值为0.015 ).0.015 ).(3) (3) 单侧的单侧的WilcoxonWilcoxons Signed Rank s Signed Rank testtest产生产生p p值,根据值,根据p p值定义定量信号值值定义定量信号值 Present call Present call Marginal call Marginal c

13、all Absent call Absent call (四四) 芯片数据标准化芯片数据标准化2. 提取定量信号提取定量信号(1)分析步骤分析步骤n n获取探针水平数据获取探针水平数据n n背景值效正背景值效正n n标准化处理标准化处理n n探针特异背景值效正探针特异背景值效正n n探针集信号的汇总探针集信号的汇总(2)分析方法分析方法M = log2R - log2GA = (log2R + log2G)/2 前面提及的标准化方法前面提及的标准化方法仅效正了数据分布的中仅效正了数据分布的中心,在不同的栅格间心,在不同的栅格间log-Ratios log-Ratios 的方差也的方差也不同。不

14、同。第四节 差异表达分析Analysis of Differentially Expression Gene Analysis of Differentially Expression Gene 一、倍数法一、倍数法实验条件下的表达值对照条件下的表达值对照条件下的表达值通常以2倍差异为阈值,判断基因是否差异表达二、二、t检验法检验法 运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性 三、方差分析三、方差分析 方差分析可用于基因在两种或多种条件间的表达量的比较,它将基因在样本之间的总变异分解为组间变异和组内变异两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在

15、不同条件下的表达有差异。四、四、SAM (significance analysis of microarrays)(一一) 多重假设检验问题多重假设检验问题n n型错误(假阳性)即在假设检验作推断结论时,拒绝了型错误(假阳性)即在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差实际上正确的检验假设,即将无差异表达的基因判断为差异表达。异表达。n n型错误(假阴性)即不拒绝实际上不正确的,即将有差型错误(假阴性)即不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。异表达的基因判断为无差异表达。n n在进行差异基因挑选时,整个差异基因筛选过程需要做成在进行

16、差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有用的纠正策略有BonferroniBonferroni效正,控制效正,控制FDRFDR(false false discovery ratediscovery rate)值等)值等。(二二) 分析步骤分析步骤n n计算统计量计算统计量n n扰动实验条件,计算扰动后的基因表达的相对差异统计量扰动实验条件,计算扰动后的基因表达的相对差异统计量n

17、 n计算扰动后的平均相对差异统计量计算扰动后的平均相对差异统计量n n确定差异表达基因阈值:以最小确定差异表达基因阈值:以最小 的正值和最大的负值作为统计阈的正值和最大的负值作为统计阈 值,运用该阈值,统计在值中超值,运用该阈值,统计在值中超 过该阈值的假阳性基因个数,估过该阈值的假阳性基因个数,估 计假阳性发现率计假阳性发现率FDRFDR值。值。n n通过调整通过调整FDRFDR值的大小得到差异值的大小得到差异 表达基因。表达基因。五、信息熵五、信息熵 运用信息熵进行差异基因挑选时,不需要用到样本的类别运用信息熵进行差异基因挑选时,不需要用到样本的类别信息,所以运用信息熵找到的差异基因是指在

18、所有条件下信息,所以运用信息熵找到的差异基因是指在所有条件下表达波动比较大的基因。表达波动比较大的基因。第五节 基因芯片数据的聚类分析Cluster Analysis of Microarray DataCluster Analysis of Microarray Data 一、聚类目的一、聚类目的基于物体的相似性将物体分成不同的组二、基因表达谱数据的聚类二、基因表达谱数据的聚类n n对基因进行聚类 识别功能相关的基因识别功能相关的基因 识别基因共表达模式识别基因共表达模式n n对样本进行聚类 质量控制质量控制 检查样本是否按已知检查样本是否按已知 类别分组发现亚型类别分组发现亚型 样本基因基

19、因表达谱三、距离尺度函数三、距离尺度函数n n几何距离几何距离n n线性相关系数线性相关系数n n非线性相关系数非线性相关系数n n互信息互信息n n其他其他 四、聚类算法四、聚类算法(一一)层次聚类层次聚类n n层次聚类算法将研究对象按照它们的相似性关系用树形图层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现,进行层次聚类时不需要预先设定类别个数,树进行呈现,进行层次聚类时不需要预先设定类别个数,树状的聚类结构可以展示嵌套式的类别关系。状的聚类结构可以展示嵌套式的类别关系。n n在对含非单独对象的类进行合并或分裂时,常用在对含非单独对象的类进行合并或分裂时,常用的类间度量方法的类间

20、度量方法n n20002000年年AlizadehAlizadeh等运等运用基因芯片数据,用基因芯片数据,基于层次聚类算法基于层次聚类算法证实了证实了DLBCLDLBCL肿瘤肿瘤病人在病人在mRNAmRNA层面层面确实存在两种亚型确实存在两种亚型(二二)k均值聚类均值聚类基本思想(三三)自组织映射聚类自组织映射聚类基本思想:在不断的学习过程中,输出层的神经元根据输入样本的特点进行权重调整,最后拓朴结构发生了改变 (四四)双向聚类双向聚类双向聚类就是识别基因表达谱矩阵中同质的子矩阵,运用特定的基因子类识别样本子类。 第六节 基因芯片数据的分类分析Classification of Microar

21、ray Data Classification of Microarray Data 一、线性判别分类器一、线性判别分类器二、二、k 近邻分类法近邻分类法 基本思想三、三、PAM分类法分类法Prediction Analysis for Microarray基因1基因2 基本思想基本思想 每类样本的质心向所每类样本的质心向所有样本的质心进行收有样本的质心进行收缩,即收缩每个基因缩,即收缩每个基因的类均值,收缩的数的类均值,收缩的数量由值决定。当收缩量由值决定。当收缩过程发生时,某些基过程发生时,某些基因在不同类中将会有因在不同类中将会有相同的类均值,这些相同的类均值,这些基因就不具有类间的基因

22、就不具有类间的区别效能。区别效能。 n n计算统计量计算统计量n n对公式经过变换得到对公式经过变换得到 n n收缩各类的均值收缩各类的均值分析步骤分析步骤n n判断新样本类别判断新样本类别当当四、决策树四、决策树(一一)基本思想基本思想n n决策树又称为多决策树又称为多级分类器,利用级分类器,利用决策树分类可以决策树分类可以把一个复杂的多把一个复杂的多类别分类问题转类别分类问题转化为若干个简单化为若干个简单的分类问题来解的分类问题来解决决n n决策树的结构:决策树的结构:一个树性的结构,一个树性的结构,内部节点上选用内部节点上选用一个属性进行分一个属性进行分割,每个分叉都割,每个分叉都是分割

23、的一个部是分割的一个部分,叶子节点表分,叶子节点表示一个分布示一个分布(二二)分析步骤:提取分类规则,进行分类预测分析步骤:提取分类规则,进行分类预测n n在构造决策树的过程中最重要的一点是在每一个在构造决策树的过程中最重要的一点是在每一个分割节点确定用哪个属性来分类分割节点确定用哪个属性来分类( (或分裂)或分裂)n n 这就涉及到关于使用什么准则来衡量使用这就涉及到关于使用什么准则来衡量使用A A属性属性比使用比使用B B属性更合理属性更合理决策树分类算法output训练集决策树input(三三)衡量准则衡量准则n n信息增益信息增益information gaininformation

24、gainn n基尼指数基尼指数Gini indexGini index(四四)决策树的修剪决策树的修剪n n消除决策树的过适应问题n n消除训练集中的异常和噪声n n所涉及的方法很多,比如先剪枝算法(所涉及的方法很多,比如先剪枝算法(printprint)与)与后剪枝(后剪枝(sprint sprint 算法)等等算法)等等五、分类效能评价五、分类效能评价(一一)构建训练集和检验集构建训练集和检验集n nn n倍交叉验证(倍交叉验证(n-fold cross validationn-fold cross validation)n nBaggingBagging(bootstrap aggreg

25、ationbootstrap aggregation)n n无放回随机抽样无放回随机抽样n n留一法交叉验证(留一法交叉验证(leave-one-out cross validationleave-one-out cross validation,LOOCVLOOCV)(二二)分类效能分类效能n n灵敏度灵敏度(sensitivity(sensitivity,recall)recall)n n特异性特异性(specificity)(specificity)n n阳性预测率(阳性预测率(positive predictive valuepositive predictive value,prec

26、isionprecision)n n阴性预测率(阴性预测率(negative predictive valuenegative predictive value)n n均衡正确率(均衡正确率(balanced accuracybalanced accuracy)n n正确率(正确率(correct or accuracycorrect or accuracy)第七节 基因芯片数据的其他分析Complementary Analysis of Microarray Data Complementary Analysis of Microarray Data 一、降维处理(主成分分析)一、降维处理(

27、主成分分析)新指标是原来基因的线性组合 二、时间序列的表达谱分析二、时间序列的表达谱分析(一一)扩大的基因表达谱矩阵扩大的基因表达谱矩阵(二二)时间点延迟的共表达方式时间点延迟的共表达方式延迟t个时间点基因i基因j三、基因转录调控网络分析三、基因转录调控网络分析 参考第十一章和十二章参考第十一章和十二章参考第十一章和十二章参考第十一章和十二章 四、功能富集性分析四、功能富集性分析参考第八章参考第八章参考第八章参考第八章 第八节 常用的表达谱分析软件General Microarray Analysis SoftwareGeneral Microarray Analysis Softwaren nArrayTools ArrayTools n nDChipDChip(DNA-Chip AnalyzerDNA-Chip Analyzer) n nSAMSAMn nClusterCluster和和TreeViewTreeViewn nR R语言和语言和BioConductor: affyBioConductor: affy、marraymarray、limma limma n nMatlab: Bioinformatics Toolbox Matlab: Bioinformatics Toolbox

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号