《差异表达分析PPT课件》由会员分享,可在线阅读,更多相关《差异表达分析PPT课件(63页珍藏版)》请在金锄头文库上搜索。
1、第七讲1 1Quantile Normalization使每张芯片/通道的强度值有相同的分布(intensity distribution)2 2Quantile normalizationBeforeAfterQuantile normalization3 34 45 56 6R语言和bioconductor7 78 8差异表达基因分析 9 9单张单张cDNAcDNA芯片差异表达基因芯片差异表达基因1010差异表达基因分析基因表达谱芯片实验的主要目的之一是发现两个基因表达谱芯片实验的主要目的之一是发现两个样本间差异表达基因。样本间差异表达基因。通常采用基因在实验组和对照组中信号的比值作通常采
2、用基因在实验组和对照组中信号的比值作为衡量基因在两种状态下基因的表达差异,在双为衡量基因在两种状态下基因的表达差异,在双色荧光系统中,用色荧光系统中,用Cy5/Cy3Cy5/Cy3的比值来衡量基因的表的比值来衡量基因的表达差异,也称表达差异值。在达差异,也称表达差异值。在AffymetrixAffymetrix等短的等短的寡核苷酸芯片中,采用单色荧光标记的方式,实寡核苷酸芯片中,采用单色荧光标记的方式,实验组和对照组分别用两张芯片进行检测,表达差验组和对照组分别用两张芯片进行检测,表达差异值即为两张芯片的信号比值。异值即为两张芯片的信号比值。噪声和芯片本身的一些因素以及生物学本身的特噪声和芯片
3、本身的一些因素以及生物学本身的特点给筛选差异表达基因带来了很大的麻烦。必须点给筛选差异表达基因带来了很大的麻烦。必须设定一个差异表达基因的判定标准。这个筛选的设定一个差异表达基因的判定标准。这个筛选的标准就称为差异表达基因的阈值。标准就称为差异表达基因的阈值。 1111倍数法1212倍数法倍数法是比较常用的一种方法,因为比较简单和倍数法是比较常用的一种方法,因为比较简单和直接。直接。但是,这种方法也是有其重大缺陷的。比如,在但是,这种方法也是有其重大缺陷的。比如,在某个实验中,基因表达水平的变化不大,如果选某个实验中,基因表达水平的变化不大,如果选择判别域值为择判别域值为2 2倍,则有可能找不
4、到几个差异表达倍,则有可能找不到几个差异表达的基因,假阴性率比较高。但如果是主观缩小判的基因,假阴性率比较高。但如果是主观缩小判断域值,又有可能增大假阳性率。断域值,又有可能增大假阳性率。这一方法没有考虑到差异表达的统计显著性。这一方法没有考虑到差异表达的统计显著性。 1313Z值法 在一张在一张cDNAcDNA芯片上一般都点了很多基因,其实这芯片上一般都点了很多基因,其实这些基因中只有很小一部分表达有差异,所以一般些基因中只有很小一部分表达有差异,所以一般都假设表达的比率值满足正态分布。都假设表达的比率值满足正态分布。Z=(X-)/Z=(X-)/. |Z|=1.96. |Z|=1.96在寡核
5、苷酸芯片中,芯片上的基因在相应实验条在寡核苷酸芯片中,芯片上的基因在相应实验条件下或相应组织中也只是有很小一部分基因有表件下或相应组织中也只是有很小一部分基因有表达,可以假定强度满足对数正态分布,同样可以达,可以假定强度满足对数正态分布,同样可以对其作对其作Z Z变换,使其具有统计意义。变换,使其具有统计意义。如果实验体系中没有一条差异表达的基因,如果实验体系中没有一条差异表达的基因,Z Z值法值法还是会挑选出还是会挑选出5 5的差异表达基因。这是因为在芯的差异表达基因。这是因为在芯片实验中,总有一些由于背景噪声产生的假阳性片实验中,总有一些由于背景噪声产生的假阳性点。如果实际上实验中有大量的
6、基因发生表达改点。如果实际上实验中有大量的基因发生表达改变,变,Z Z值法还是机械的找出值法还是机械的找出5 5的差异表达基因,的差异表达基因,丢失了一部分真阳性点。丢失了一部分真阳性点。 1414一般性的方法选择一个统计量给基因排秩来证明表达有差异 为排秩统计量选择一个判别值,在它之上的值将被认为是显著的 前面一个部分更为重要,所以研究的较多,方法也更多,后面那部分的方法稍微简单 1515重复芯片(replicates)M值根据比率平均值或 对基因排序。 M值为信号强度比值的log2值, 是任一特定基因在重复序列中M值的均值。这一排序法忽略了一个基因在重复实验中的不同芯片上表达水平的差异程度
7、。例如,可能某一个基因在某一张芯片上M值很大,但在其他芯片上M值很小,其实这条基因并没有差异表达,但由于个别M值的影响,从而显示出一个差异表达的特性,造成假阳性。 1616T值排序假如一个基因在几张重复芯片的M值都很小,但是这些M值非常接近,所以s值也非常小,这样可能会导致t值很大,从而会把这个本没有差异表达的基因误认为差异表达。 1717修正的T值修正值由样本方差的均数和标准差估计而得。结果显示:在一个模拟的数据集中,虽然带有一些经验性质,但用修正t-统计量给基因排秩比用均数和一般的t-统计量效果要好。 1818单通道寡核苷酸芯片差异基因(两个样本直接比较)Affymetrix,illumi
8、na芯片由于有探针重复,可以利用统计方法计算出一个统计性的P值或者score值,筛选差异表达基因1919不同类样本差异基因识别2020评价一组数的统计量l l平均值平均值 标准差标准差232.7232.7232.7232.7198.2198.2198.2198.2137.7137.7137.7137.784.384.384.384.3218.6218.6218.6218.6181.5181.5181.5181.5216.7216.7216.7216.7878787872121比较多组数的方法T检验:平均值F检验: 方差222223232424SAM(significance analysis
9、of microarrays) 单通道单通道Oligo芯芯片,尤其是片,尤其是affymetrix芯片芯片数据分析用得数据分析用得较多较多25252626双通道双通道cDNA芯片数据分析用得较多芯片数据分析用得较多2727False Discovery Rate (FDR)错误发现率是评估检验统计显著性的最有错误发现率是评估检验统计显著性的最有力工具。统计学家都想用更符合统计学的力工具。统计学家都想用更符合统计学的手段得到差异基因,具体说来就是想用假手段得到差异基因,具体说来就是想用假设检验后赋予每个基因统计显著性或者设检验后赋予每个基因统计显著性或者P P值,值,使得每个基因的判别更有统计学
10、上的意义。使得每个基因的判别更有统计学上的意义。为了达到这个目的,统计学家们常常用控为了达到这个目的,统计学家们常常用控制错误发现率(制错误发现率(False Discovery RateFalse Discovery Rate)的)的方法来判断差异基因。方法来判断差异基因。 2828Multiple test (Pvalue adjustment)2929火山图(火山图(volcano plot)Statistical test: PvalueStatistical test: PvalueFold change: RatioFold change: Ratio3030其他方法其他方法B-s
11、tatistics (Smyth,2004)Bayes T-test (Baldi and Long, 2001)SAMROC (Broberg, 2002)Zhao-Pan method (Zhao and Pan, 2003) 3131Improved Detection of Differentially Expressed GenesImproved Detection of Differentially Expressed GenesTime series microarray datasetTime series microarray dataset3232聚类分析聚类分析3333
12、基因表达数据矩阵基因表达数据矩阵 (Affymetrix GeneChip oligonucleotide arrays)sam/ref3434基因表达数据矩阵基因表达数据矩阵 (glass slides)3535数据矩阵具体形式数据矩阵具体形式3636数据形式数据形式数据矩阵数据矩阵, ,基因数远大于样品数基因数远大于样品数 对任意一个基因来说对任意一个基因来说,样本值是特征值样本值是特征值,数据的维数是数据的维数是M对任意一个样本来说对任意一个样本来说,基因值是特征值基因值是特征值,数据的维数是数据的维数是N聚类时考虑基因之间的相似性,从数学上讲聚类时考虑基因之间的相似性,从数学上讲就是看
13、对应的就是看对应的M维数据之间的相似性维数据之间的相似性3737Cluster&TreeviewCluster&Treeview软件软件3838Cluster&TreeviewCluster&Treeview软件软件3939Genesis软件4040预分析(预分析(Pre-Analysis)重复值合并(重复值合并( replicate handling )数据转换和标准化(数据转换和标准化(data transformation and standardization)缺失数据处理(缺失数据处理( missing value management )基因筛选(基因筛选(pattern sele
14、ction)4141重复值合并重复值合并4242基因不同命名基因不同命名4343重复值合并重复值合并4444Gene ID converter4545重复值合并重复值合并在特定条件下把所有的重复值合并成一个数值可在特定条件下把所有的重复值合并成一个数值可在特定条件下把所有的重复值合并成一个数值可在特定条件下把所有的重复值合并成一个数值可能更为方便,而这一个值是给定基因能更为方便,而这一个值是给定基因能更为方便,而这一个值是给定基因能更为方便,而这一个值是给定基因/ / / /条件的代表。条件的代表。条件的代表。条件的代表。通常的合并是指计算这些重复值的集中趋势指标,通常的合并是指计算这些重复值
15、的集中趋势指标,通常的合并是指计算这些重复值的集中趋势指标,通常的合并是指计算这些重复值的集中趋势指标,如均数、中位数或众数。然而,使用一个集中趋如均数、中位数或众数。然而,使用一个集中趋如均数、中位数或众数。然而,使用一个集中趋如均数、中位数或众数。然而,使用一个集中趋势指标代替一组数值意味着信息的丢失,因此数势指标代替一组数值意味着信息的丢失,因此数势指标代替一组数值意味着信息的丢失,因此数势指标代替一组数值意味着信息的丢失,因此数据的合并应谨慎。据的合并应谨慎。据的合并应谨慎。据的合并应谨慎。 去除奇异值。可以通过计算原始数据的均数和标去除奇异值。可以通过计算原始数据的均数和标去除奇异值
16、。可以通过计算原始数据的均数和标去除奇异值。可以通过计算原始数据的均数和标准差,去除位于给定区间外的数据(如均数加减准差,去除位于给定区间外的数据(如均数加减准差,去除位于给定区间外的数据(如均数加减准差,去除位于给定区间外的数据(如均数加减3 3 3 3个标准差外的数据)。剩余的数据重新计算均数个标准差外的数据)。剩余的数据重新计算均数个标准差外的数据)。剩余的数据重新计算均数个标准差外的数据)。剩余的数据重新计算均数和标准差,并消除给定区间外的数据。和标准差,并消除给定区间外的数据。和标准差,并消除给定区间外的数据。和标准差,并消除给定区间外的数据。4646数据转换和标准化数据转换和标准化
17、数据变换的目的是在尽量保证原始数据特数据变换的目的是在尽量保证原始数据特征不变的前提下,使变换后的数据更适于征不变的前提下,使变换后的数据更适于进行统计分析。进行统计分析。 对数转化(对数转化(log-transformationlog-transformation)中心化处理(中心化处理(centercenter)单位圆化单位圆化正态化(均值为正态化(均值为0 0,方差为,方差为1 1)4747缺失数据处理缺失数据处理芯片上的某些点可能因为芯片的缺陷、点像素强芯片上的某些点可能因为芯片的缺陷、点像素强芯片上的某些点可能因为芯片的缺陷、点像素强芯片上的某些点可能因为芯片的缺陷、点像素强度达到饱
18、和、点像素强度非常小等因素而产生异度达到饱和、点像素强度非常小等因素而产生异度达到饱和、点像素强度非常小等因素而产生异度达到饱和、点像素强度非常小等因素而产生异常的数据点,在数据的预处理阶段把这些数据点常的数据点,在数据的预处理阶段把这些数据点常的数据点,在数据的预处理阶段把这些数据点常的数据点,在数据的预处理阶段把这些数据点删除。删除。删除。删除。未观测点未观测点未观测点未观测点若后续的统计分析要求数据满足完整性,如特征若后续的统计分析要求数据满足完整性,如特征若后续的统计分析要求数据满足完整性,如特征若后续的统计分析要求数据满足完整性,如特征基因提取的奇异值分解、某些基因的聚类分析方基因提
19、取的奇异值分解、某些基因的聚类分析方基因提取的奇异值分解、某些基因的聚类分析方基因提取的奇异值分解、某些基因的聚类分析方法等,则需要对含有缺失值的数据进行处理法等,则需要对含有缺失值的数据进行处理法等,则需要对含有缺失值的数据进行处理法等,则需要对含有缺失值的数据进行处理 删除含有缺失值的整条记录,这种方法操作简单,删除含有缺失值的整条记录,这种方法操作简单,删除含有缺失值的整条记录,这种方法操作简单,删除含有缺失值的整条记录,这种方法操作简单,但却因为个别值的缺失而删除整个记录,可能丢但却因为个别值的缺失而删除整个记录,可能丢但却因为个别值的缺失而删除整个记录,可能丢但却因为个别值的缺失而删
20、除整个记录,可能丢失大量有价值的信息失大量有价值的信息失大量有价值的信息失大量有价值的信息 填充或修补缺失数据填充或修补缺失数据填充或修补缺失数据填充或修补缺失数据48484949缺失数据的处理缺失数据的处理固定值法,比如固定值法,比如固定值法,比如固定值法,比如0 0 0 0或者或者或者或者1 1 1 1行平均法行平均法行平均法行平均法使用重复数据点对缺失数据进行填充。对于生物使用重复数据点对缺失数据进行填充。对于生物使用重复数据点对缺失数据进行填充。对于生物使用重复数据点对缺失数据进行填充。对于生物学重复中缺失数据的填充应慎重,应当使用尽量学重复中缺失数据的填充应慎重,应当使用尽量学重复中
21、缺失数据的填充应慎重,应当使用尽量学重复中缺失数据的填充应慎重,应当使用尽量同质的样品对缺失值进行估计。同质的样品对缺失值进行估计。同质的样品对缺失值进行估计。同质的样品对缺失值进行估计。使用基因间的相关性对缺失数据进行填充。奇异使用基因间的相关性对缺失数据进行填充。奇异使用基因间的相关性对缺失数据进行填充。奇异使用基因间的相关性对缺失数据进行填充。奇异值分解法,值分解法,值分解法,值分解法,KNNKNNKNNKNN法。法。法。法。其他方法,最小二乘法拟合修补,方差迭代分析,其他方法,最小二乘法拟合修补,方差迭代分析,其他方法,最小二乘法拟合修补,方差迭代分析,其他方法,最小二乘法拟合修补,方
22、差迭代分析,最大可能性分析最大可能性分析最大可能性分析最大可能性分析 5050KNN法法K K K K最近邻法(最近邻法(最近邻法(最近邻法(K-nearest neighborhood methodK-nearest neighborhood methodK-nearest neighborhood methodK-nearest neighborhood method):):):):假定某个基因在某个指标上含有缺失值,计算此假定某个基因在某个指标上含有缺失值,计算此假定某个基因在某个指标上含有缺失值,计算此假定某个基因在某个指标上含有缺失值,计算此包含缺失值的基因与在该指标上无缺失的基因间
23、包含缺失值的基因与在该指标上无缺失的基因间包含缺失值的基因与在该指标上无缺失的基因间包含缺失值的基因与在该指标上无缺失的基因间的相似性指标或距离指标(相似性或距离的计算的相似性指标或距离指标(相似性或距离的计算的相似性指标或距离指标(相似性或距离的计算的相似性指标或距离指标(相似性或距离的计算中不包括欲估计的指标),与该基因相似性最大中不包括欲估计的指标),与该基因相似性最大中不包括欲估计的指标),与该基因相似性最大中不包括欲估计的指标),与该基因相似性最大的的的的K K K K个基因称为该基因的个基因称为该基因的个基因称为该基因的个基因称为该基因的K K K K个最近邻(个最近邻(个最近邻(
24、个最近邻(k nearest k nearest k nearest k nearest neighborhoodsneighborhoodsneighborhoodsneighborhoods),这),这),这),这K K K K个基因在该观测指标上的个基因在该观测指标上的个基因在该观测指标上的个基因在该观测指标上的数据就是估计缺失基因数据的基础,估计值可以数据就是估计缺失基因数据的基础,估计值可以数据就是估计缺失基因数据的基础,估计值可以数据就是估计缺失基因数据的基础,估计值可以是这是这是这是这K K K K个基因在该指标上的均数,也可以是这个基因在该指标上的均数,也可以是这个基因在该指标
25、上的均数,也可以是这个基因在该指标上的均数,也可以是这K K K K个个个个基因的加权均数。在加权均数中,权重为上面计基因的加权均数。在加权均数中,权重为上面计基因的加权均数。在加权均数中,权重为上面计基因的加权均数。在加权均数中,权重为上面计算的基因间的相似性。算的基因间的相似性。算的基因间的相似性。算的基因间的相似性。K K K K值的确定具有一定的经验值的确定具有一定的经验值的确定具有一定的经验值的确定具有一定的经验性,但不宜太大和太小。性,但不宜太大和太小。性,但不宜太大和太小。性,但不宜太大和太小。 51515252基因筛选(基因筛选(gene selection)在进行分析之前,要
26、先选择用来分析的基因。不在进行分析之前,要先选择用来分析的基因。不在进行分析之前,要先选择用来分析的基因。不在进行分析之前,要先选择用来分析的基因。不然所有的基因有上万条,也就是数据矩阵有上万然所有的基因有上万条,也就是数据矩阵有上万然所有的基因有上万条,也就是数据矩阵有上万然所有的基因有上万条,也就是数据矩阵有上万行时,既增加了运算的难度,又引入了不必要的行时,既增加了运算的难度,又引入了不必要的行时,既增加了运算的难度,又引入了不必要的行时,既增加了运算的难度,又引入了不必要的基因,也增加了解释结果的难度,要预先进行基基因,也增加了解释结果的难度,要预先进行基基因,也增加了解释结果的难度,
27、要预先进行基基因,也增加了解释结果的难度,要预先进行基因的滤取。因的滤取。因的滤取。因的滤取。当一条基因表达谱数据中的无效数据个数超过一当一条基因表达谱数据中的无效数据个数超过一当一条基因表达谱数据中的无效数据个数超过一当一条基因表达谱数据中的无效数据个数超过一定的范围时,这条基因就认为是一条无效基因,定的范围时,这条基因就认为是一条无效基因,定的范围时,这条基因就认为是一条无效基因,定的范围时,这条基因就认为是一条无效基因,在以后的聚类分析中不把这条基因考虑在内。在以后的聚类分析中不把这条基因考虑在内。在以后的聚类分析中不把这条基因考虑在内。在以后的聚类分析中不把这条基因考虑在内。一条基因表
28、达谱数据的波动很小,也就是说,数一条基因表达谱数据的波动很小,也就是说,数一条基因表达谱数据的波动很小,也就是说,数一条基因表达谱数据的波动很小,也就是说,数据的方差小于一定的范围,意味着这条基因与所据的方差小于一定的范围,意味着这条基因与所据的方差小于一定的范围,意味着这条基因与所据的方差小于一定的范围,意味着这条基因与所要研究的生物过程或对象关联很小,也被滤掉,要研究的生物过程或对象关联很小,也被滤掉,要研究的生物过程或对象关联很小,也被滤掉,要研究的生物过程或对象关联很小,也被滤掉,不进行聚类分析。不进行聚类分析。不进行聚类分析。不进行聚类分析。 差异表达次数差异表达次数差异表达次数差异
29、表达次数53535454基因筛选基因筛选针对特别目的选取,比如选取不同类之间针对特别目的选取,比如选取不同类之间差异表达基因。常用的方法,假设检验,差异表达基因。常用的方法,假设检验,比如比如t t检验,检验,F F检验等检验等不改变整体数据矩阵的数据结构,去除数不改变整体数据矩阵的数据结构,去除数据的冗余性。常用方法,主成分分析等。据的冗余性。常用方法,主成分分析等。5555发展发展新算法新算法新角度新角度合并多种方法合并多种方法5656主成分分析主成分分析(Principle Component Analysis)5757降维概述降维概述降维是指将样降维是指将样本从输入空间本从输入空间通过
30、线性或非通过线性或非线性映射到一线性映射到一个低维空间。个低维空间。 降维可以减少无用信息和冗余信息,将高维数据转换降维可以减少无用信息和冗余信息,将高维数据转换为易于处理的低维数据,减少了后续步骤处理的计算量,为易于处理的低维数据,减少了后续步骤处理的计算量,当降至三维以下时还可用于可视化技术当降至三维以下时还可用于可视化技术,从而发挥人在从而发挥人在低维空间感知上的优点,发现数据集的空间分布、聚类低维空间感知上的优点,发现数据集的空间分布、聚类性质等结构特征性质等结构特征。5858主成分分析(主成分分析(PCA,principal component analysis) 对于一组原始随机变
31、量为对于一组原始随机变量为对于一组原始随机变量为对于一组原始随机变量为X X X X1 1 1 1,X,X,X,Xp p p p,寻找一个新的,寻找一个新的,寻找一个新的,寻找一个新的变量变量变量变量Z Z Z Z1 1 1 1,这个新的变量是,这个新的变量是,这个新的变量是,这个新的变量是原始变量的线性组合,原始变量的线性组合,原始变量的线性组合,原始变量的线性组合,Z Z Z Z1 1 1 1=a=a=a=a11111111X X X X1 1 1 1+a+a+a+a21212121X X X X2 2 2 2+a+a+a+ap1p1p1p1X X X Xp p p p,并使得并使得并使得
32、并使得Z Z Z Z1 1 1 1的变异最大化的变异最大化的变异最大化的变异最大化Z1Z1Z1Z1即为原始变量的最大主即为原始变量的最大主即为原始变量的最大主即为原始变量的最大主成分,它使用一个变量试成分,它使用一个变量试成分,它使用一个变量试成分,它使用一个变量试图最大化地包含一组变量图最大化地包含一组变量图最大化地包含一组变量图最大化地包含一组变量的变异。通常一个变量还的变异。通常一个变量还的变异。通常一个变量还的变异。通常一个变量还不足够,因此,需要寻找不足够,因此,需要寻找不足够,因此,需要寻找不足够,因此,需要寻找第二个主成分第二个主成分第二个主成分第二个主成分Z2Z2Z2Z2,Z2Z2Z2Z2与与与与Z1Z1Z1Z1不相关,且是除不相关,且是除不相关,且是除不相关,且是除Z1Z1Z1Z1外具有外具有外具有外具有最大方差的原始变量的线最大方差的原始变量的线最大方差的原始变量的线最大方差的原始变量的线性组合。性组合。性组合。性组合。59596060616162626363