基因芯片分析资料

上传人:E**** 文档编号:99690596 上传时间:2019-09-20 格式:PPT 页数:90 大小:9.66MB
返回 下载 相关 举报
基因芯片分析资料_第1页
第1页 / 共90页
基因芯片分析资料_第2页
第2页 / 共90页
基因芯片分析资料_第3页
第3页 / 共90页
基因芯片分析资料_第4页
第4页 / 共90页
基因芯片分析资料_第5页
第5页 / 共90页
点击查看更多>>
资源描述

《基因芯片分析资料》由会员分享,可在线阅读,更多相关《基因芯片分析资料(90页珍藏版)》请在金锄头文库上搜索。

1、基因组表达,芯片数据分析,转录本主要包括mRNA,small RNA,non-coding RNA,生物芯片的概念是Fodor等人于1991年提出(Fodor et al., 1991, Science)。,在90年代初期,利用光原位合成的原理,在基质上固定高密度的寡核苷酸的DNA测序芯片。 1995年Schena (Science, 1995)等人,把拟南芥的45个基因固定在一张玻片上,并行检测拟南芥45个基因的表达情况,这是第一次结合了高精度机械手点样系统、荧光标记技术、双通道荧光扫描技术和数据分析软件,是第一次真正意义上的用DNA芯片技术进行基因表达分析的应用。 部分基因组被测序的微生物

2、全基因的DNA芯片问世,如:酿酒酵母,大肠杆菌。 人类、大鼠和小鼠的全基因组芯片。,基因芯片发展过程,Southern & Northern Blot,Dot Blot,Macroarray,Microarray,5,sample,image,Data analysis,原理 - 通过杂交检测信息,一组寡核苷酸探针,TATGCAATCTAG,CGTTAGAT,ACGTTAGA,ATACGTTAGATC,TACGTTAG,由杂交位置确定的一组,核酸探针序列,GTTAGATC,杂交探针组,TATGCAATCTAG,重组的互补序列,靶序列,TACGTTAG,ACGTTAGA,ATACGTTA,CGT

3、TAGAT,GTTAGATC,ATACGTTA,Research Use. Clinical Diagnostic Use.,Biological Sample,Functional Information,One DiseaseOne Gene Expression Pattern,计算Ratio 值 (= Cy3/Cy5) 在 0.5-2.0 之外的定义为在两样本中有明显差异表达。进而获取初步功能信息,Prototype AmpliOnc I Biochip,AmpliOncTM I Biochip after hybridization; color composite of red,

4、blue and green image,This biochip contains all genomic regions that have been reported to be amplified in cancers.,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,X,Y,Oncogene Targets On the AmpliOnc I Biochip,PDGFB,EGFR1,PDGFRA,MET,FGFR2,WNT1,MYB,HER2,YES1,HRAS1,CND1,RAF1,GLI,MYC,MDM2,20q1

5、3,REL,MYCL1,FGR,FES,ABL,INT2,PIK3CA,NMYC,AKT2,FGFR1,JUNB,AKT1,KRAS2,CDK4,AR,cDNA microarray expression patterns of small (S) and large (L) neurons,mRNA enriched in large DRG neurons,mRNA enriched in small DRG neurons,放射性原位杂交验证结果,基因芯片的数据解读和分析,芯片图像的处理。 芯片杂交后获得的数据与芯片的基因信息的连接。 芯片数据的预处理及数据的可视化。 数据处理和分析的算

6、法。,下表是整理后数据的一部分,一、基因芯片数据提取与过滤,(一) cDNA微阵列芯片,(二) Affymetrix公司的原位合成芯片,定性信息提取:P/A/M(Present/Absent/Marginal) 定量信息提取:基于探针集汇总后的基因水平的荧光信号强度值,预处理 对数转换 目的:使数据服从正态分布,预处理 数据过滤 去除表达水平是负值或很小的数据或者明显的噪声数据 波动筛选:去掉一成不变的基因,要求在一定的变化范围内波动 标准化 片内标准化:去除系统误差 片间标准化:在不同列之间的标准化,使每列在同一量纲上比较,网格定位结果,数据过滤,数据过滤的目的是去除表达水平是负值或很小的数

7、据、或者明显的噪声数据。 过闪耀现象 物理因素导致的信号污染 杂交效能低 点样问题 其它,二、数据补缺,(一)数据缺失类型 非随机缺失 基因表达丰度过高或过低 随机缺失 与基因表达丰度无关,数据 补缺主要针对随机缺失情况,(二)数据补缺方法,1、简单补缺法,missing values = 0 expression missing values = 1 expression (arbitrary signal) missing values = row (gene) average missing values = column (array) average,2、K近邻法,选择与具有缺失值基

8、因的k个邻居基因 用邻居基因的加权平均估计缺失值 参数: 邻居个数 距离函数,3、回归法,三、数据标准化,(一)为什么要进行数据标准化 存在不同来源的系统误差 染料物理特性差异(热和光敏感性,半衰期等) 染料连接效能 点样针差异 数据收集过程中扫描设施 不同芯片差异 实验条件差异,(二)运用哪些基因进行标准化处理 芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同) 不同条件间稳定表达的基因(如持家基因) 控制序列(spiked control ) 合成DNA序列或外源的DNA序列,在不同条件下表达水平相同。,以M (log ratio 表达量)为纵坐标,A(log intensit

9、y 表达量)为横坐标做出数据的散点分布图。,A = (Log Green + Log Red) / 2,M = Log Red - Log Green,低,高,表达水平,调控方向,上调,下调,1、片内标化(Within-slide normalization) 全局标化(Global normalization),(三) cDNA芯片数据标准化处理,假设: R=k*G 方法: C=log2k:中值或均值,芯片内数据标准化的常用方法是局部加权回归分析:Lowess (LocallyWeighted Linear Regression) normalization 。,Lowess 回归分析是一种

10、非参数回归方法,也称为平滑方法,在计算两个变量的关系时采用开放式算法,不套用现成的函数公式,所拟合的曲线可以很好的描述变量之间关系的细微的变化。,从图中可以看出由于染色的红光强度比绿光强度大,因此数值的整体分布趋势是偏离那条斜线的。这是由于红光和绿光的感应强度不同产生的偏差。因此希望基因的红光强度与绿光强度是一致的。所以所有数值点的总体分布趋势应该和图中斜线是相吻合的。这样通过标准化后所有数值点的拟合曲线应该下移至斜线位置。,lowess in R,out=lowess(x,y,f=0.4) plot(x,y) lines(out$x,out$y,col=2,lwd=2,out$x will

11、be a vector containing the x values. out$y will contain the lowess fitted values for the values in out$x. f controls the fraction of the data used to obtain each fitted value. f = 0.4 has been recommended for microarray data normalization.,2、片间标化(Multiple-slide normalization) 平均数、中位数标准化 (mean or med

12、ian normalization) 尺度调整的标准化 ( Scale Normalization) 分位数标准化 (Quantile Normalization) 两张芯片的表达数据的分位数标化至相同,即分布于对角线上。 线性标化法(Linear scaling methods) 与芯片内标化的尺度调整(Scale adjustment) 方法类似 非线性标化法(non-linear methods) 分位数标化法(Quantile normalization),3、染色互换实验(dye-swap experiment ) 的标化 实验组 对照组 芯片1 cy5(R) cy3(G) 芯片2

13、cy3(G) cy5(R) 前提假设:cc 方法:,M = log2R - log2G A = (log2R + log2G)/2,Slide 2 Cy3 Cy5,Slide 1 Cy3 Cy5,median,Q3=75th percentile,Q1=25th percentile,minimum,maximum,前面提及的标准化方法仅效正了数据分布的中心,在不同的栅格间log-Ratios 的方差也不同。,(脚标a 为每组实验数据),channel.medians=apply(log(x),2,median) normalized.log.x=sweep(log(x),2,channel.

14、medians),R脚本,Scale Normalization,在进行片内标准化时,不同grid中的基因强度的分布不一致,亦即基因强度值的离散程度不同,这是由系统误差带来的。所以理想状态下希望它们的离散程度是一致的。同理对于双色channel的情况在理想状态下基因在两个染色channel中的离散程度也应该是一致的。因此对于双色芯片数据的尺度标准化结果就是基因在两个channel中的中值一致,同时基因染色强度在两种channel中的离散程度一致。,Log Mean Signal (centered and scaled),Data after Median Centering and Scal

15、e Normalizing,medians=apply(X,2,median) Y=sweep(X,2,medians) mad=apply(abs(Y),2,median) const=prod(mad)(1/length(mad) scale.normalized.X=t(t(X)*(const/mad),差异表达分析 (Analysis of Differentially Expression Gene ),一、倍数法,实验条件下的表达值,对照条件下的表达值,通常以2倍差异为阈值,判断基因是否差异表达,mRNA Cy5/Cy3 = r,time / h,1,5,0,_,_,Start of experiment,up-regulation induction,down-regulation repression,combine them in the log (base 2) ratio Log2( Red intensity / Green intensity) Ratio= log2 (R/G),推测统计学方法,H0 :所研究的基因在表达量上与正常表达时的表达量没有显著的差异性。 H1: 在两种或两种以上样本的芯片实验中,基因的表达有显著的差异性,芯片实验的统计检验,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号