生物芯片的数据处理及应用讲解

上传人:我** 文档编号:114660205 上传时间:2019-11-12 格式:PPT 页数:67 大小:3.45MB
返回 下载 相关 举报
生物芯片的数据处理及应用讲解_第1页
第1页 / 共67页
生物芯片的数据处理及应用讲解_第2页
第2页 / 共67页
生物芯片的数据处理及应用讲解_第3页
第3页 / 共67页
生物芯片的数据处理及应用讲解_第4页
第4页 / 共67页
生物芯片的数据处理及应用讲解_第5页
第5页 / 共67页
点击查看更多>>
资源描述

《生物芯片的数据处理及应用讲解》由会员分享,可在线阅读,更多相关《生物芯片的数据处理及应用讲解(67页珍藏版)》请在金锄头文库上搜索。

1、生物芯片的数据处理及应用 2013.11.11 李丹,生物芯片的数据处理及应用,生物芯片作为一种高通量的技术平台为探索生物的复杂性提供了强有力的工具。在生命科学、药物研发、临床疾病检测和诊断、环境、农林业等领域都得到了广泛的应用。通过生物芯片的一次检测,可以产生大量的数据。如何在浩瀚如海的芯片数据中,通过有效的数据处理和分析方法。发现基因表达,基因的结构和基因功能可能存在的联系,将无机的数据信息与有机的生命活动联系起来,阐释生命的特征和规律以及基因的功能,是生物信息学研究的重要课题。,Contents,生物学问题:差异表达基因、疾病亚型分析等,模式识别 (疾病预测),生物学证实与解释,微阵列杂

2、交实验,特征基因,探针筛选、芯片与实验设计,杂交信号采集与图象处理,标准化与Ratio值分析,聚类分析 (基因或组织),基因调控网络,R, G,基因芯片生物信息学研究,一、基因芯片的检测原理,最根本的原理:碱基互补配对原则 核酸分子特异性杂交,基因芯片(gene chip),又称DNA微阵列(microarray),是由大 量DNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息,该技术实现了在微芯片固相载体上对大量目的DNA的特异杂交检测,具有高通量、多样化、微量化、集成化、自动化等显著优点,在生物学领域具有十分广泛的应用前景。,一、基因芯片实验流程,一、甲基化芯片

3、,甲基化特异性内切酶 蛋白或抗体富集(MeDIP) Nimblegen和Agilent公司的甲基化芯片:不能精确定量、无法提供单碱基分辨率、假阴性和假阳性较高、需要高达10ug的DNA、价格高昂等 重亚硫酸盐修饰(Bisulfite Modification) Illumina公司的甲基化芯片:可提供单碱基分辨率并可精确定量,Illumina芯片,GoldenGate Panel I HumanMethylation27K BeadChip 14495个基因启动子和转录起始位点附近的 27,578个CpG位点 HumanMethylation450K BeadChip 可检测全基因组45000

4、0多个CpG位点; 96%的CpG岛; CpG岛以外的CpG位点 (启动子区、5UTR区、第一外显子区、gene body区、3UTR区、基因间区域以及CpG岛外低密度分布的CpG位点); 每张芯片可平行检测12个样本,甲基化芯片实验流程,甲基化芯片原理,二、芯片数据预处理,数据过滤 -背景校正、去除表达水平是负值或很小的数据或者明显的噪声数据 数据转换 - 总量 or log 重复数据合并 缺失数据的处理- k 近邻,重复值,基因间的相 关性(行均值) 数据标准化 - 实验/片内标准化,实验/片间标准化,数据预处理一般流程,所有芯片最终都是根据扫描出来的荧光值来判定表达的强弱。因此芯片数据的

5、处理方法具有普遍适用性。包括mRNA,miRNA,LncRNA以及前面介绍的2种芯片。,(一)背景的校正-预处理的第一步 原因:序列上点的荧光强度是由背景荧光和标记DNA产生的荧光的共同作用,因此,为获取与真实量成比例的数值,应当减去对应于背景的荧光强度值,背景校正荧光强度才真正反映了基因真实的水平。 方法: 1、局部背景校正 2、亚栅格背景校正 3、分组背景校正 4、空白点背景校正 5、对照点背景校正(内参),(二)弱信号的处理 原因:在芯片上存在很多弱信号点,这些点的信号强度虽然很弱,但可能 并不是低质量的点,因此不能武断地把弱信号点全部删除。 弱信号点的分类: (1)噪声引起,当前景信号

6、强度值接近背景信号强度值时,噪声会掩盖前景强度值,经过背景校正后得到的红绿荧光信号比值有较大波动。 (2)重要信息点,如一个通路起点的启动基因,只需要少量的表达就能激发和促进通路下游基因的表达,这些信号点真实地反映了基因表达的实际水平。,弱信号的处理方法: 分离噪声和有价值意义的弱信号点 (1)重复芯片实验:观察弱信号点的稳定性,从而判断其可信性。 缺点:成本较高,提高芯片数据的复杂性 (2)找到一个适当的信号强度阈值,低于该值的点删掉,高于该值的信号点认为是一些真正的弱信号点,应当进入后续的数据分析,挖掘出具有生物意义的信息。 信号强度阈值 信噪比 通过背景、空白点或阴性对照点确定弱信号的阈

7、值 使用信号强度的累积分布函数确定阈值,(三)数据的对数转换 转换原因: 1、生物学上易于理解和解释 如:若两个基因在对照样本中的背景校正强度值均为1000,而在另外一个实验条件下的背景校正强度值分别为100,10000,从绝对值上看,相差很大,但其实各自发生了10倍的变化。取对数: lg100=2, lg1000=3, lg10000=4 对数变换减弱了方差和平均值,使低强度值处的倍数改变与高强度值处发生的倍数改变具有可比性。 2、使数据的分布满足对称性和近似正态分布、满足常用统计分析方法 3、使用的方便性 如:如果使用以2为底的对数,要选择具有4倍以上变化的基因可以在比值直方图的log2比

8、值为2处截图,数据转换,- log2Ratio 使数据的分布满足对称性和近似正态分布,满足常用统计分析方法 - oligo 芯片(Affymetrix) 在寡核苷酸单色实验中,结果是基因表达的荧光信号强度,(四)重复数据合并,重复能减少统计量的变异,从重复芯片得到的数据可以使用正规的统计方法进行分析。只有重复才能计算均数,而均数比单个值具有更强的稳定性。 重复的类型 - 单张芯片上的重复,有意设计的重复点(重复点在单张芯片上应合理布局,这样能较好地反映一张芯片上的变异,而不应把重复点排列在一起) - 不同芯片的重复(1)技术重复,(2)生物学重复 技术重复不能提供数据的独立性,即使对重复进行平

9、均,重复间相同的系统效应仍然存在。而生物学重复能提供更为独立的实验结果 重复数据的合并 - 均值或中位数或众数,集中趋势指标(常用,要掌握),(五)缺失数据的处理,(一)数据缺失类型 非随机缺失 基因表达丰度过高或过低 随机缺失 与基因表达丰度无关,数据 补缺主要针对随机缺失情况,(二)数据补缺方法,当点为空点或相对背景强度高于绝对 信号强度时,该点的数据出现缺失。由于 缺失值容易干扰统计学分析或影响基因聚 类的稳定性。会导致下游数据分析出现问 题,一般会采用特定的数值来代替缺失值。,k近邻法,选择与具有缺失值基因的k个邻居基因 用邻居基因的加权平均估计缺失值 参数: 邻居个数 距离函数,(六

10、)数据的标准化(归一化),芯片实验的变异=系统变异+随机变异 系统变异=生物学差异+系统误差 标准化的目的就是消除系统误差,使不同次实验具有可比性 引起系统误差的因素包括: 荧光物质的物理和化学属性,cy3和cy5的染色效率差异 芯片的制作(不同点样头间的差异,芯片的空间位置不同) 芯片的扫描过程(扫描仪的属性设置),用于归一化的非差异表达基因的选择,- 全部基因、管家基因,全部基因 假设:(1)染色体/基因组范围的检测时,仅有比例非常小的基因在两个样品中的表达有差异 (2)上调和下调基因的表达水平具有对称性,当芯片上的基因数目很大,通常大于5000时在各种实验条件下具有差异的基因数目不超过1

11、0% 局限性:生物样品的表达量上确实存在差异,因此用全局基因或绝大多数基因(对表达水平两端的数据截尾),进行归一化,在准确性上受到一定程度的限制。,管家基因/持家基因 定义:在各种条件下具有稳定表达的基因 局限性: 管家基因的表达也有变化 管家基因的确定困难(条件特异的) 管家基因一般具有较高的表达强度,因此对低表达基因的归一化效果不好,归一化方法的分类 - 序列内的归一化(片内标准化) - 染色互换配对设计的芯片的归一化 - 多张芯片间的归一化(片间标准化),片内标准化(cDNA芯片lowess标准化),Lowess Normalization,目前实验室常用的芯片为单通道的寡核苷酸芯片,对

12、于affymetrix公司的寡核苷酸芯片,实验室最常用的预处理算法为RMA,三、差异基因筛选,差异表达基因也可以称为阳性基因,包括上调表达基因和下调表达基因,通常采用基因在实验组和对照组中信号的比值衡量基因在两种状态下基因的表达差异。,三、差异基因筛选,1、倍数法,实验条件下的表达值(荧光强度值),对照条件下的表达值(荧光强度值),通常以2倍差异为阈值,判断基因是否差异表达 通常大于2或者小于0.5即认为表达有差异 这个筛选标准是可以改变的,如(0.333,3),(0.667,1.5),这种方法简单、直观。但是其阈值的划分主观性较强,未考虑到生物学变异和实验系统误差,缺乏生物学和统计学支持。这

13、种方法适用于预实验和实验初筛,或辅助其他差异基因筛选方法。,2、t检验法,运用t检验法可以判断基因在两种不同条件下的表达差异是否具有显著性,零假设H0:1=2,即假设某基因在两种不同条件下的平均表达水平相等 备择假设H1:1!=2,在实际操作中,经常结合t检验分析和 倍数分析对数据进行筛选。火山图(Volcanoplot右图)是用p-value值与fold change值两个因素共同绘制的,用于显示两组样品数据的显著性差异。通常当p-value0.05且Foldchange2时,我们认为这些基因在两组样品中具有显著性差异。,3、SAM (significance analysis of mic

14、roarrays),(一) 多重假设检验问题 型错误(假阳性)即在假设检验作推断结论时,拒绝了实际上正确的检验假设,即将无差异表达的基因判断为差异表达。 型错误(假阴性)即不拒绝实际上不正确的,即将有差异表达的基因判断为无差异表达。 在进行差异基因挑选时,整个差异基因筛选过程需要做成千上万次假设检验,导致假阳性率的累积增大。对于这种多重假设检验带来的放大的假阳性率,需要进行纠正。常用的纠正策略有Bonferroni效正,控制FDR(false discovery rate)值等。,Bonferroni(邦弗朗尼)校正 如果在同一数据集上同时检验n个独立的假设,那么用于每一假设的统计显著水平,应

15、为仅检验一个假设时的显著水平的1/n。,Benjamini于1995年提出一种方法,通过控制FDR(False Discovery Rate)来决定P值的域值. 假设你挑选了R个差异表达的基因,其中有S个是真正有差异表达的,另外有V个其实是没有差异表达的,是假阳性的。实践中希望错误比例Q=V/R平均而言不 能超过某个预先设定的值(比如0.05),在统计学上,这也就等价于控制FDR不能超过5%。,设总共有m个候选基因,每个基因对应的p值从小到大排列分别是 p(1),p(2),.,p(m),则若想控制fdr不能超过q,则只需找到最大的正整数i,使得 p(i)= (i*q)/m.然后,挑选对应p(1

16、),p(2),.,p(i)的基因做为差异表达基因,这样就能从统计学上保证fdr不超过q。,筛选差异基因后需要做进一步的研究和分析 1.筛选分子标志物 2.选择自己感兴趣的基因,做实验室的确证 3.利用数据库,做功能分析(基因功能及通路功能富集) 4.预测分子通路 5.基因和蛋白质相互作用分析,四、基因注释与功能富集分析,(一)基因注释数据库 GO数据库 KEGG数据库 (二)功能富集分析 超几何分布 富集分析软件 BiNGO GO-function,(一)基因注释数据库,1、研究人员已经掌握了大量的全基因组数据,同时关于基因、基因产物以及生物学通路的数据也越来越多,解释生物学实验的结果,尤其从基因组角度,需要系统的方法。 2、在基因组范围内描述蛋白质功能十分复杂,最好的工具就是计算机程序,提供结构化的标准的生物学模型,以便计算机程序进行分析,成为从整体水平系统研究基因及其产物的一项基本需求。,基

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号