【生物信息学第二版】基因表达数据分析上课讲义

上传人:yulij****0329 文档编号:129929527 上传时间:2020-04-24 格式:PPT 页数:112 大小:4.70MB
返回 下载 相关 举报
【生物信息学第二版】基因表达数据分析上课讲义_第1页
第1页 / 共112页
【生物信息学第二版】基因表达数据分析上课讲义_第2页
第2页 / 共112页
【生物信息学第二版】基因表达数据分析上课讲义_第3页
第3页 / 共112页
【生物信息学第二版】基因表达数据分析上课讲义_第4页
第4页 / 共112页
【生物信息学第二版】基因表达数据分析上课讲义_第5页
第5页 / 共112页
点击查看更多>>
资源描述

《【生物信息学第二版】基因表达数据分析上课讲义》由会员分享,可在线阅读,更多相关《【生物信息学第二版】基因表达数据分析上课讲义(112页珍藏版)》请在金锄头文库上搜索。

1、生物信息学 第五章基因表达数据分析 苏州大学沈百荣首都医科大学李冬果 生物信息学 基因表达组学与基因组学相比较表达组信息是动态的 表达组学的数据 更多的是数值分析 转录组学中除了模式识别外 系统建模也十分重要 真核生物基因表达的基本方式 基因表达调控示意图 基因表达的时空性 基因表达测定方法RT qPCR 近20年来三种不同高通量基因表达测定技术的应用趋势 高通量基因表达测定的应用实例 1 测定组织特异性基因表达2 基因功能分类3 癌症的分类和预测4 临床治疗效果预测5 基因与小分子药物 疾病之间的关联6 干细胞的全能型 自我更新和细胞命运决定研究 7 动植物的发育研究8 环境对细胞基因表达的

2、作用9 环境监测10 物种的繁育 第二节基因表达测定平台与数据库 MicroarrayPlatformandDatabases 1 cDNA芯片2 Affymetrix芯片3 下一代测序技术技术如 Roche 454 IlluminaMiSeq IonTorrentPGM 一 基因表达测定平台介绍 二 Microarray技术与RNA Seq技术的比较 1 RNA Seq技术对没有已知参考基因组信息的非模式生物 也可测定转录信息 2 RNA Seq技术可以测定转录边界的精度达到一个碱基 RNA Seq可以用来研究复杂的转录关系 3 RNA Seq可以同时测定序列的变异 4 RNA Seq背景信

3、号很小 测定的动态范围很大 RNA Seq在基因表达的定量上准确性很高 RNA Seq在测定技术上和生物上重复性很高 RNA Seq的测定需要很少的RNA样本 在应用上RNA Seq技术对ISOFORM的测定和等位基因的区分比芯片技术有很好的优势 三 基因表达数据库 疾病相关基因表达数据库 第三节数据预处理与差异表达分析 PreprocessingofMicroarrayDataandAnalysisofDifferentiallyExpressionGene 一 基因芯片数据预处理 一 基因芯片数据的提取 cDNA微阵列芯片荧光信号 定性信息提取 P A M Present Absent M

4、arginal 定量信息提取 基于探针集汇总后的基因水平的荧光信号强度值 原位合成芯片 二 数据对数化转换 对芯片数据做对数化转换后 数据可近似正态分布 三 数据过滤 数据过滤的目的是去除表达水平是负值或很小的数据或者明显的噪声数据 过闪耀现象物理因素导致的信号污染杂交效能低点样问题其他 四 补缺失值 1 数据缺失类型非随机缺失基因表达丰度过高或过低 随机缺失与基因表达丰度无关 数据补缺主要针对随机缺失情况 高表达基因的数据缺失 2 数据补缺方法 1 简单补缺法 missingvalues 0expressionmissingvalues 1expression arbitrarysignal

5、 missingvalues row gene averagemissingvalues column array average 2 k近邻法 选择与具有缺失值基因的k个邻居基因用邻居基因的加权平均估计缺失值参数邻居个数距离函数 3 回归法 五 数据标准化 1 为什么要进行数据标准化 存在不同来源的系统误差染料物理特性差异 热光敏感性 半衰期等 染料的结合效率点样针差异数据收集过程中的扫描设施不同芯片间的差异实验条件差异 2 运用哪些基因进行标准化处理芯片上大部分基因 假设芯片上大部分基因在不同条件下表达量相同 不同条件间稳定表达的基因 如持家基因 控制序列 spikedcontrol 在不

6、同条件下表达水平相同的合成DNA序列或外源的DNA序列 3 cDNA芯片数据标准化处理 1 片内标化 within slidenormalization 方法全局标化 荧光强度依赖的标准化 点样针组内标准化 假设 R k G方法 c log2k 中值或均值 全局标化 globalnormalization 荧光强度依赖的标化 intensitydependentnormalization 为什么方法 scatter plotsmootherlowess拟合c A 为M对A的拟合函数标化后的数据 点样针依赖的标化 within print tip groupnormalization 为什么一张

7、芯片的不同区域运用不同的点样针点样 从而引入点样针带来的系统误差 method 2 染色互换实验 dye swapexperiment 的标化实验组对照组芯片1cy5 R cy3 G 芯片2cy3 G cy5 R 前提假设 c c 方法 线性标化法 linearscalingmethods 与芯片内标化的尺度调整 scaleadjustment 方法类似 非线性标化法 non linearmethods 分位数标化法 quantilenormalization 两张芯片的表达数据的分位数标化至相同 即分布于对角线上 3 片间标化 multiple slidenormalization 4 芯片

8、数据标准化 对每个探针对计算RR PM MM PM MM 比较R与定义的阈值Tau 小的正值 默认值为0 015 单侧的Wilcoxon sSignedRanktest产生p值 根据p值定义定量信号值PresentcallMarginalcallAbsentcall 1 提取定性信号 分析步骤获取探针水平数据 背景值效正 标准化处理 探针特异背景值效正 探针集信号的汇总 2 提取定量信号 1 分析方法 2 3 4 5 6 M log2R log2GA log2R log2G 2 7 8 9 前面提及的标准化方法仅效正了数据分布的中心 在不同的栅格间log Ratios的方差也不同 二 差异表达

9、分析基本原理与方法 一 倍数法 实验条件下的表达值 对照条件下的表达值 通常以2倍差异为阈值 判断基因是否差异表达 二 t检验法 运用t检验法可以判断基因在两不同条件下的表达差异是否具有显著性 三 方差分析 两种或多种条件间下基因表达量的比较 用方差分析 它将基因在样本之间的总变异分解为组间变异和组内变异两部分 通过方差分析的假设检验判断组间变异是否存在 如果存在则表明基因在不同条件下的表达有差异 四 SAM法 significanceanalysisofmicroarrays 1 多重假设检验问题 型错误 假阳性 在假设检验作推断结论时 拒绝了实际上正确的检验假设 即将无差异表达的基因判断为

10、差异表达 型错误 假阴性 不拒绝实际上不正确的 即将有差异表达的基因判断为无差异表达 在进行差异基因挑选时 整个差异基因筛选过程需要做成千上万次假设检验 导致假阳性率的累积增大 对于这种多重假设检验带来的放大的假阳性率 需要进行纠正 常用的纠正策略有Bonferroni效正 控制FDR falsediscoveryrate 值等 2 分析步骤计算统计量扰动实验条件 计算扰动后的基因表达的相对差异统计量计算扰动后的平均相对差异统计量 确定差异表达基因阈值以最小的正值和最大的负值作为统计阈值 运用该阈值 统计在值中超过该阈值的假阳性基因个数 估计假阳性发现率FDR值 调整FDR值的大小得到差异表达

11、基因 五 信息熵 运用信息熵进行差异基因挑选时 不需要用到样本的类别信息 所以运用信息熵找到的差异基因是指在所有条件下表达波动比较大的基因 三 差异表达分析应用 以一套阿尔海茨默病相关的基因表达谱数据 GSE5281 为例 详细介绍如何利用BRB ArrayTools软件进行数据预处理 并对处理过的标准化的基因芯片数据利用SAM软件进行差异表达分析的过程 GSE5281数据是利用Affymetrix公司的寡核苷酸芯片HG U133Plus2 0Array检测阿尔海茨默病病人和正常老年人大脑中六个不同区域的基因表达情况 本例仅选择其中一个区域 内侧颞回 middletemporalgyrus M

12、TG 的数据进行说明 第一步 导入芯片数据 使用 importdata 下的 GeneralFormatImporter 导入基因芯片数据 数据间用Tab键分隔 或使用Excell文件 也可使用 DataImportWizard 进行导入 导入芯片数据 第二步 选择文件类型 每张芯片用单独的文件存储 多个文件保存在一个文件夹 Arrayaresavedinseparatefilesstoredinonefolder 若多张芯片数据组织成一个矩阵形式 存储在一个文件中 Arrayaresavedinhorizontallyalignedfile 选择记忆芯片数据文件类型 第三步 选择芯片数据文件

13、所存储的路径 注意路径中不能包含中文 第四步 选择基因芯片平台 第五步 选择文件格式 第六步 数据的过滤和标准化 第七步 基因注释 由于基因芯片检测的是探针的表达情况 而探针和基因之间往往不是一一对应 所以 在数据导入后软件会询问是否需要进行基因注释 及是否需要将探针转换成相应的基因名 genesymbol 或EntrezID 第八步 运行SAM FDR 0 01 delta 0 68 选出2209个在阿尔海茨默病病人和正常人脑组织中表达发生显著性改变的基因 SAM的参数设定 第九步 SAMPlot SAMPlot 第四节聚类分析与分类分析 ClusteringAnalysisandClass

14、ification 一 聚类目的 基于物体的相似性将物体分成不同的组 二 基因表达谱数据的聚类 对基因进行聚类识别功能相关的基因识别基因共表达模式对样本进行聚类质量控制检查样本是否按已知类别分组发现亚型 样本 基因 三 距离 相似性 尺度函数 几何距离线性相关系数非线性相关系数互信息 四 聚类算法 层次聚类算法将研究对象按照它们的相似性关系用树形图进行呈现 进行层次聚类时不需要预先设定类别个数 树状的聚类结构可以展示嵌套式的类别关系 一 层次聚类 在对含非单独对象的类进行合并或分裂时 常用的类间度量方法 类间相似性度量方法 2000年Alizadeh等运用基因芯片数据 基于层次聚类算法证实了D

15、LBCL肿瘤病人在mRNA层面确实存在两种亚型 二 k均值聚类 基本思想 三 自组织映射聚类 基本思想在不断的学习过程中 输出层的神经元根据输入样本的特点进行权重调整 最后拓朴结构发生了改变 四 双向聚类 双向聚类就是识别基因表达谱矩阵中同质的子矩阵 运用特定的基因子类识别样本子类 双向聚类识别同质的子结构 五 分类分析 一 线性判别分类器 二 k近邻分类法 三 PAM方法 predictionanalysisformicroarray 基本思想每类样本的质心向所有样本的质心进行收缩 即收缩每个基因的类均值 收缩的数量由值决定 当收缩过程发生时 某些基因在不同类中将会有相同的类均值 这些基因就

16、不具有类间的区别效能 基因1 基因2 分析步骤 计算统计量对公式经过变换得到 收缩各类的均值 判断新样本类别 四 决策树 基本思想决策树又称多级分类器 它可以把一个复杂的多类别分类问题转化为若干个简单的分类问题来解决 决策树的结构 一个树状的结构 内部节点上选用一个属性进行分割 每个分叉都是分割的一个部分 叶子节点表示一个分布 决策树应用于肿瘤基因表达谱的分类分析 分析步骤 提取分类规则 进行分类预测在构造决策树的过程中最重要的一点是在每一个分割节点确定用哪个属性来分类 或分裂 这就涉及到关于使用什么准则来衡量使用A属性比使用B属性更合理 衡量准则信息增益 informationgain基尼指数 Giniindex 决策树的修剪消除决策树的过适应问题消除训练集中的异常和噪声 五 分类效能评价 1 构建训练集和检验集n倍交叉验证 n foldcrossvalidation Bagging bootstrapaggregating 无放回随机抽样留一法交叉验证 leave one outcrossvalidation LOOCV 2 分类效能灵敏度 sensitivity recall 特

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号