bcc精品培训关联分析

上传人:第*** 文档编号:58620726 上传时间:2018-10-31 格式:PPT 页数:56 大小:4.10MB
返回 下载 相关 举报
bcc精品培训关联分析_第1页
第1页 / 共56页
bcc精品培训关联分析_第2页
第2页 / 共56页
bcc精品培训关联分析_第3页
第3页 / 共56页
bcc精品培训关联分析_第4页
第4页 / 共56页
bcc精品培训关联分析_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《bcc精品培训关联分析》由会员分享,可在线阅读,更多相关《bcc精品培训关联分析(56页珍藏版)》请在金锄头文库上搜索。

1、全基因组关联分析,周家蓬博士 QQ群:259804181,1,2,全基因组关联研究,Genome-wide association study (GWAS) 检测全基因组范围的遗传变异与可观测性状间的遗传关联,3,遗传变异的检测,SNP芯片Affymetrix: 500K chip (Randomly distributed)Illumina: 550K chip (gene-based) 高通量测序Illumina/Solexa: DNA-seq, RNA-seq,4,遗传变异的数量,“单倍型图谱计划 1”(Nature 2005) SNP: 1M “单倍型图谱计划 2”(Nature 2

2、007) SNP: 4M “单倍型图谱计划 3”(Nature 2010) SNP: 10M,5,SNP和SNP基因型,TTCAGTCAGATTCCAGCCC,TTCAGTCAGATTCCAGCCC,样本1,样本2,TTCAGTCAGATTCCAGCCC,TTCAGTCAGAGTCCAGCCC,6,表型 & 模型和算法,表型:质量性状和数量性状 表型校正:去除outliers,取特征值,取剩余值 模型:混合线性模型方程组 算法:SNP,单倍型,CNV,Gene-set(SNPs)Add.,Dom.,Rec.,Int.Frequentist,Bayesian 方差/秩和,均值/中位数打分值,似然

3、比Bonferroni,FDR,Permutation,Bootstrap,7,编码基因型,For one marker with two alleles, there can be three possible genotypes:,8,病例/对照设计的数据结构,9,遗传假设和遗传模型,Genotypic modelHypothesis: all 3 different genotypes have different effects,AA vs. Aa vs. aa,10,Dominant modelHypothesis: the genetic effects of AA and Aa

4、are the same,AA and Aa vs. aa,遗传假设和遗传模型(续),11,Recessive modelHypothesis: the genetic effects of Aa and aa are the same,AA vs. Aa and aa,12,遗传假设和遗传模型(续),Allelic modelHypothesis: the genetic effects of allele A and allele a are different,A vs. a,13,遗传假设和遗传模型(续),卡方检验,Genotypic model Null hypothesis: In

5、dependence,df = 2,14,Chi-squared test statistic:O is the observed cell counts E is the expected cell counts, under null hypothesis of independence,统计量,15,R code Statistics hist(Statistics, prob=T) curve( dchisq(x, df=5), col=blue, add=TRUE ) curve( dchisq(x, df=2), col=red, add=TRUE ) P-1-pchisq(10,

6、df=2);P 1 0.006737947,统计量,P 值,16,GWAS的历史,2005年,Science杂志报道了第一篇GWAS研究:年龄相关性黄斑变性 之后陆续出现了有关冠心病、肥胖、2型糖尿病、甘油三酯、精神分裂症以及相关表型的报道,17,GWAS的现状,18,GWAS的趋势,19,探求因果关系,逻辑推理:归纳法(从特殊到一般)、演绎法(从一般到特殊) “穆勒五法”:求同法、求异法、求同求异法、共变法、排除法 全基因组关联研究主要基于共变法思想科学技术史之父萨顿认为科学是人类唯一具有累积性和继承性的活动,20,一般流程,使用SNP分型芯片获得高通量的基因型 对基因型进行质量评估和控制

7、若为质量性状,需进行群体分层检测;如为数量性状,则对表型进行协变量校正 采用若干遗传模型进行全基因组关联分析 增加额外的数据进行结果验证,21,AHMU案例,Illumina Human 610Quad BeadChip Call rate 90%, MAF 1%, HWE P 0.8)对填充基因型进行筛选过滤 进行关联分析 常用软件BEAGLE、IMPUTE、MACH和PLINK等,29,通路分析,定义将SNPs按照生物学通路分组,比较各通路在病例/对照或连续性状数量上的差异 成功案例克隆病、I型糖尿病、类风湿性关节炎、精神分裂症、乳腺癌等,30,通路分析,分析步骤 选择生物通路(KEGG)

8、 选择Tag SNPs (HapMap) 多因素分析 显著SNPs结果综合 常用软件GSEA、IPA等,31,互作分析,定义研究基因-基因、基因-环境间交互作用 成功案例老年黄斑变性、帕金森病、直肠癌、膀胱癌,哮喘等,32,互作分析,分析步骤 选择显著及近似显著SNPs 选择风险环境因素 构建互作模型 多因素分析 常用软件PLINK、Random Jungle、BEAM等,33,其他策略,两阶段法 精细定位/目标测序 表型/性状联合 单倍型分析,34,遗传变异的检测,SNP芯片Affymetrix: 500K chip (Randomly distributed)Illumina: 550K

9、chip (gene-based) 高通量测序Illumina/Solexa: DNA-seq, RNA-seq,35,高通量测序,Next-generation sequencing (NGS) 平行测序,36,SNP分型: coverage & variant frequency,37,参考基因组序列,个体正向序列,个体反向序列,遗传变异的种类,38,遗传变异的数量,“千人基因组计划”(Nature 2012) SNP: 38M InDel: 1.4M SV: 14K,39,效应大小 vs. 变异频率,40,40,家系病例或极端性状个体,Nat Rev Genet. 2010 Jun;11

10、(6):415-25.,41,外显子突变是孟德尔疾病主要病因;多向性效应影响复杂疾病 价格相对低廉 目前主要用于检测孟德尔疾病 新的策略或方法:Lasso,折叠法,聚合法,外显子组测序,42,Lasso,岭回归: |beta|2t Lasso回归: |beta|t贝叶斯: 全概率&损失函数 机器学习: SVM,43,低覆盖度测序+缺失基因型填充,44,Pasaniuc et. al., 2012,策略评估,Pasaniuc等证实覆盖度低至0.1-0.5X依然可以通过后续的填充方法获得高密度芯片的效果,45,策略评估(续),Howie等发明了一种pre-phasing的填充方法,该方法通过对GW

11、AS样本个体进行连锁相构建,进而利用参考库的单倍型进行缺失基因型填充,46,NGS-GWAS,水稻农艺性状14种 运用重测序技术对517个中国水稻地方品系进行进化及GWAS分析 1X重测序 KNN基因型填充算法 MLM遗传模型Nat Genet. 2010 Oct; 42: 961967.,47,高密度芯片 vs. 低覆盖度测序,48,测序成本,49,GWAS: Array-based vs. NGS-based,50,基本流程,高通量测序基因分型:CLC Genomics Workbench & ServerBWA/Bowtie + SAMtools/GATK + IGV 全基因组关联分析:

12、PLINK,TASSEL,QTDT/FBATBEAGLE/IMPUTE + SNPTEST 可视化和注释:IGV/gPlink + ANNOVAR/Annotation.pl,51,GWAS模块,52,植物育种,动物育种,人类疾病,TASSEL,QTDT FBAT PBAT,PLINK SNPTEST MENDEL BEAM,IMPUTE BEAGLE METAL HAPLOVIEW FASTSNP,Linux C/C+ R Perl Python MySQL,应用,药物治疗抗抑郁药、精神疾病药物、丙型肝炎治疗,肝损害等副作用,为个体化医疗奠定理论基础 意义中国每年因药物不良反应住院治疗的病人

13、已逾250万人,其中约20万人因此死亡,个体化医疗势在必行,53,丙型肝炎治疗,丙肝全球1.7亿人感染的病毒性疾病,无根治办法,治疗效果因人而异 IL28B基因TT基因型携带者痊愈率约1/4;CC基因型携带者痊愈率达4/509年GWAS最具价值成果正在美国申请专利,54,应用,动植物育种在牛猪鸡、玉米小麦等方面,欧美农业部等国家机构和Euribrid、Hubbard、Meta Moprhix等公司都已开展全基因组选择 意义在提高动植物产品的产量和质量的同时,还可以有效管理生物多样性,使得遗传增益不会破坏某些未来可能需要的性状,55,全基因组选择,Genomic Selection, GS利用整个基因组的标记信息和各性状值来估计每个标记或染色体片段的效应值,然后将效应值加和即得到基因组育种值 丹麦案例2012年人均GDP达$59928,农业大国2008年GS用于牛育种;2010年引入猪育种,56,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 事务文书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号