《w06 -GWAS结果分析课件》由会员分享,可在线阅读,更多相关《w06 -GWAS结果分析课件(65页珍藏版)》请在金锄头文库上搜索。
1、Genome-wide Association Study-GWAS1学习交流PPT发展历史1996年Risch最早提出了GWAS设想;2001年Hansen等最早应用GWAS于植物Sea beet的研究中;2005年Klein等在Science杂志上最早报道了GWAS在人类中的研究,发现了与年龄相关性的黄斑变性病症显著相关的基因。2学习交流PPT什么是GWAS全基因组关联分析:利用全基因组范围全基因组范围内筛选出高密度的分子标记分子标记对所研究的群体进行扫描,分析扫描得出的分子标记数据与表型性状之间关联关系的方法。即:GWAS利用全基因组范围内的全基因组范围内的LD(连锁不平衡)(连锁不平衡
2、)来确定影响某些表型性状或数量性状的基因。3学习交流PPT分子标记是遗传标记的一种遗传标记(genetic marker):指可追踪染色体、染色体某一阶段、某个基因座在家系中传递的任何一种遗传特性。基本特征:可遗传性、可识别性遗传标记类型形态标记(morphological markers)细胞学标记(cytological markers)生化标记(biochemical markers)分子标记(molecular markers)4学习交流PPT形态学标记能够用肉眼识别和观察,并能明确显示遗传多态性的外部形态特征优点:简单直观、经济方便;缺点:标记数少、多态性低、容易受环境条件的影响、并
3、且有一些标记与不良形状连锁。5学习交流PPT细胞学标记能够显示遗传多态性的细胞学特征。主要指染色体核型、带型和数量特性的变异等,它们反映了染色体在结构和数量上的遗传多态性。染色体核型:数量、大小、着丝粒位置等;染色体数量:单体、缺体、三体等;染色体结构:缺失、易位、倒位、重复等。特点:优点:不易受环境影响,呈孟德尔方式遗传;缺点:常伴有对生物有害的表型效应,难以获得相应的标记材料;或者观测和鉴定比较困难;需要花费较大的人力和较长时间来培育,难度较大等。6学习交流PPT生物标记是指以生物体内的某些生化形状作遗传标记,如血型、血清蛋白、种子储藏蛋白、同工酶和等位酶等。特点:优点:表现近中性,对生物
4、经济性状一般没有大的不良影响;直接反映基因产物差异,受环境影响较小。缺点:可用标记数量少,染色方法和电泳技术有一定难度。7学习交流PPT分子标记广义:是指可遗传的并可检测的DNA序列或蛋白质。狭义:DNA标记,指能反映生物个体或种群间基因组中某种差异的特异DNA片段。优势:直接以DNA的形式表现,在生物体的各个组织、各个发育阶段可检测到,不受季节、环境限制。数量多多态性高;表现为中性,不影响目标形状的表达许多标记表现为共显性,能区别纯合体和杂合体8学习交流PPT第一代:限制性片段长度多态性(Restriction Fragment Length Polymorphism, RFLP)第二代:微
5、卫星多态性(microsatellite)第三代:SNPSNP:Single Nucleotide Polymorphism,单核苷酸多态性指同一位点不同等位基因之间核苷酸的差异。分子标记9学习交流PPT1.理论上讲,SNP既可能是二等位多态性,也可能是3个或4个等位多态性,但后两者非常少见,几乎可以忽略;2.占所有已知多态性的90%以上;3.SNP数目:目前,测得大约15003000万个SNP位点。4.分为:同义SNP(synonymous SNP)和非同义SNP(non-synonymous SNP)。10学习交流PPTSNPs的基因型人体除性染色体外,每个染色体都有两份,个体所拥有的一对
6、等位基因的类型称作基因型。核定个体的基因型,称作基因分型。11学习交流PPTSNP双等位基因标记主要等位基因(major allele):在一般人群中较多见的等位基因;次要等位基因(minor allele):四种可能的形式一种转换( CT或GA):2/3三种颠换(CA或GT, CG或GC,TA或AT)12学习交流PPTSNP作为遗传标记的优势变异程度不如微卫星数量巨大,分布密度高:人类基因组中1SNP/1000bp更稳定的遗传特性:多数并不位于基因编码区,甚至不在基因区,稳定而无害基因分型简单:快速、大批量、自动化13学习交流PPTSNP概念界定基因组DNA的差异 cDNA中发现的:可能是R
7、NA编辑的结果?单碱基的插入和缺失?疾病易感等位基因?在正常人(无病个体)中可出现SNP & mutation14学习交流PPT基因型和表型15学习交流PPTSNP的检测PCRSNP芯片新一代测序16学习交流PPTGWAS的目的寻找哪些SNP标记与疾病相关关联分析17学习交流PPT基本流程1.建立研究群体,选择尽可能大的群体作研究样本,建立目标性状数据库。2.提取样本DNA,进行质量控制以达到基因分型的要求,对基因型数据进行检测和质量控制以达到后续关联分析的要求。3.利用合适的统计模型对SNP和目标性状进行关联分析;4.对关联分析的结果进行高级分析及验证。18学习交流PPT关联分析19学习交流
8、PPTGWAS分类基于无关个体(unrelated individual)的关联分析:(1)病例对照分析法(Case-control analysis),主要用来研究质量性状,即是否患病;(2)基于随机群体的关联分析(Population-based association analysis):主要用来研究数量性状。基于家系的关联分析(Family-based association):传递不平衡检验法(Transmission Disequilibrium Test, TDT)20学习交流PPTGWAS分类家系数据分析遗传标记与疾病数量表型和质量表型的关联可以排除人群混杂对于关联分析的影响,
9、但其在发现阳性关联的检验方面不如相同样本量的病例对照研究有效。当前的人口状况使得大规模的家系数据很难获得,目前的研究中病例对照研究居多。21学习交流PPT22学习交流PPTGWAS试验设计单阶段设计单阶段设计(One-stage design):一次性选用足够大的样本量,对每一个样本都进行SNP基因型分型,然后分析相关性状与每个SNP的关联效应;两阶段设计两阶段设计(Two-stage design)或多阶段设计(Multiple-stage design):(1)先选择一个小样本量进行SNP分型,统计分析时在较为宽松的P值条件下先筛选出与目标性状呈显著相关的SNPs;(2)然后在大样本中对第
10、一步中已经筛选出的SNPs进行分型,结合两个阶段的分析结果进行最后统计。23学习交流PPT质量控制24学习交流PPT质量控制25学习交流PPT质量控制26学习交流PPT质量控制27学习交流PPT质量控制28学习交流PPT关联分析的理论基础连锁不平衡(Linkage Disequilibrium, LD):又称等位基因关联,是指同一条染色体上,两个等位基因间的非随机相关。即:当位于同一条染色体的两个等位基因同时存在的概率大于人群中因随机分布而同时出现的概率时,就称这两个位点处于LD状态。DP(AB)-P(A)*P(B)29学习交流PPTLD产生的原因30学习交流PPTLD的度量31学习交流PPT
11、D的意义32学习交流PPTD值的95可信区间(95%)33学习交流PPTr2的意义34学习交流PPT影响LD的因素35学习交流PPT影响LD的因素36学习交流PPT基于SNP的LD关联分析37学习交流PPT基于SNP的LD关联分析38学习交流PPTLD作图LD作图是将一段基因的所有SNPs的LD关系标记在基因序列中,用来观察重组热点。作图方法有:LD散点图(dot plot)LD矩阵图(LD matrix)邻近LD窗口分析(adjacent LD window analysis)39学习交流PPTLD 散点图40学习交流PPTLD矩阵图(LD matrix)41学习交流PPT邻近LD窗口分析4
12、2学习交流PPT43学习交流PPT关联检验的模型假定:某个SNP位点有两个等位基因:A,a;形成三个基因型:AA, Aa, aa。假设A是minor位点。当我们检验该SNP位点与疾病的关系时,我们不知道该位点以何种方式起作用(等位,基因型,显性,隐性)。44学习交流PPT关联检验的模型1.Genotypic ModelHypothesis: all 3 different genotypes have different effects: AA vs. Aa vs. aa卡方检验45学习交流PPT46学习交流PPT关联检验的模型2. Dominant ModelHypothesis: the
13、genetic effects of AA and Aa are the same (assuming A is the minor allele) : AA+Aa vs. aa47学习交流PPT关联检验的模型3. Recessive ModelHypothesis: the genetic effects of Aa and aa are the same (A is the minor allele): AA vs. Aa+aa48学习交流PPT关联检验的模型4. Allelic ModelHypothesis: the genetic effects of allele A and al
14、lele a are different: A vs. a49学习交流PPT关联检验Odd Ratio值(OR)关联检验中如果某SNP与某疾病的关联p值小于显著性水平,则拒绝不关联的零假设,支持该SNP与疾病存在关联的假设,OR值的目的是进一步估计其关联的强度。点估计和区间估计50学习交流PPT关联检验51学习交流PPT关联检验95% CI (Confidence Interval)的计算lnOR近似地服从正态分布52学习交流PPTR在GWAS中的应用Public DatabaseHapMapSNPediadbSNPOMIM53学习交流PPTThe SNP association analys
15、isR package: SNPassoc54学习交流PPTmySNP=snp(SNPs$snp10001, sep=“/”)55学习交流PPT56学习交流PPT57学习交流PPT58学习交流PPT59学习交流PPT60学习交流PPT61学习交流PPT62学习交流PPTThe whole genome SNP association analysisdata(HapMap)str(HapMap)str(HapMap.SNPs.pos)63学习交流PPT64学习交流PPTThe SNP annotation and enrichmentMotivationOnce we have some SNPs that are potentially interesting from the point of view of association with the phenotype, it is extremely important and interesting to know about the gene or genomic region that they belong to.R package: NCBI2Rinstall.packages(“NCBI2R”)library(NCBI2R)65学习交流PPT