R语言在遗传统计学中的应用ppt课件

上传人:我*** 文档编号:148527882 上传时间:2020-10-20 格式:PPT 页数:22 大小:264KB
返回 下载 相关 举报
R语言在遗传统计学中的应用ppt课件_第1页
第1页 / 共22页
R语言在遗传统计学中的应用ppt课件_第2页
第2页 / 共22页
R语言在遗传统计学中的应用ppt课件_第3页
第3页 / 共22页
R语言在遗传统计学中的应用ppt课件_第4页
第4页 / 共22页
R语言在遗传统计学中的应用ppt课件_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《R语言在遗传统计学中的应用ppt课件》由会员分享,可在线阅读,更多相关《R语言在遗传统计学中的应用ppt课件(22页珍藏版)》请在金锄头文库上搜索。

1、遗传与疾病,人类的某些性状及部分疾病与人体的遗传因素密切相关 阐明遗传因素与人体疾病或健康状态的关系有非常重要的意义 遗传统计学在这其中起着至关重要的作用,遗传与疾病,疾病的易感基因研究,研究的特点,收集的数据即包含一般的表型数据也包含基因型数据 数据分析时需要用到不同的遗传模型 需要一些遗传统计特有的分析方法:LD的计算,家系图的绘制等,R在遗传统计中的应用,数据整理 获取位点的基本信息 Hardy-Weinberg平衡检验 连锁不平衡的计算 关联研究常用分析方法 家系图的绘制 ,数据整理,R中的genetics包专门为基因型数据提供一个新的类 genotype genotype函数是gen

2、etics包里最基本的函数,可以将以下四种形式的初始基因型数据转换成便于分析的带有genotype类的数据,以一个字符分隔的向量 g1 - genotype(c(C-C,C-T,C-C,T-T, C-C,),sep=-) 2. 可以按某一位置分隔的向量 g2 - genotype(c(DD,DI,DD,II,),sep=1) 3. 两个分开的向量 allele1 - c(D,D,D,I,) allele2 - c(D,I,D,I,) g3 - genotype(allele1, allele2),4. 数据框或矩阵中的两列 data - data.frame(allele1 = c(D,D,D

3、,I,), allele2 = c(D,I,D,I,) g4 - genotype(data$allele1,data$allele2) 或 data1 - cbind(allele1 = c(D,D,D,I,), allele2 = c(D,I,D,I,) g5 - genotype(data1),获取位点的基本信息,多态位点的基本信息包括:位点分 型成功率 (call rate)、等位基因频 率、基因型频率、杂合度和多态信 息含量 (PIC) 一个简单的例子: #载入popn数据 data(popn,package=DGCgenetics) #获取A位点的基本信息 summary(popn

4、$A),Number of samples typed: 1489 (96.9%) Allele Frequency: (2 alleles) Count Proportion 1 1786 0.6 2 1192 0.4 NA 94 NA Genotype Frequency: Count Proportion 1/2 704 0.47 2/2 244 0.16 1/1 541 0.36 NA 47 NA Heterozygosity (Hu) = 0.4802686 Poly. Inf. Content = 0.3648558,Hardy-Weinberg定律,Hardy-Weinberg定

5、律是由英国数学家哈迪(D.H. Hardy)和德国医生温伯格(W. Weinberg)于1908年分别独立发现的,也称遗传平衡定律(genetic equilibrium law) 该定律可以简单描述为,遗传平衡群体的等位基因频率与基因型频率在世代间维持恒定 该定律的适用条件是:随机婚配,群体足够大,没有突变、选择、迁移和遗传漂变,Hardy-Weinberg平衡检验,关联研究中Hardy-Weinberg平衡检验常被用来评价基因分型的质量。我们通常对病例和对照组分别进行Hardy-Weinberg平衡检验 如果某一位点在对照组中不符合Hardy-Weinberg平衡,我们通常会怀疑该位点的基

6、因型鉴定的质量 如果该位点在对照组平衡而在病例组出现不平衡,则该位点可能和疾病有关,Hardy-Weinberg平衡检验,genetics包里面提供两种不同的检验方法 一种是Pearsons chi-square test,可以用HWE.chisq函数进行该检验,另一种是Fisher exact test,对应于HWE.exact函数 HWE.chisq常用于MAF较高、样本量较大的场合;MAF较低的位点建议使用HWE.exact函数,LD的计算,连锁不平衡则是指人群中两个位点处在同一个单体型的频率比期望值高 评价连锁不平衡程度的指标包括D、r2等 genetics包提供计算LD各种指标的函数

7、,并能以文字和图形两种形式显示位点间的连锁不平衡程度,LD的计算,#用LD函数计算位点间的LD ldresult - LD(popn) #用文字显示D值 summary(ldresult, which=D) #用图形显示结果 LDtable(ldresult, which = D) Pairwise LD - B C D A D 0.979 0.976 0.976 B D 0.998 0.991 C D 0.997,关联研究常用分析方法,卡方检验 Logistic回归 线性回归 ,卡方检验, data(popn,package=DGCgenetics) #首先载入popn数据 (geno ch

8、isq.test(geno) Pearsons Chi-squared test data: geno X-squared = 23.7385, df = 2, p-value = 7.003e-06, (alle chisq.test(alle) Pearsons Chi-squared test with Yates continuity correction data: alle X-squared = 23.6881, df = 1, p-value = 1.133e-06,Logistic回归,1. 共显性模型 summary(glm(affected A + sex, family

9、=binomial, data=popn) Call: glm(formula = affected A + sex, family = binomial, data = popn) Deviance Residuals: Min 1Q Median 3Q Max -1.4081 -1.2428 -0.6515 1.1134 1.8190 Coefficients: Estimate Std. Error z value Pr(|z|) (Intercept) -0.6589 0.1354 -4.868 1.13e-06 * A1/2 -0.3752 0.1234 -3.041 0.00236

10、 * A2/2 -0.7832 0.1695 -4.620 3.84e-06 * sexFemale 1.1866 0.1335 8.890 2e-16 *,Logistic回归,2. 加性模型 summary(glm(affected allele.count(A,2) + sex, family=binomial, data=popn) Call: glm(formula = affected allele.count(A, 2) + sex, family = binomial, data = popn) Deviance Residuals: Min 1Q Median 3Q Max

11、-1.410 -1.239 -0.655 1.117 1.814 Coefficients: Estimate Std. Error z value Pr(|z|) (Intercept) -0.65396 0.13054 -5.010 5.45e-07 * allele.count(A, 2) -0.38817 0.08107 -4.788 1.69e-06 * sexFemale 1.18676 0.13349 8.890 2e-16 *,Logistic回归,3. 显性或隐性模型 summary(glm(affected carrier(A,2) + sex, family=binomi

12、al, data=popn) Call: glm(formula = affected carrier(A, 2) + sex, family = binomial, data = popn) Deviance Residuals: Min 1Q Median 3Q Max -1.4078 -1.1979 -0.7465 1.1571 1.6817 Coefficients: Estimate Std. Error z value Pr(|z|) (Intercept) -0.6566 0.1352 -4.857 1.19e-06 * carrier(A, 2)TRUE -0.4788 0.1

13、164 -4.115 3.87e-05 * sexFemale 1.1835 0.1332 8.884 2e-16 *,家系图的绘制,library(kinship) #载入kinship包 p1 - scan(nlines=6,what=list(0,0,0,0,0,0) 1 100 101 102 1 1 1 101 0 0 1 2 1 102 0 0 2 1 1 103 101 102 1 2 1 104 101 102 1 1 1 105 101 102 1 1 ped - as.data.frame(p1) names(ped) - c(famid,id,dadid,monid,sex,aff) par(xpd=TRUE) ped1=pedigree(ped$id, ped$dadid, ped$monid, ped$sex, ped$aff) plot(ped1,symbolsize=1.2),谢谢各位,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号