R语言的遗传模块

上传人:壹****1 文档编号:511968404 上传时间:2023-06-25 格式:DOCX 页数:12 大小:23.08KB
返回 下载 相关 举报
R语言的遗传模块_第1页
第1页 / 共12页
R语言的遗传模块_第2页
第2页 / 共12页
R语言的遗传模块_第3页
第3页 / 共12页
R语言的遗传模块_第4页
第4页 / 共12页
R语言的遗传模块_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《R语言的遗传模块》由会员分享,可在线阅读,更多相关《R语言的遗传模块(12页珍藏版)》请在金锄头文库上搜索。

1、我接触的时间算是不短了,已经两年多了。期间断断续续的看了些R网站上的材料。目前已经习惯了用R做数据分析了,并且越来越喜欢用R来做分析了。之前我用过SAS,PS也试过tata,但是这三个软件都没有专门的遗传记录模块(至少国内流行的盗版里没有)。因此和其他专业相比,我想对我们也许更有用些。COS论坛里提到R在genti statistic里的应用的帖子很少。我在这里写某些我平时用到的遗传记录方面的pakage的阐明,一来算是个人小结再者算是抛砖引玉吧,但愿COS论坛里的各位多写些有关的东西。Introducn CR Task Viw: Sttistica enetcsCRAN TakVie当中有一

2、种单独的etics部分,里面列出了40个遗传记录有关的Pacge和有关链接。这足可以看出R在遗传记录学当中的影响和作用。里面核心的oreakage有如下三个: neics, gap,和haplstats。尚有一种我常常用到的包是DGCgenetics,算是对eneics包的扩展。后来我会提到以上几种包里面的某些函数。大体涉及如下几方面的内容:1. 以上几种acage对数据格式的规定;2多态位点的基本信息(等);3. Hady-Webeg平衡检查;LD的计算;. 关联研究常用检查措施;6. ower的计算;先说一下前面提到的几种包的安装吧,其实很简朴。一种一种用instlpackges()函数来

3、安装固然可以。相对简朴点的措施是用CAN ask ew里提到的c包来批量安装。instal.acags(ct) #一方面安装cv pckagelibrry(cv) #载入ct pakageinstlviws(Genetics,corely TRUE) #安装genets, gp, haostats三个核心包及依赖的包。如果不加oe.oly=RE则会安装所有的4个遗传记录有关的ackage。instll.packag (geneics,corenly = RUE)DGCgeeics包的下载地址是。你需要先下载这个包,然后本地安装。措施人们应当都懂得,Rgui的ackages菜单的Insal ac

4、kag() m local zifles。数据格式(1)遗传研究收集的数据有自己的特点。往往是数据集中即涉及一般的表型数据(分类和持续变量;如血压水平,BMI和性别等),又涉及基因型数据。分析时往往还需要用到不同的遗传模型,什么显性、隐形、加性模型,或者是按照分类变量来解决(有时候也称为共显性模型)。用SAS或SPSS分析遗传数据时,如果要用不同的遗传模型进行数据分析的话,必须先进行数据转换,过程相对复杂。R中的enetcs包专门为基因型数据提供了一种新的clss(类),你可以很以便的用genype()或maeotpe()函数将不同形式的初始基因型数据转换成基因型数据,并为数据加上enop类属

5、性。enetcs包还提供了相应的summay.gnope()和lt.genotype()函数。你可以很以便的用mary()函数获取基因型数据的基因型频率、等位基因频率等基本信息,用plo()函数做出基因型的柱状图。先说一下gnotype()函数,该函数是gentic包里最基本的函数。可以将如下四种形式的初始基因型数据转换成便于分析的带有geop ls的数据。1. 以一种字符分隔的向量E.g.1 gentyp(c(D/D,D/I,/,/,D/,NA)g2 - gnotyp(c(C,C-T,-C,T,-,),sep=-)可以按某一位置分隔的向量Eg.g3- enotype(c(DD,DI,D,II

6、,),sp=)#se1表达在位置1后提成两个allel. 两个分开的向量Eg.allee1 - (,D,D,)alll2 - c(D,I,,I,) - gnotp(allee1, llele)4.数据框或矩阵中的两列data daa.frae(allele1=c(D,,D,,), allel= c(D,I,D,,))5 -genoe(data$allle1,dallle)orata1-cbind(allele1 = (D,D,D,I,), allele= (D,I,,I,))g6 geyp(dat1)实际的数据分析过程中建议将每一种SNP位点的基因型数据按照 等位基因/等位基因(e.g. A/

7、A,A/T, ) 的格式给出,而不要简朴的用数字表达。这样有两个好处,一是可以很以便的用makeGenoype()函数一次性地将多种位点的原始基因型数据转换成带有gete 类属性的基因型数据,二是便于数据分析过程中理解具体是哪一种等位基因和疾病或性状有关。如果用数字的话,位点数目一多,也许就完全糊涂了。举个实例演示一下:libay(gentis)#用sa()函数读入1个人的数据g- scan(nlin = 16, wa=list(0,0,0,0,)145 31.5/ /C23 2 24.5 T/TC/6 1 A/ /C41 2 26 /T CC5 3719. /A/C6 3 2 1 ATG/G

8、71 1.5 /A C/G8 3 2 75 /A GG 44 2 24 AA C/C0 1 9. A/T C1 402 2 /A C/G132 2.5 T/ /G13 2 32.5 AA CC4 33 25.5 A/TC5 43 1 30.5AT G/G6 352 25 A /C as.data.fa(g)names(g1) - c(ID, e, gnder, bm,snp, sn)g1$gender - fator(g$gedr, belsc(ale,Femal)#用keenotys()函数将1中的两列基因型数据附上gentype类属性g2- akeGenotypes(g1)#大功告成,可以

9、用s()和summry()看看1和g的区别st(1); tr(g)summary(); sumay(g2)获取多态位点的基本信息我用DGCgenetcs包里面的po数据为例子,简介一下获取多态位点基本信息的函数。dta(pop,paka=DCgtics) #一方面载入opn数据head(popn) #该数据涉及四个多态位点(A, , , and D)、性别(sx)、疾病状态(fet)及ID号(subjet)。umary(po$) #获取位点的基本信息,涉及该位点分型成功率(ca ae)、等位基因频率、基因型频率、杂合度和多态信息含量(PI)Numbr amples y: 489 (96.9%)

10、 call raAlle Frequency: ( aleles) 等位基因频率Cout ortin178 .62 1192 0. 94 NAGntypeFrequeny: #基因型频率 Con Propion2 704 47/2 244 0.161/1 41 036NA 47 NAetrzgosity (Hu).4868#杂合度Poly. In.ontet 0.368558#PICHd-Wenbeg平衡检查一方面简朴简介一下Hrdy-Wnbe定律。该定律是由英国数学家哈迪(D.HHrd)和德国医生温伯格(W.Weiberg)于1分别独立发现的,也称遗传平衡定律(geeic uilumlaw)

11、。该定律可以简朴描述为,遗传平衡群体的等位基因频率与基因型频率在世代间维持恒定。该定律的合用条件是:随机婚配,群体足够大,没有突变、选择、迁移和遗传漂变。在关联研究中Hardy-Winer平衡检查常被用来评价基因分型的质量。我们一般对病例和对照组分别进行Hary-Weiberg平衡检查。如果某一位点在对照组中不符合areinberg平衡,我们一般会怀疑该位点的基因型鉴定的质量。如果该位点在对照组平衡而在病例组浮现不平衡,则该位点很也许和疾病有关。eetc包里面提供两种不同的检查措施:一种是ersons chi-squae tt,可以用HE.ch()函数进行该检查,另一种是Fsherexact

12、tes,相应于WEexact()函数。HW.chisq()常用于AF较高、样本量较大的场合。MA较低的位点建议使用HWE.exact()函数。librry(genetics)data(pon, packag=GCgenetic)otrol ponaffeted = Conrolcas - po$affced CseHWE.chsq(ponAcontrol)HExct(popAcontol)HE.hq(popn$Acae)HWE.ac(pon$Acase)L 的计算连锁不平衡是指人群中两个位点处在同一种单体型的频率比盼望值高。评价连锁不平衡限度的指标涉及D、r等。entics 包提供计算LD 多种指标的函数,并能以文字和图形两种形式显示位点间的连锁不平衡限度。ata(pop,packae=GCgenetics) 一方面载入op数据lresl-LD(popn) #用L函数计算位点间的LDsumma(sult, hih) #用文字显示值Dable(ldreult, wic = D)#用图形显示成果成果如下:Pirise ta=5%trt/tB/dtdC/tdtD/td/trrtd Dtdt78tdd0.96dtd0.976tdtrtdB Dtdd

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号