2731.肾上腺素受体基因单倍型的确定及分布估计

上传人:cn****1 文档编号:460772225 上传时间:2022-11-17 格式:DOC 页数:18 大小:287KB
返回 下载 相关 举报
2731.肾上腺素受体基因单倍型的确定及分布估计_第1页
第1页 / 共18页
2731.肾上腺素受体基因单倍型的确定及分布估计_第2页
第2页 / 共18页
2731.肾上腺素受体基因单倍型的确定及分布估计_第3页
第3页 / 共18页
2731.肾上腺素受体基因单倍型的确定及分布估计_第4页
第4页 / 共18页
2731.肾上腺素受体基因单倍型的确定及分布估计_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《2731.肾上腺素受体基因单倍型的确定及分布估计》由会员分享,可在线阅读,更多相关《2731.肾上腺素受体基因单倍型的确定及分布估计(18页珍藏版)》请在金锄头文库上搜索。

1、肾上腺素受体基因单倍型的确定及分布估计 摘要:对哮喘病进行case-conctrol study的第一步就是要确定个体的单倍型。Reihsaus假设异常的2AR基因与哮喘的生理研究密切有关。2AR基因在染色体5q3132上。2AR基因的编码区中没有内含子。人类的2AR基因上有多个单核苷酸多态性位点(single-nucleotide polymorphisms ,SNPs),单个的SNP信息没有任何预兆性的价值,而一条染色体上的多个SNP位点经组合后得到的单倍型(haplotype)信息却不清楚。利用SNP信息确定个体单倍型一般有三种算法:Clark算法,EM算法和Phase算法。经分析13个

2、SNP位点的213种(8192)理论组合,我确定了12种单倍型,并估计了其分布情况。关键词:肾上腺素受体. 单倍型. SNP.算法Haplotype reconstruction and its distribution of 2-adrenergic receptor geneAbstract: The first step for proceeding the research on asthma disease “case-control study” is to identify the haolotype. Abnormality of the 2-adrenergic recept

3、or gene (2AR) has been hypothesized to be involved in the physiology of asthma (Reihsaus et al.1993). The receptor is encolded by an gene on chromosome 5q31-32. The gene encoding 2- adrenergic receptor (2AR) is devoid of introns within its coding region The human 2-adrenergic receptor gene has multi

4、ple single-nucleotide polymorphisms (SNPs),but single SNP informations hasnt any predictive value,and the relevance of chromosomally phased SNPs (haplotypes) is not known. Three popular algorithms, Clarks parsimony algorithm, EM algorithm and Phase algorithm, are used to obtain haplotype from SNP in

5、formation. Thirteen SNPs were found organized into 12 haplotypes out of the theoretically possible 8192 combinations. Key word: 2- adrenergic receptor, haplotype, SNP, algoritm. 一.前言:单倍型(haplotype)是指一条染色体上单核苷酸多态(SNP)位点排列出的序列。在DNA序列上,不同个体在大多数位点是相同的,但在这些SNP位点可能表现出差异,这样的差异在人类基因组中平均每250-350bp出现一次。可以认为一个

6、单倍型就是一条链上包含几个相邻的SNP位点的DNA序列。N个SNP位点 ,理论上就会有2n种可能单倍型。然而,SNP 在不同染色体上的分布并不是独立的,相邻位点之间存在一定程度的连锁关系,这样就会出现单倍型频率的差异。确定了个体的单倍型,就可以分析不同个体的遗传差异,再通过将个体的单倍型和该个体出现某种疾病的概率关联,就可以更好的理解这些复杂疾病的遗传背景。目前利用单倍型寻找疾病基因的方法已经成功地用于Cystic fibrosis, Huntington舞蹈症, Crohn disease等疾病(Lazzeroni 2001)。普通的基因检测方法只能给出各位点的基因型,而不能提供个体的单倍型

7、信息。我们可以通过对群体中的随即抽样进行全面的基因检测,确定其两条染色体的序列,这样我们就可以获得每个个体的单倍型,再通过统计分析便可估计群体的单倍型,但是这种方法的检测费用很高,而且该技术目前尚未普及。目前最流行的方法是用统计学方法代替实验室检测,利用统计学原理,对抽样的基因型信息进行分析,以确定个体单倍型及估计群体的单倍型频率。分析方法基本上有三种:1. Clark算法。(Clark A.G .1990)2. EM(Expectation-Maximization)算法。(Excoffer L. Slatkin M.1995)3. Phase算法。(Stephens.M.et al 200

8、1)从原理上分析及实验结果检验都表明Phase算法是目前最好的方法。也有人认为改进后的Phase算法是最优的方法(Shin Lin et al. 2002)2AR是G蛋白偶联的受体,它中介的是生物组织对儿茶酚胺的反应。编码2AR的基因位于人类的5q31-32染色体区域中。2AR有七个跨膜结构域,羧基末端及氨基末端分别位于膜内外两侧。Reihsaus et al.(1993)发现了该基因中非同义的SNP位点(序列中的46,79和491位,见Table 1 and GenBank accessions nos.AF022953, AF022954, AF022956)。Martinez et al

9、.(1997)用实验证明个体2AR的SNP信息的不同会导致支气管扩张肌不同的收缩反应。Drysdale et al.(2000)认为这些位点与哮喘(asthma)这种疾病有密切联系。然而单个的SNP信息没有任何预兆性的价值。这里以四个种族组成的确定群体(23个Caucasians高加索人,19个African-Americans非洲的美洲人后裔,20个Asians亚洲人及15个Hispanic-Latinos西班牙的拉丁后裔)为研究对象,分析2AR 基因从5端非转录区域(5UTR)到编码区的大约1.6kb的连续区域,确定了13个SNP位点,确定了12种单倍型及分布情况。二.原理和方法: (1)

10、Clark 算法Clark AG 在1990年提出的Clark 算法是将样本中可能出现的单倍型数量降低到最少的方法。对于某一个具体的个体,可以能这样解释:假设要分析7个SNP(单核苷酸多态性)位点,如果该个体在这7个位点都是纯合的,如ATGGTAC,那么两条染色体在这7个位点相同, 这样就可以认为ATGGTAC是一个确定的单倍型。如果个体的基因型是ATGC/GTAC,该个体是单杂合的,同样也可以确定其单倍型,ATGGTAC/ATGCTAC,各代表一条染色体的单倍型。当杂合位点多于一个时,该个体的两条染色体序列就无法确定,即单倍型无法确定,而且杂合位点越多,可能出现的单倍型数目就越多。可用下面的

11、式子表示可能出现的单倍型个数(k表示杂合位点数). N=2k可是这些可能的单倍型只有两个真正代表该个体的单倍型。Clark算法就是县列出具有纯合和单杂合位点的个体的单倍型,然后用这些已经确定的单倍型去确定其他多杂合位点的个体的单倍型。假定有一个2 杂合位点的个体基因型是ATG/CGT/CAC,那么就有两对可能的单倍型:ATGGTAC/ATCGCAC,ATGGCAC/ATCGTAC。用已知的单倍型去比较,如果这四种可能的单倍型中有一个和已知单倍型是相同的,依照Clark算法就可以把这单倍型和它相对应的另一个单倍型作为一对确定的单倍型。Clark算法的基本步骤:STEP1.找出所抽样本中所有的纯合

12、和单杂合中所有的纯合和单杂合的个体,把这次个体的单倍型作为已经确定的单倍型;STEP2.用这些单倍型去比较那些未被确定的单倍型,如果有一种单倍型与已知单倍型相同,则可以认为与它相对的一条单倍型也被确定;STEP3.循环第二步,直到再找不到能够被确定的单倍型。从方法的原理步骤笔者总结出改方法本身的一些缺陷:1.假如抽样中找不到纯合和单杂合的个体,那么程序就无法开始;2.可能会有一些个体的单倍型不能被确定;3.有些个体的单倍型会出现多种情况,虽然频率不等,但很难再精确;4.假定在原理中提到的两杂合位点的真正单倍型是ATGGCAC/ATCGTAC,而通过Clark确定的单倍型恰恰相反是ATGGTAC

13、/ATCGCAC,这样继续用clark方法会造成一个级联放大的错误;5.Clark算法的救国会随抽样顺序的改变而改变。另外,从混合群体中抽样,样本可能会出现较多的低频率单倍型,这显然不利于Clark方法的分析,所以笔者主张用clark方法对不同的群体分别进行分析。(2)EM(Expectation-Maximization)算法 Excoffier 等在1995年提出的EM算法旨在找出一组能够最大可能符合样本基因型的单倍型频率。具体用来实现这一方法的思路不只一种,笔者用以下这种随机抽样的方法来举例说明该方法的原理。EM算法要求对象要遵守HardyWeinberg平衡,所以在用它分析样本前,首先

14、要检验样本的各位点基因型分布是否遵守HardyWeinberg平衡,剔除那些不遵守该平衡的位点信息,然后再进行分析。所谓HardyWeinberg平衡,简单地说,对一对等位基因而言,假设A地基因频率位p,a地基因频率位q,则这三种三种基因型的频率分别为:AAAaaaq22pqq2在没有其它因素的影响下,只要在这三种不同基因型个体间充分随机交配,则次代各基因频率及基因型频率保持不变。对每个位点的样本基因型进行卡方检验,剔除不遵守HardyWeinberg平衡的位点信息。然后按照以下步骤对样本进行分析,确定其单倍型及群体单倍型频率。EM算法的步骤:STEP1.Ai表示i位点上的基因数目,则L个位点

15、就可能有 个单倍型。Pi表示第i个单倍型频率。Pi0.其中i=1,2,3U , 。假设每个个体所有可能出现的单倍型频率相等,根据个体的基因型求出Pi,i1,2,3U。如下表:STEP2.将STEP1.中求出的Pi作为初始假设的群体单倍型频率,然后每次从样本中抽出M个不同的个体,抽N次,则每次所抽个体组成的小群体就会有2M个单倍型。再从群体中可能出现的U个单倍型中抽2M个单倍型(有放回抽样),抽足够多次(根据样本的多少及位点的多少来决定,不影响结果)。这样可以肯定,至少有一次所抽到的单倍型组合会符合我们某次抽取的M个个体的基因型。设Cjm为第m个符合第j组个体基因型的单倍型组合,1,2,3Qj,Qj表示符合第j组个体基因型的单倍型组合的个数。例如:一次抽两个个体,只抽四次,则M2, N4。结果如下表: 当然,这个简单的例子有巧合的可能,但当M较小(14),N足够大时,这种符合就是一种必然。上例中Q12, Cjm(GAC,ACT,AAT,GCT)OR (AAT,ACT,GAT,GCT).STEP3. 计算Cjm的先验概率为:其中,Rjm表示Cjm的第i个单倍型出现的次数。Tjm表示Cjm中出现不同单倍型的个数。那么有抽样符合样本基因型的概率为:STEP4.计算Cjm的后验概率:被抽中的样本中第i个单倍型的个数为:

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号