全基因组重测序数据分析

上传人:博****1 文档编号:506999247 上传时间:2022-12-17 格式:DOCX 页数:16 大小:1.34MB
返回 下载 相关 举报
全基因组重测序数据分析_第1页
第1页 / 共16页
全基因组重测序数据分析_第2页
第2页 / 共16页
全基因组重测序数据分析_第3页
第3页 / 共16页
全基因组重测序数据分析_第4页
第4页 / 共16页
全基因组重测序数据分析_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《全基因组重测序数据分析》由会员分享,可在线阅读,更多相关《全基因组重测序数据分析(16页珍藏版)》请在金锄头文库上搜索。

1、全基因组重测序数据分析1.简介(Introduction)通过高通量测序识别发现denovo的somatic和germline突变,构造变异-SNV,包括重排突变deletioin,duplication以及copynumbervariation以及SNP的座位;针对重排突变和SNP的功能性进展综合分析;我们将分析基因功能包括miRNA,重组率Rebination情况,杂合性缺失LOH以及进化选择与mutation之间的关系;以及这些关系将怎样使得在diseascancergenome中的mutation产生对应的易感机制和功能。我们将在基因组学以及比拟基因组学,群体遗传学综合层面上深入探索疾

2、病基因组和癌症基因组。VaHatiobSingle nurtDlfc r2 bp to 1 kb InwrliHi SXFi- eiSNFi* U iit:nirndJta burttm IkMv SNP* Cfy AviB#r 申 m hkh (CWJ Im rnafiBih in uIm m teei m e6v3*:ta餐Mkroscpk tod MbdiFws&whial1 l B l4-ii-tOi H Cfe.rwwrfieaBl d iW4bi - btw* HirrlChHiHfrfeMtlJ ErUktMitMl* Cl-IMiMMlil tbMfKibr* Hriirani

3、flr|hlmmt* FrsfJcillTtChromoioratl g getianiip* IimchwiMMul nM-taatiaM1- Vtof d iwfc M*tkrf 心丽wh* A*1l*id*出,MoleculargenHtcdetedloaCytoenHicdetection实验设计与样本1Case-Control对照组设计;2家庭成员组设计:父母-子女组4人、3人组或多人;初级数据分析1. 数据量产出:总碱基数量、TotalMappingReads、UniquelyMappingReads统计,测序深度分析。2. 一致性序列组装:与参考基因组序列Referencegen

4、omesequence的比对分析,利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型,并组装出该个体基因组的一致序列。3. SNP检测及在基因组中的分布:提取全基因组中所有多态性位点,结合质量值、测序深度、重复性等因素作进一步的过滤筛选,最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进展注释。4. InDel检测及在基因组的分布:在进展mapping的过程中,进展容gap的比对并检测可信的shortInDel。在检测过程中,gap的长度为15个碱基。对于每个InDel的检测,至少需要3个Paired-End序列的支持。5. StructureVariation检测及在基

5、因组中的分布:能够检测到的构造变异类型主要有:插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果,检测全基因组水平的构造变异并对检测到的变异进展注释。高级数据分析contig,以及1 .测序短序列匹配ReadMapping1屏敝掉Y染色体上假体染色体区域region,将Read与参考序列NCBI36进展匹配包括所有染色体,未定位的线粒体序列mtDNA将用校正的剑桥参考序列做替代)。采用标准序列匹配处理对原始序列文件进展基因组匹配,将Read与参考基因组进展初始匹配;给出匹配的平均质量得分分布;2碱基质量得分的校准。我们采用碱基质量校准算法对每个Read中每个碱基的质量

6、进展评分,并校准一些显著性误差,包括来自测序循环和双核甘酸构造导致的误差。3测序误差率估计。pseudoautosomalcontigsshortrepeatregions包括segmentalduplication,simplerepeatsequence-!过tandemrepeat识另1J算法识另1J?各被过滤;2 .SNPCalling计算SNPCalling我们可以采用整合多种SNP探测算法的结果,综合地,更准确地识别出SNP。通过对多种算法各自识别的SNP进展一致性分析,保存具有高度一致性的SNP作为最终SNP结果。这些具有高度一致性的SNP同时具有非常高的可信度。在分析中使用到的

7、SNP识别算法包括基于贝叶斯和基因型似然值计算的方法,以及使用连锁不平衡LD或推断技术用于优化SNP识别检出的准确性。统计SNV的等位基因频率在全基因组上的分布稀有等位基因数目在不同类别的SNV中的比率分布a;SNV的类别主要考虑:1无义nonsense,2化学构造中非同义,3所有非同义,4保守的非同义,5非编码,6同义,等类型SNV;另外,针对保守性的讨论,我们将分析非编码区域SNV的保守型情况及其分布图a,b3 .短插入/缺失探测ShortInsertion/DeletionIndelCall(1) .计算全基因组的indel变异和基因型检出值的过程计算过程主要包含3步:1潜在的indel

8、的探测;2通过局部重匹配计算基因型的似然值;3基于LD连锁不平衡的基因型推断和检出识别。Indel在X,Y染色体上没有检出值得出。(2) .Indel过滤处理4 .融合基因的发现FusiongeneDiscovery选择注释的基因信息来自于当前最新版本的EnsembleGene数据库,RefSeq数据库和VegaGene数据库。下面图例给出的是融合基因的形成,即来自不同染色体的各自外显子经过重组形成融合基因的模式图。1 5Piw 或凋 芸钝/ Genwniic bulMr/*-t- Baas 4,2o/*旧闻,Chf2Slrajxl).CAACAGTGASTAT.CACXASgK1kb的拷贝数

9、变异copynumbervariation,V以及非平衡倒位unbalanceinversion事件构成。目前主要一些基因组研究探测识别的SV大约有20,000个DGV数据库。在某些区域上,甚至SV形成的速率要大于SNP的速率,并与疾病临床表型具有很大关联。我们不仅可以通过测序方式识别公共的SV,也可以识别全新的SV。全新的SV的生成一般在germline和突变机制方面都具有所报道。然而,当前对SV的准确解析需要更好的算法实现。同时,我们也需要对SV的形成机制要有更重要的认知,尤其是SV否起始于祖先基因组座位的插入或缺失,而不简单的根据等位基因频率或那么与参考基因组序列比对判断。SV的功能性也

10、结合群体遗传学和进化生物学结合起来,我们综合的考察SV的形成机制类别。SV形成机制分析,包括以下几种可能存在的主要机制的识别发现:A同源性介导的直系同源序列区段重组NAHR;B与DNA双链断裂修复或复制叉停顿修复相关的非同源重组NHR;C通过扩展和压缩机制形成可变数量的串联重复序列VNTR;D转座元件插入一般主要是长/短间隔序列元件LINE/SINE或者伴随TEI相关事件的两者的组合。构造变异探测和扩增子Amplicon的探测与识别分析:如下列图所示6 .测序深度分析测序深度分析就是指根据基因组框覆盖度深度与期望覆盖度深度进展关联,并识别出SV。我们也将采用不同算法识别原始测序数据中的缺失片段

11、deletion和重复片段duplication。7 .SV探测识别结果的整合与FDR推断(可选步骤)(1) .PCR或者芯片方式验证SV(2) .计算FDR-错误发现率配合验证试验由客户指定筛选SV检出结果用于SV的合并和后续分析:我们通过不同方式探测识别SV的目的极大程度的检出SV,并且降低其FDR=10%。通过下属筛选方法决定后续分析所使用到的SV集合。每种SV探测识别算法得到的SV的FDR要求小于10%,并将各自符合条件的SV合并;对于FDR大于10%的算法计算识别的SV结果,如果有PCR和芯片平台验证数据,同样可以纳入后续SV分析中。最后,针对不同算法得到的SV,整合处理根据brea

12、kpoint断点左右重合覆盖度的置信区间来评定;(8) 异属性分析neutralcoalescent分析测序数据可以探测到低频率的变异体MAF=5%。根据来自群体遗传学理论neutralcoalescent理论的期望值可以计算低频度变异的分布。我们用不同等位基因频率下每Mb变异数目与neutralcoalescent选择下的期望值比值,即每Mb基因组windows的theta观测值,来刻画和反映自然纯化选择与种群cancercell-line可以特定的认为是可以区分的种群增长速率。该分布分别考察SNP蓝色线,Indel红色线,具有基因型的大片段缺失黑色线,以及外显子区域上的SNP绿色线在不同等

13、位基因频率区间上的theta情况参见下列图。一处Es后 M之器qo(2) .全新变异体(novelvariant)的等位基因频率和数量分布分析对象包括全新预测的SNP,indel,largedeletion,以及外显子SNP在每个等位基因频率类别下的数目比率fraction参见下列图;全新预测是指预测分析结果与dbSNP当前版本129以及deletion数据库dbVai2010年6月份版本和已经发表的有关indels研究的基因组数据经过比拟后识别确定的全新的SNP,indel以及deletion。dbSNP包含SNP和indels;dbVAR包含有deletion,duplication,以及

14、mobileelementinsertionodbRIP以及其他基因组学研究JCVentrer以及Watson基因组,炎黄方案亚洲人基因组结果提供的shortindels和largedeletion。C5AOU UO 一OE8ci6 40,60.0LC SNPs0,00.20.40.60.8、J1JJIt|(3) .变异体的大小分布以及新颖性分布计算SNP,Deletion,以及Insertion大小分布;计算SNP,Deletion,以及Insertion中属于全新预测结果的数目占已有各自参考数据库数目的比例相对于dbSNP数据库;dbSNP包含SNP和indels;dbVAR包含有deletion,duplication,以及mobileelementinsertionodbRIP以及其他基因组学研究JCVentrer以及Watson基因组,炎黄方案亚洲人基因组结果提供的shortindels和largedeletion其中,可以给出LINE,Alu的特征位置。-O9S7 3210而cw学一o宜lun=号号Dfletitsns &NP& InseftionaLag in停工则RAOU20 WE gEEMAbUOE 口 do亡 99 7 6543210 _. BnI 1 ,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 营销创新

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号