基于混合泊松分布的新生突变识别算法

上传人:小** 文档编号:34130316 上传时间:2018-02-21 格式:DOC 页数:11 大小:178.50KB
返回 下载 相关 举报
基于混合泊松分布的新生突变识别算法_第1页
第1页 / 共11页
基于混合泊松分布的新生突变识别算法_第2页
第2页 / 共11页
基于混合泊松分布的新生突变识别算法_第3页
第3页 / 共11页
基于混合泊松分布的新生突变识别算法_第4页
第4页 / 共11页
基于混合泊松分布的新生突变识别算法_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《基于混合泊松分布的新生突变识别算法》由会员分享,可在线阅读,更多相关《基于混合泊松分布的新生突变识别算法(11页珍藏版)》请在金锄头文库上搜索。

1、基于混合泊松分布的新生突变识别算法 高迎心 温佳威 徐尔 艾冬梅 北京科技大学数理学院信息与计算科学系 河南偃师高级中学 摘 要: 对个体而言, 不经父母遗传而后天获得的突变称为新生突变, 绝大多数癌症都起自新生突变。构建快速精确的变异识别算法将有助于对癌症的研究。然而, 针对前期新生突变识别算法准确率不高, 且耗时多等问题, 本文引入了基于变异位点的先验概率分布模型, 运用基于混合泊松分布的期望最大化 (EM) 算法对新生突变识别算法进行改进与优化, 研究了有亲缘关系的新生突变的识别, 并在识别精度与运算速度方面与已有算法进行对比。结果表明, 基于混合泊松分布的期望最大化算法在提高运算速度的

2、同时降低了假阳性比率, 具有良好的识别效果。关键词: 人类基因组; 新生突变; 混合泊松分布; 遗传疾病; 作者简介:艾冬梅 Tel:010-62332349;E-mail:收稿日期:2017-08-06基金:国家自然科学基金 (No.61370131) 资助Recognition of de Novo Mutations Based on Hybrid Poisson DistributionGAO Ying-Xin WEN Jia-Wei XU Er AI Dong-Mei Department of Information and Computing Science, School of

3、 Mathematics and Physics, University of Science and Technology Beijing; Yanshi Senior High School of Henan Province; Abstract: For the individual, gene mutations that are acquired without parental inheritance are the origins of vast majority of cancers.Application of fast and accurate recognition al

4、gorithms will be a great help to the study of cancer.Aiming at the problem of poor accuracy and time consumption, a prior probability model of mutation sites was introduced.To modify and optimize the recognition algorithm, the Expectation Maximum (EM) algorithm based on mixed Poisson distribution wa

5、s used to identify the de novo mutation involving kinship data and compare with the existing algorithms in recognition accuracy and computing speed.The results show that the EM algorithm based on mixed Poisson distribution can improve the speed of operation and reduce the false positive ratio, which

6、 is of great significance for the recognition of cancer.Keyword: human genome; de novo mutation; hybrid Poisson distribution; genetic disease; Received: 2017-08-06在全基因组水平上, 与人类疾病相关的单核苷酸变异 (single nucleotide variants, SNVs) 、插入缺失 (insertion-deletion, In Del) 和结构变异 (structural variation, SV) 等多种突变信息,

7、已经得到大量的检测1-3。其中, 单核苷酸变异出现频率高并且能较稳定遗传, 是人类可遗传变异中最常见的一种。人体的表现型、疾病的易感性以及抗药性等的差异都可能与其有关4,5。大部分的单核苷酸变异, 不会导致生物体性状发生明显的改变。若某一核苷酸位点的变异频率大于 1%, 则称在该位点发生了突变, 会引起一定的表型变化6,7。未经父母遗传而后天获得的基因突变, 称为新生突变 (de novo mutation) 。新生突变只在后代个体中出现, 通常会对表型产生更大的影响, 并且容易引发许多复杂疾病8-10。研究表明, 大多数罕见疾病都是由新生突变引起11。如果体细胞的某些特定基因发生新生突变,

8、则该体细胞的后代就有更大的可能性发生癌变12,13。因此, 新生突变成为研究癌症等复杂疾病发病机制的有效切入点14-16。目前, 通过检测三体家系 (triofamily) 数据来发现新生突变, 并探索新生突变与复杂疾病之间的关系, 已成为人类基因组学研究中的热点问题。新生突变识别方法有以下几种:GATK17和 Samtools18, 通过比较先验者与三体家系中亲本基因型来推测子代是否有新生突变;更有效的方法比如DNMFilter19, 通过使损失函数在梯度方向上下降, 从而不断优化序列特征分类模型来识别新生突变;mir Trios20, 经预先设定的标准测序质量值和测序深度值等参数过滤, 得

9、到新生突变;Triodenovo21, 引入贝叶斯模型, 克服对预先设定值的过度依赖。但下一代测序数据维度高且噪声大, 这些算法也面临精度不够、耗时过多的问题。为了解决上述问题, 本文结合变异位点的先验概率分布模型, 提出了基于混合泊松分布的期望最大化算法 (expectation maximum algorithm, EM) 。首先利用先验信息对变异位点进行确定, 从而根据变异特征缩小搜索范围, 降低时间消耗。在此基础上, 运用基于混合泊松分布的 EM 算法得到最优迭代过程, 将变异属性带入此过程中, 并通过设定阈值识别新生突变。1 材料与方法1.1 新生突变识别模型的建立遗传变异过程中的新

10、生突变与人类癌症、神经发育系统疾病密切相关。研究这些突变的发生机制、变异位点与突变率将有利于对复杂疾病的探索。如何将遗传因素与环境因素等与变异相关的先验信息融入先验概率统计模型, 评估先验因素对变异发生的影响程度, 很大程度上决定了此变异识别算法的准确度。目前, 影响变异检测的先验因素复杂繁多且具有不确定性, 先前的算法没有考虑这些因素。因此, 本文将利用统计检验的方法, 对先验信息进行选择归类, 以确定最优化的先验信息特征集合。1.2 基因变异先验因素变量的选择与聚类随着大量生物基因数据的不断涌现, 实际应用过程中所涉及到数据的特征维数逐渐增高, 运用特征选择对数据进行降维的算法进一步发展,

11、 使得已选特征包含的类别信息尽可能多, 同时使得特征子集内部的冗余程度尽可能小。遗传或环境因素都会引起单核苷酸变异, 造成表型的差异。化学诱变、温度和湿度等环境因素和基因组成等遗传因素都是造成基因组变异的先验因素。这些先验因素众多繁杂, 因此必须充分利用这些先验信息, 构造先验统计概率推断模型, 按照对变异产生的贡献大小对这些因素进行选择聚类。设 Xi, Yi, (i=1, , n) 为独立的一组值, (X i表示引起基因突变第 i 种因素的观测值, Y i为 2 值变量 0 或 1, 发生了基因突变为 1 否则为 0。指数族分布规范型表示如下:其中 b ( i) 为对数配分函数, 与 Xi的

12、分布有关。当 Xi服从泊松分布时, b ( i) =, i=Zi, Z i= (1, Xi) , = ( 0, 1, , p) , 为权重系数向量, 即先验因素对变异产生的贡献大小, 过小将被视为先验因素影响作用微弱, 需要去除。变量选择标准函数为设 S 为 SNPs 先验信息的有限集, 将 S 作为感兴趣的变量集, 剩余的记为噪声参数集, 为去除噪声干扰, 拟对噪声参数集进行惩罚, 并构建如下噪声惩罚回归 (nuisance penalized regression, NPR) 模型得到 :利用 KKT (Karush-Kuhn-Tucker) 条件和一阶泰勒展开, 对上述模型进行修正, 得

13、到校正变量选择标准函数如下:其中 用来平衡实际数据与先验信息, 是事先臆测的向量。=0:校正变量选择标准函数退化为依据先验信息的假设检验;:校正变量选择标准函数完全依赖事先臆测的信息。得到系数向量估计值 Sp 后, 即完成了变量选择的过程。随后, 按照各个先验因素变量之间的相似度关系进行变量聚类。实际操作中为避免遗漏重要因素, 人们会选用尽量多的相关因素对某一指标进行衡量, 按照变量之间的相关关系, 将他们聚合成为不同的类别, 经常采用相似性来衡量变量之间的亲疏关系, 使得同一类中的数据具有相同或相似的主要特征。本文选用的变量相似系数计算如下:设变量 ui和 uj的取值分别为 x1, x2,

14、, xp和 y1, y2, , yq。n pq表示 ui取xp和 uj取 yq的样本数。则相关系数表示为: 式中越接近 1, 表示两变量相关程度越高, 将相关程度高的变量聚为一类。以此来减少变量类数, 提高运算速度。1.3 基于混合泊松分布的 EM 算法模型由于泊松分布是描述单位时间内随机事件出现的次数, 符合基因组变异随机发生的情境, 该方法实现了由静态模拟向动态模拟的转变, 抽样分布随着模拟进程而随时调整改变, 有利于提升基因型估计的准确性。在测序、比对和变异检测中, 会产生较多误差。而仅仅通过测序深度、基因型和质量值等基本参数, 不足以降低假阳性比率。因此, 将 EM 算法应用到变异属性

15、筛选的过程中, 通过简单的迭代算法来计算密度函数, 转化为参数估计问题。为进一步减少数据文件中的假阳性变异, 采用基于泊松分布的最大期望算法确定最优迭代过程, 将上一步筛选的参数带入最优迭代过程, 通过设定阈值, 识别出新生突变及罕见序列变异。假设随机变量 xj=x1, x2xn是来自由 m 个泊松分布总体 G1, G2Gm且分别以 1, 2 m为权重混合而成的分布 G。其和为 1, 则 m 阶混合泊松分布的概率密度函数 f (x) 就可以表示为:其中, 为相应总体 Gi的密度函数, i为未知参数, 整个总体参数 由 i和 i组成, 令 = ( 1, 2 m-1, 1, 2 m。在 EM 框架

16、下, 每个 xj被认为来自混合模型 (式 (6) ) 的 m 个分量中的 1 个。用 z=z1, z2zn表示不可观测的分量的指示向量。其中用 xj表示观测数据向量, z 表示缺失数据向量, x= (x j, z) 表示完整数据向量。在有限混合泊松分布模型中, 基于参数 的完整数据对数似然函数为:在 EM 算法的第 k+1 次迭代中, E-step 计算函数由式 (8) 和 (10) 可以得到M-step 中参数估计的更新公式为:如此循环执行 E-step 与 M-step, 直到 L () 与 L () 的差值小于给定的阈值时停止迭代。如此得到利用 32 个子代患有自闭症谱系障碍 (autism spectrum disorder, ASD) 三体家系数据生成 EM 算法中, 与每一个新生突变相关属性的初始值,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号