有限混合正态分布的EM算法

上传人:博****1 文档编号:509276568 上传时间:2022-11-27 格式:DOCX 页数:6 大小:59.66KB
返回 下载 相关 举报
有限混合正态分布的EM算法_第1页
第1页 / 共6页
有限混合正态分布的EM算法_第2页
第2页 / 共6页
有限混合正态分布的EM算法_第3页
第3页 / 共6页
有限混合正态分布的EM算法_第4页
第4页 / 共6页
有限混合正态分布的EM算法_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《有限混合正态分布的EM算法》由会员分享,可在线阅读,更多相关《有限混合正态分布的EM算法(6页珍藏版)》请在金锄头文库上搜索。

1、有限混合正态分布的 EM 算法摘要 本文主要介绍了有限混合正态分布基本内容,并用极大似然估计的 EM 算法对其进行参数估计和分解,最后举了一 个例子并以 Mathematica 程序实现 EM 算法的具体应用。关键字 混合正态分布 极大似然估计 EM 算法 Mathematica一、算法介绍有限混合正态分布自 19 世纪被提出后,人们试图用矩法,图形技术对其进行分解,随着计算机的出 现和发展,对混合正态分布研究转向分布参数的极大似然估计上来,1977 年 Dempster 等提出了 EM 算法 并得以发展。1数量性状表型值的有限混合正态分布 假定数量性状在某分离世代的表型值 X 为一随机变量,

2、其概率密度为f (x)二 a f (x) + a f (x) + + a f (x)(1)1 1 2 2 k k其中a 0,工a = 1, f (x)为混合正态分布中第t个成分分布N(卩Q2)的密度函数,a为其权重,t t t t t tt=1t = 1,2,k,则称X所服从的分布为一有限混合正态分布。设混合分布的密度函数的参数向量为2)=(a ,a,a ,卩,卩,卩k 12k 12k 12k则式(1)的参数形式为:f (x/ )=工a f (x,卩,o2)=迓akt tt ti=1(x -巴)220 2t1et J 2兀0t=1i=1t2.有限混合正态分布参数的极大似然估计(MLE)3)从所

3、研究的数量性状群体中抽取样本为n的简单随机样本,叭,巴,,Xn其样本似然函数为:L()=H f (x / )=HS af(x,卩,o 2)(4)kkt tt ti=1i=1 t=1相应对数似然函数为:l()=InL()=工In(工af(x,卩,o2)(5)kkt tt ti=1t=1./八八八八八八八八八、用极大似然法估计的参数为=(a ,a,,a ,卩,卩,卩,d2,d2,d2),称为极大似然估计(MLE),k 12k 12k 12k它满足 L(帝)=max 或 /(5 ) = max。kk3 .有限混合正态分布参数极大似然估计的EM算法EM算法分E (期望)步和M (极大化)步两个步骤迭代

4、运算。 E 步给定参数向量初值() = (a (0), a(0),a(0),卩(o),卩(o),卩(0), o 2(o), 0 缈),,o 2(o)(6)k12k 12k 12k则在初值条件下样本X ,X,,X中X eN(卩(0),02(。)的后验概率为12nijja(o)f (x ,卩(o), c 2(o) w(o)= j j i j j 可 丈 a(o)f (x ,卩(o), c 2(o) t t i ttt=1这就实现了在初值k -条件下用営把样本分配给k个成分的分离算法。i=1 j =1w( 0 )= n ij显然有为w(o = 1ijj=1对任一组工a = 1,可令jj=1a =1工

5、 w(0) j n ij i=1亦满足工为i =1 j =1w(0) = n , ij其中包括 a (0)j=1工 w(0)niji=1用上述基于w(o)的分离法,可用期望算法得到各成分分布的参数,形式上可表示为 ija (1) =1工 w(0)j n iji=1卩(1)=工 w(0) Xj na(0) ij ij i =1c 2(1)=工 w(0) (X -卩(0) )2j na(0) iji jji =1c 2(1) = 1 工为 w(0) (X -卩(0) )2nij i ji=1 j =1(10)由aj、卩;)和c2构成k只是在已知Ok(0)时的一个估计,并不表明Ok(0)和k是混合分

6、布的极大似然估计。因为W(0)仅是样本在(0)条件下的第一次分离,是第一次分离的期望结果。 ijkk=1工niji=1讐的条件下,什么样的和J才能使伴)最大,这个条件必须在伴)关于和c2 的极大化中寻找。 jd InQl ()=艺j同理可得i=1艺a f (x , y Q2)j j I j j.4=1= QyjQln f (x ,卩 Q2)wj_ijj = 0jQyi 1jQl()p QInf (x ,卩 Q2)k =乙 Wl1/j 二 0Qg 2ijj i=1其中j = 1,2,k, w为X e N(卩(o),g2(o)的后验概率,而ijijj1- 5巴)2Q ln f (x ,卩,g 2)

7、 x卩 Q ln f (x,卩,g 2)1 C 卩f (x, P ,g2)二 e2gj , j j 1 ij,j 1 = + j i j j兀gQpg 2Qg 22g 22g 4/ j j j j ja f (x ,p ,g 2)在W = I匚j j条件下,使l()最大的P和g 2所满足的方程组为 p a f (x ,p ,g2)t t i t=1ttpnx P厶 W 1j = 0npw1 +a p /j=0(11)ij G 2ij2g 22g 4i=1ji=1kjj丿解之得在W条件下的P和ijjG 2: Pjj=丄工wxnaij iG 2 =- 工 W (x P ) j naij i j(1

8、2)j i=1j i=1其中a =丄才w 0j n iji =1一般来讲有m轮EM迭代结果a(m),p (m)和2g 2(m)可得m+1轮EM迭代结果:jjja ( m+1) =1工 w(m) j n ij i=1P (m+1) = W( m) Xm = 0,1,2,jna ( m )ij iji =11nG 2(m+1) =w(m) (X P(m) )2jna(m)ij i jji =1G 2( m+1) = 1工为 w(m)(X P(m)2nij i ji=1 j =1在混合模型参数极大似然估计的EM迭代算法中,似然函数是单调递增的,即l ( (m+1)kk表明EM迭代过程中总能得到一个1

9、 (k)的一个极大值点。一般在给定准确度之下,11 (m+1) 1 (m)1kk时迭代停止,即得到极大似然估计的$ k。4.极大似然估计 EM 算法中成分分布数 k 的确定EM迭代由确定k开始并完成,对对么一个确定的k来讲,EM迭代除了给出所估计的参数$夕卜,还 k给出相应的对数似然函数值1 & )。k1977 年, Akaike根据最大熵原理得出了极大似然函数与熵之间的关系。根据这个关系,有限混合正态分布参数的极大似然估计中,确定k的最佳方案应使AIC准则AIC = -21 ()+ 2N(k)最小。k二、应用举例有下列一组实验数据x=26,27,26,28,29,30,30,28,29,31

10、,31,31,31,31,31,31,31,31,31,32,32,32,32,33,33,33,33,33,33,33,33,33,33,34,34,34,34,35,36,37,38,39,34,35,35,36,36,36,36,36,36,37,37,37,37,37,38,38,38,38,38,38,38,38,38,38,38,38,38,38,38,38,38,38,38,39,39,39,39,39,39,39,39,39,39,39,39,39,39,39,39,39,39,39,39,39,42,47,45,42,47,40,47,47,44,45,45,40,47,44

11、,43,46,40,40,46,44,46,41,42,42,41,43,43,47,43,46,44,43,42,45,40,46,46,42,47,46,43,43,43,43,45,41,47,45,41,47,40,44,45,41,46,46, 42,47,47,42,40,41,样本容量为n=158,资料的折线图如下用混合正态分布分离做分析。模型为f (x)豆 af (X,卩,C2),根据上面介绍的EM迭代算法,用t t tt=1Mathematica实现结果如下k12345N(k)357911AIC值972.71969.409971.409978.711974.879据确定k的A

12、IC值最小原则,k=2,即资料是两个同方差的正态分布的混合。k=2时的分布参数的极 大似然估计下表所示成分(j)ajjc 210.67789641.132313.959920.32210433.346613.9599由此亦可得出混合分布的密度曲线如下所示二 幺士审五三、结束语在许多包括统计数据建模的场合,混合模型的使用已得到广泛认可,针对传统的极大似然估计解决问题的 不足,人们提出了 EM算法,并且这种算法应用越来越受到重视。参考文献【1】谢勤岚 基于EM算法的混合模型的参数估计计算机与数字工程2006年【2】 袁志发 数量遗传学与 QTL 定位 2011 年【 3】 Jim Hoste Mathematica Demystified 2009 年

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号