参数估计问题－金锄头文库

资源描述

《参数估计问题》由会员分享，可在线阅读，更多相关《参数估计问题（65页珍藏版）》请在金锄头文库上搜索。

1、回顾参数估计将类条件概率密度未知类条件概率密度未知转化为较简单的参数未知参数未知参数估计方法最大似然估计贝叶斯估计最大似然估计似然函数似然函数对数似然函数对数似然函数似然方程似然方程对数似然方程对数似然方程回顾高斯情况回顾贝叶斯估计的基本思路高斯情况递归的贝叶斯学习( |)( | ) ( |)pDppD dxx (| ) ( )( |)(| ) ( )p DppDp Dpd1(| )(| )nk kp Dp xCh 04. 参数模型Part 1 隐马尔可夫模型马尔可夫链状态状态 t时刻的状态长度为T的离散时间上的状态序列例如：转移概率转移概率（矩阵）为从状态到

2、的转移概率,1,2,iiij马尔可夫链状态转移图马尔可夫链 j-阶马尔可夫过程阶马尔可夫过程下一时刻为某个状态的概率仅与最近的j个状态有关一阶马尔可夫过程一阶马尔可夫过程任一时刻为某状态的概率仅与上一时刻的状态相关仅与最近的j个状态有关仅与上一个状态有关隐马尔可夫模型隐马尔可夫模型隐马尔可夫模型（Hidden Markov Model，缩写为，缩写为HMM）状态不可见不可见在t时刻，隐藏的状态以一定的概率激发出可见的符号可见的符号，其取值表示为长度为T的离散时间上的可见符号序列例如：观察到可见符号的概率(1), (2), ( )Txxx TX6 511523,v v

3、v v v vX( ( )|( )jkkjbP x tvt1jk kb( )x t123,v v v 隐马尔可夫模型状态转移图一个例子盒子编号不可见每次从任一盒子中取出一个小球隐藏状态隐藏状态：盒子编号可见符号可见符号：小球盒子i中取出各种小球的概率得到某个特定小球序列的概率？离散HMM的符号表示隐藏状态集隐藏状态集可见符号集可见符号集状态序列状态序列观察序列观察序列状态转移概率状态转移概率观察到可见符号的概率观察到可见符号的概率初始状态概率初始状态概率完整的完整的HMM参数向量参数向量HMM三大核心问题估值问题估值问题已知已知观察到特定符号序列X HMM模型参数向量求求

4、似然函数解码问题解码问题已知已知观察到特定符号序列X HMM模型参数向量求最有可能产生X的隐状态序列HMM三大核心问题学习（或参数估计）问题学习（或参数估计）问题已知已知观察到特定符号序列X 求求模型参数向量的估计值例如：ML估计估值问题直接计算直接计算HMM模型产生可见长度为T的符号序列X 的概率其中，表示状态的初始概率假设HMM中有c个隐状态，则计算复杂度为！例如：c=10，T=20，基本运算1021次！(1)()TO c T估值问题解决方案递归计算t时刻的计算仅涉及上一步的结果，以及，和 HMM向前算法向前算法 HMM向后算法向后算法( ) t(1)t( )x

5、t估值问题 HMM向前算法向前算法定义：t时刻在状态时刻在状态i，并且已观察到，并且已观察到x(1)，x(2)， x(t)的概率的概率初始化初始化对每一个隐状态i，计算递归递归for t=2 to T对每一个隐状态j，计算end 最后最后2()()TO c TO c T?计算复杂度计算复杂度( )it估值问题 HMM向前算法向前算法估值问题 HMM向后算法向后算法（向前算法的（向前算法的时间反演时间反演版本）版本）定义：t时刻在状态时刻在状态i，并且已，并且已逆向逆向观察到观察到x(T)，x(T-1)， x(t) 的概率的概率初始化初始化对每一个隐状态i，计算（假设T时刻每个状态的概率

6、相同）递归递归for t=T-1 to 1对每一个隐状态i，计算end 最后最后2()()TO c TO c T?计算复杂度计算复杂度( )( )ix T ibTc( )it( ) 1( )(1)ciijjix t jtatb1(| )(1)cii iP X 例子 HMM为：吸收状态吸收状态，即序列结束时的必然状态。该状态产生唯一的特殊可见符号v0 ，表示HMM过程结束例子已知t=0时状态为，即现观测到的序列为计算HMM产生这个特定观测序列的概率？10101112123130.2,0.3,0.1,0.4aaaa4 1320V ,v v v v例子解HMM用于分类为每一个类别建立

8、最可能的隐状态序列穷举法把所有可能的隐状态序列的概率都计算一遍计算复杂度()TO c T解码问题 Viterbi算法算法初始化初始化对每个隐状态i，计算递归递归for t=2 to T:对每一个隐状态j，计算end 最后最后for t=T-1 to 1（路径回溯）:end2()()TO c TO c T?计算复杂度计算复杂度例子 HMM为例子已知t=0时状态为，即现观测到的序列为计算最可能的隐状态序列？10101112123130.2,0.3,0.1,0.4aaaa4 1320V ,v v v v例子解.00271(2)1练习：练习：把此图填写完整，并回溯最佳状态路径把此图填

9、写完整，并回溯最佳状态路径解码问题对于较长的序列，Viterbi算法可能导致计算机下溢出下溢出改进改进：基于对数的Viterbi算法优点变乘为加避免下溢出结果与Viterbi算法一样解码问题对数对数Viterbi算法算法初始化初始化对每个隐状态i，计算递归递归for t=2 to T:对每一个隐状态j，计算end 最后最后for t=T-1 to 1（路径回溯）:end学习问题从一组训练样本D=x1, x2, xn 中，学习HMM的参数向量不存在根据训练集确定HMM最优参数的算法常用算法向前向后算法向前向后算法（forward-backward algorithm

10、）又称Baum-Welch重估计算法重估计算法（Baum-Welch re-estimation algorithm）核心思想核心思想通过递归方式更新HMM中的参数，以得到能够最好解释训练样本的HMM参数学习问题 Baum-Welch重估计公式重估计公式已知X和的情况下，t时刻为状态i，t+1时刻为状态j的后验概率(1)( )( )(| )iijjkj ijTta bttP x向前向前向后向后1 ( )1( )( )kTjl tl v tv jkTjl tltb t 学习问题向前向后算法向前向后算法初始化 repeat基于和X，利用Baum-Welch重估计公式计算until收

11、敛返回参数估计结果 Part 2 贝叶斯置信网特征相关性某些情况下，关于分布的先验知识并非直接是概率分布的形式，而是有关各个特征分量之间的统计相关性（或独立性）关系x1和x3统计独立，而其他特征对不独立相关性例子汽车的状态发动机温度油温油压轮胎内气压相关性油压与轮胎内气压相互独立独立油温与发动机温度相关相关贝叶斯置信网用图的形式来表示特征之间的因果依赖性贝叶斯置信网（贝叶斯置信网（Bayesian belief net）因果网（因果网（causal network）置信网（置信网（belief net）有向无环图节点间的连线具有方向性方向性图中无循环无循

12、环路径仅讨论离散情况贝叶斯置信网每个节点节点A, B, C,代表一个系统变量（特征）每个节点可能的离散取值 A的值：a1, a2, a3, 例如 A表示灯的状态 a1=开， a2=关，P(a1)=0.7，P(a2)=0.3 节点之间的有向连接连接表示变量之间的依赖关系从A到C的连接表示，或任意节点的状态可通过与其相连的节点的状态推断(|)ijP ca( | )P c a联合概率线性链( , , , )( ) ( | ) ( | ) ( | )P a b c dP a P b a P c b P d c( , , )( | ) ( | )( ) ( | )aP b c dP c

13、 b P d cP a P b a( , )( | )( ) ( | ) ( | )abP c dP d cP a P b a P c b联合概率简单回路( , , , )( ) (| ) (| ) ( |, )P e f g hP e P f e P g e P h f g( , , )( |, )( ) (| ) (| )eP f g hP h f gP e P f e P g e( , )( ) (| ) (| ) ( |, )efP g hP e P f e P g e P h f g任意节点取特定值的概率线性链任意节点取特定值的概率简单回路, , ,( )( , , , )(

14、) (| ) (| ) ( |, )e f ge f gP hP e f g hP e P f e P g e P h f g例子1 鱼分类置信网0.60.20.2 0.20.30.5例子1 求“一条夏天在北大西洋捕获的鱼为光泽暗淡宽度窄的鲈鱼”的概率夏天：北大西洋：光泽暗淡：宽度窄：鲈鱼：3a1b3c2d2x31232312313222(,)() ( ) (|,) (|) (|)0.25 0.6 0.6 0.5 0.4 0.018P a b x c dP a P b P xa b P cx P dx 例子1练习1. 冬天在南大西洋捕获到鲑鱼的概率2. 在南大西洋捕获光亮度高的鲈鱼

15、的概率3. 夏天在北大西洋捕获一条宽的并且光亮度高的鱼的概率给定除目标变量X之外的变量的取值情况，确定其它变量的概率证据，其中表示变量i的取值情况例如，鱼分类置信网已有证据：已知冬季：渔民更喜欢南大西洋：鱼的光泽较亮：由于遮挡，无法测出宽度,ABCDeeeee证据ie注意的位置！注意的位置！ie置信度考虑某个节点X X之前的节点集合称为X的父节点父节点P，X之后的节点集合称为X 的子节点子节点C 例子： X的父节点：A，B X的子节点：C，D 估计X的概率时，需区别对待X的父节点和子节点证据e：除X以外各节点的变量取值情况在给定e的情况下，命题x=(x1, x2,)的置信度（belief）必须进行归一化，使得x所有取值

展开阅读全文