隐马尔科夫模型HMM－金锄头文库

资源描述

《隐马尔科夫模型HMM》由会员分享，可在线阅读，更多相关《隐马尔科夫模型HMM（11页珍藏版）》请在金锄头文库上搜索。

1、隐马尔科夫模型隐马尔科夫模型 HMM我们通常都习惯寻找一个事物在一段时间里的变化规律。在很多领域我们都希望找到这个规律，比如计算机中的指令顺序，句子中的词顺序和语音中的词顺序等等。一个最适用的例子就是天气的预测。首先，本文会介绍声称概率模式的系统，用来预测天气的变化然后，我们会分析这样一个系统，我们希望预测的状态是隐藏在表象之后的，并不是我们观察到的现象。比如，我们会根据观察到的植物海藻的表象来预测天气的状态变化。最后，我们会利用已经建立的模型解决一些实际的问题，比如根据一些列海藻的观察记录，分析出这几天的天气状态。 Generating Patterns 有两种生成模式：确定性

2、的和非确定性的。确定性的生成模式：就好比日常生活中的红绿灯，我们知道每个灯的变化规律是固定的。我们可以轻松的根据当前的灯的状态，判断出下一状态。非确定性的生成模式：比如说天气晴、多云、和雨。与红绿灯不同，我们不能确定下一时刻的天气状态，但是我们希望能够生成一个模式来得出天气的变化规律。我们可以简单的假设当前的天气只与以前的天气情况有关，这被称为马尔科夫假设。虽然这是一个大概的估计，会丢失一些信息。但是这个方法非常适于分析。马尔科夫过程就是当前的状态只与前 n 个状态有关。这被称作 n 阶马尔科夫模型。最简单的模型就当 n=1 时的一阶模型。就当前的状态只与前一状态有关。（这里要

3、注意它和确定性生成模式的区别，这里我们得到的是一个概率模型）。下图是所有可能的天气转变情况：对于有 M 个状态的一阶马尔科夫模型，共有 M*M 个状态转移。每一个状态转移都有其一定的概率，我们叫做转移概率，所有的转移概率可以用一个矩阵表示。在整个建模的过程中，我们假设这个转移矩阵是不变的。该矩阵的意义是：如果昨天是晴，那么今天是晴的概率为 0.5，多云的概率是 0.25，雨的概率是 0.25。注意每一行和每一列的概率之和为 1。另外，在一个系统开始的时候，我们需要知道一个初始概率，称为向量。到现在，我们定义了一个一阶马尔科夫模型，包括如下概念：状态：晴、多云、雨状态转移概率

4、初始概率马尔科夫模型也需要改进！崔晓源翻译当一个隐士不能通过直接观察天气状态来预测天气时，但他有一些水藻。民间的传说告诉我们水藻的状态与天气有一定的概率关系。也就是说，水藻的状态与天气时紧密相关的。此时，我们就有两组状态：观察状态（水藻的状态）和隐含状态（天气状态）。因此，我们希望得到一个算法可以为隐士通过水藻和马尔科夫过程，在没有直接观察天气的情况下得到天气的变化情况。更容易理解的一个应用就是语音识别，我们的问题定义就是如何通过给出的语音信号预测出原来的文字信息。在这里，语音信号就是观察状态，识别出的文字就是隐含状态。这里需要注意的是，在任何一种应用中，观察状态的个数

5、与隐含状态的个数有可能不一样的。下面我们就用隐马尔科夫模型 HMM 来解决这类问题。 HMM 下图是天气例子中两类状态的转移图，我们假设隐状态是由一阶马尔科夫过程描述，因此他们相互连接。隐状态和观察状态之间的连线表示：在给定的马尔科夫过程中，一个特定的隐状态对应的观察状态的概率。我们同样可以得到一个矩阵：注意每一行（隐状态对应的所有观察状态）之和为 1。到此，我们可以得到 HMM 的所有要素：两类状态和三组概率两类状态：观察状态和隐状态；三组概率：初始概率、状态转移概率和两态对应概率（confusion matrix） HMM 定义崔晓源翻译 HMM 是一个三元组 (,A,B).

6、the vector of the initial state probabilities;the state transition matrix; the confusion matrix; 这其中，所有的状态转移概率和混淆概率在整个系统中都是一成不变的。这也是 HMM 中最不切实际的假设。 HMM 的应用有三个主要的应用：前两个是模式识别后一个作为参数估计 (1) 评估根据已知的 HMM 找出一个观察序列的概率。这类问题是假设我们有一系列的 HMM 模型，来描述不同的系统（比如夏天的天气变化规律和冬天的天气变化规律），我们想知道哪个系统生成观察状态序列的概率最大。反过来说，把不

7、同季节的天气系统应用到一个给定的观察状态序列上，得到概率最大的哪个系统所对应的季节就是最有可能出现的季节。（也就是根据观察状态序列，如何判断季节）。在语音识别中也有同样的应用。我们会用 forward algorithm 算法来得到观察状态序列对应于一个 HMM 的概率。 (2) 解码根据观察序列找到最有可能出现的隐状态序列回想水藻和天气的例子，一个盲人隐士只能通过感受水藻的状态来判断天气状况，这就显得尤为重要。我们使用 viterbi algorithm 来解决这类问题。 viterbi 算法也被广泛的应用在自然语言处理领域。比如词性标注。字面上的文字信息就是观察状态，而词

8、性就是隐状态。通过 HMM 我们就可以找到一句话上下文中最有可能出现的句法结构。 (3) 学习从观察序列中得出 HMM 这是最难的 HMM 应用。也就是根据观察序列和其代表的隐状态，生成一个三元组 HMM (,A,B)。使这个三元组能够最好的描述我们所见的一个现象规律。我们用 forward-backward algorithm 来解决在现实中经常出现的问题转移矩阵和混淆矩阵不能直接得到的情况。总结 HMM 可以解决的三类问题 Matching the most likely system to a sequence of observations -evaluation, solv

9、ed using the forward algorithm; determining the hidden sequence most likely to have generated a sequence of observations decoding, solved using the Viterbi algorithm; determining the model parameters most likely to have generated a sequence of observations learning, solved using the forward-backward

10、 algorithm. 找到观察序列的概率崔晓源翻译 Finding the probability of an observed sequence 1、穷举搜索方法对于水藻和天气的关系，我们可以用穷举搜索方法的到下面的状态转移图（trellis）：图中，每一列于相邻列的连线由状态转移概率决定，而观察状态和每一列的隐状态则由混淆矩阵决定。如果用穷举的方法的到某一观察状态序列的概率，就要求所有可能的天气状态序列下的概率之和，这个 trellis 中共有 3*3=27 个可能的序列。 Pr(dry,damp,soggy | HMM) = Pr(dry,damp,soggy | sunny

11、,sunny,sunny) + Pr(dry,damp,soggy | sunny,sunny ,cloudy) + Pr(dry,damp,soggy | sunny,sunny ,rainy) + . . . . Pr(dry,damp,soggy | rainy,rainy ,rainy) 可见计算复杂度是很大，特别是当状态空间很大，观察序列很长时。我们可以利用概率的时间不变性解决复杂度。2、采用递归方法降低复杂度我们采用递归的方式计算观察序列的概率，首先定义部分概率为到达 trellis 中某一中间状态的概率。在后面的文章里，我们把长度为 T 的观察状态序列表示为：2a. Par

12、tial probabilities, (s)在计算 trellis 中某一中间状态的概率时，用所有可能到达该状态的路径之和表示。比如在 t=2 时间，状态为 cloudy 的概率可以用下面的路径计算：用t ( j ) 表示在时间 t 时状态 j 的部分概率。计算方法如下： t ( j )= Pr( observation | hidden state is j ) * Pr(all paths to state j at time t) 最后的观察状态的部分概率表示，这些状态所经过的所有可能路径的概率。比如：这表示最后的部分概率的和即为 trellis 中所有可能路径的和，也就是当前 H

13、MM 下观察序列的概率。 Section 3 会给出一个动态效果介绍如何计算概率。2b.计算初始状态的部分概率我们计算部分概率的公式为:t ( j )= Pr( observation | hidden state is j ) x Pr(all paths to state j at time t) 但是在初始状态，没有路径到达这些状态。那么我们就用 probability 乘以 associated observation probability 计算：这样初始时刻的状态的部分概率就只与其自身的概率和该时刻观察状态的概率有关。书接上文，前一话我们讲到了 Forward Algorit

14、hm 中初始状态的部分概率的计算方法。这次我们继续介绍。 2c.如何计算 t1 时刻的部分概率回忆一下我们如何计算部分概率： t ( j )= Pr( observation | hidden state is j ) * Pr(all paths to state j at time t) 我们可知（通过递归）乘积中第一项是可用的。那么如何得到 Pr(all paths to state j at time t) 呢？为了计算到达一个状态的所有路径的概率，就等于每一个到达这个状态的路径之和：随着序列数的增长，所要计算的路径数呈指数增长。但是在 t 时刻我们已经计算出所有到达某一状态的

15、部分概率，因此在计算 t+1 时刻的某一状态的部分概率时只和 t 时刻有关。这个式子的含义就是恰当的观察概率（状态 j 下，时刻 t+1 所真正看到的观察状态的概率）乘以此时所有到达该状态的概率和（前一时刻所有状态的概率与相应的转移概率的积）。因此，我们说在计算 t+1 时刻的概率时，只用到了 t 时刻的概率。这样我们就可以计算出整个观察序列的概率。2d.复杂度比较对于观察序列长度 T，穷举法的复杂度为 T 的指数级；而 Forward Algorithm 的复杂度为 T 的线性。 = 最后我们给出 Forward Algorithm 的完整定义 We use the forwar

16、d algorithm to calculate the probability of a T long observation sequence;where each of the y is one of the observable set. Intermediate probabilities (s) are calculated recursively by first calculating for all states at t=1.Then for each time step, t = 2, , T, the partial probability is calculated for each state; that is, the product of the appropriate observation probability and the sum over all possible routes to th

展开阅读全文