2第二章-统计推断与贝叶斯预测

上传人:小** 文档编号:57795692 上传时间:2018-10-24 格式:PPT 页数:85 大小:3.68MB
返回 下载 相关 举报
2第二章-统计推断与贝叶斯预测_第1页
第1页 / 共85页
2第二章-统计推断与贝叶斯预测_第2页
第2页 / 共85页
2第二章-统计推断与贝叶斯预测_第3页
第3页 / 共85页
2第二章-统计推断与贝叶斯预测_第4页
第4页 / 共85页
2第二章-统计推断与贝叶斯预测_第5页
第5页 / 共85页
点击查看更多>>
资源描述

《2第二章-统计推断与贝叶斯预测》由会员分享,可在线阅读,更多相关《2第二章-统计推断与贝叶斯预测(85页珍藏版)》请在金锄头文库上搜索。

1、2018/10/24,1,统计信号分析与处理,机电学院通信工程系 2009年11月,侯 强,2018/10/24,2,第二章 统计推断与贝叶斯预测,2018/10/24,3,第二章 统计推断与贝叶斯预测,2.1 引言与导学 2.2 贝叶斯估计基础 -想法 2.3 贝叶斯估计-评价 2.4 期望-最大方法 -算法 2.5 高斯混合模型的设计-算法 2.6 贝叶斯分类 -应用 2.7 随机过程空间的建模-提高,2018/10/24,4,本章首先给出一个关于参数估计理论基本概念的介绍。(想法)然后介绍用于定量评价估计量性能的统计测度。我们主要研究贝叶斯估计方法,考虑在估计均值与方差中使用先验模型的效

2、果。(评价)研究从不完整数据中估计一组未知参数的期望最大(EM)方法,并将其应用于连续随机变量的高斯混合模型空间。(算法)本章最后以离散或有限状态信号的贝叶斯分类结束,并介绍K-均值聚类方法。 本章思路:想法-算法-评价-应用,2.1 引言与导学,2018/10/24,5,2018/10/24,6,2018/10/24,7,2018/10/24,8,蓝色为原始含噪语音 黄色为谱相减处理的结果,2018/10/24,9,原始含噪语音,自适应抗噪与谱相减相结合后的输出结果,基本自适应抗噪输出结果,2018/10/24,10,通过语音合成来说话,2018/10/24,11,男声“深圳 广州 珠海”的

3、短时幅度统计。在采样频率为22050Hz的情况下,取20ms作为一帧,帧长为441点,一共统计了180帧。,短时平均幅度,原始语音,2018/10/24,12,音乐信号的分离,CEG基频,CE基频,C基频,和弦CEG,2018/10/24,13,GMM的例子,例 :一个班级每个学生的身高为 假设男生和女生的身高分别服从高斯分布 则 其中 为男生的比例,问题:给定独立同分布(independent and identically distributed-IID)的数据 ,求参数混合模型的参数估计是EM(Expectation Maximization)算法最典型的应用,2018/10/24,14

4、,2018/10/24,15,估计理论主要研究从观测信号中最优地估计出参数矢量的问题,或者研究从被噪声污染或退化的信号中恢复出纯净信号的方法。 例如,给定一个正弦信号波形,我们可能需要估计其基本参数(如幅度、频率和相位),或者我们可能希望恢复信号本身。,2.2 贝叶斯估计基础,2018/10/24,16,估计量通常以带噪信号或不完整观测作为输入,并且采用动态模型(如线性预测模型)和/或过程的概率模型(如高斯模型)来估计未知的参数,即估计量是一个系统,而被估计的参数是此次系统的输出。估计的精度取决于可以使用的信息和估计方法的有效性。本章主要研究平稳参数的贝叶斯估计问题。关于非平稳有限状态过程的建

5、模与估计问题将在下面的章节研究。,2.2 贝叶斯估计基础,2018/10/24,17,2018/10/24,18,2018/10/24,19,贝叶斯理论是一个基本的统计推断框架。在过程状态的估计与预测中,贝叶斯方法主要利用两种信息: 其一是包含在观测信号中的事实; 其二是过程分布的先验知识。 图2.1给出了贝叶斯方法作为主要统计估计方法的基本框架。,2.2 贝叶斯估计基础,2018/10/24,20,2.2 贝叶斯估计基础,图2.1 贝叶斯推断包含一个代价函数,一个先验函数和一个似然函数。 其他估计方法可以被认为是贝叶斯估计的特例,2018/10/24,21,2018/10/24,22,2.2

6、.1 估计的动态模型和概率模型,最优估计算法常采用观测信号的动态模型和概率模型。 动态预测模型利用信号的相关结构信息,根据信号的过去状态和输入激励对信号当前值与将来值的依赖关系进行建模。采用动态模型进行估计的例子包括线性预测模型和卡尔曼滤波器。 统计概率模型依据均值和方差这样的统计量来表现信号随机波动空间的特性,为了描述得更完整,则需要采用概率模型。条件概率模型除了对信号的随机波动建模以外,也用于表示信号对其过去状态和其他过程的依赖情况。 动态模型和概率模型可以进行组合:例如,一个有限状态模型可以通过隐马尔可夫模型(HMM)和卡尔曼滤波器的组合来构造。,2018/10/24,23,2.2.1

7、估计的动态模型和概率模型,2018/10/24,24,随机过程的预测模型和概率模型引导估计结果朝着与模型参数和观测信号的先验分布相一致的方向发展。 一般来说,只要所使用的模型能够准确代表观测数据和参数过程的特征,则估计中所使用的信息量越多,估计的结果会越好。 其缺点是,如果模型是不准确的,则所引起的负面效应要超过其正面效果。,2018/10/24,25,2.2.2 参数空间与信号空间,2018/10/24,26,2.2.2 参数空间与信号空间,2018/10/24,27,2.2.2 参数空间与信号空间,2018/10/24,28,2.2.3 参数估计和信号恢复,参数估计和信号恢复是密切相关的两

8、个问题。 二者的主要区别是大多数信号往往波动较快,而大多数参数则波动较慢。 例如,语音信号的波动速率大约为20kHz,而相应的元音和谐音参数的变化速率则仅为100Hz。这个现象表明,在参数估计时可以比信号恢复时进行更多的平均操作。 作为一个简单的例子,考虑零均值随机噪声中的一个观测信号。假定我们希望估计: (a)纯净信号的平均值;(b) 纯净信号本身。 随着观测时间的增长,信号均值的估计会逐渐逼近纯净信号的均值,而纯净信号样本的估计则取决于信号的相关结构和信噪比,并取决于所采用的估计方法。,2018/10/24,29,2018/10/24,30,2.2.4 性能测度与所希望的估计性能,2018

9、/10/24,31,2.2.4 性能测度与所希望的估计性能,不同的参数估计会得到不同的结果,这主要取决于所采用的估计方法、所利用的观测数据和所利用的先验信息。 由于观测所具有的随机性,即使是相同的估计量,如果选用同一过程中不同的观测数据,也会产生不同的结果。 因此,估计结果本身是一个随机变量,也具有均值和方差,也可以用概率密度函数来描述。然而,在大多数情况下,根据估计误差的均值和方差来确定一个估计量的特性就足够了。 对于估计量最常用的性能测度为:,2018/10/24,32,2.2.4 性能测度与所希望的估计性能,2018/10/24,33,2.2.4 性能测度与所希望的估计性能,最优估计的目

10、标是使估计的偏为零,并使估计误差的方差达到最小。对于估计量来说,所希望的性质可以列于下面:,2018/10/24,34,2.2.4 性能测度与所希望的估计性能,2018/10/24,35,2018/10/24,36,2018/10/24,37,2018/10/24,38,高斯混合模型(GMM) 与 期望最大算法(EM),2018/10/24,39,频率学派的观点,到目前为止我们讲述的都是频率(经典的)统计学概率指的是相对频率,是真实世界的客观属性。 参数是固定的未知常数。由于参数不会波动,因此不能对其进行概率描述。 统计过程应该具有定义良好的频率稳定性。如:一个95的置信区间应覆盖参数真实值至

11、少95的频率。,统计学更多关注频率推断,频率学派PK贝叶斯学派,2018/10/24,40,贝叶斯学派的观点,贝叶斯推断采取了另外一个不同的立场: 概率描述的是主观信念的程度,而不是频率。这样除了对从随机变化产生的数据进行概率描述外,我们还可以对其他事物进行概率描述。 可以对各个参数进行概率描述,即使它们是固定的常数。 为参数生成一个概率分布来对它们进行推导,点估计和区间估计可以从这些分布得到,机器学习和信号处理更偏爱贝叶斯推断,2018/10/24,41,贝叶斯方法,贝叶斯推断的基本步骤如下: 选择一个概率密度函数 ,用来表示在取得数据之前我们对某个参数 的信念。我们称之为先验分布。 选择一

12、个模型 (在参数推断记为 ) 来反映在给定参数 情况下我们对x的信念。 当得到数据 X1, X2,Xn 后,我们更新我们的信念并且计算后验分布 。 从后验分布中得到点估计和区间估计。,2018/10/24,42,回忆贝叶斯规则,亦称贝叶斯定理条件概率利用贝叶斯规则将数据和参数的分布联合起来,2018/10/24,43,似然函数,假设我们有n个IID观测 ,记为 ,产生的数据为 ,记为 ,我们用如下公式替代现在似然函数真正解释为给定参数下数据的概率,2018/10/24,44,后验概率,因此后验概率为其中 被称为归一化常数(normalizing constant)。该常数经常被忽略,因为我们关

13、心的主要是参数 的不同值之间的比较。所以也就是说,后验和似然函数与先验的乘积成正比,2018/10/24,45,贝叶斯点估计,后验的均值是一个常用的点估计 L2损失下的贝叶斯规则极大后验估计(maximum a posteriori,MAP)是使后验 最大的 的值:是另一个常用的点估计 0-1损失下的贝叶斯规则,2018/10/24,46,贝叶斯学派的观点,先验信息:可以方便的结合先验信息,而且人们在做推断时也确实利用了先验信息,贝叶斯推断使得这个过程显式化提供了更多的结构:对小样本很有效简练:允许人们对参数进行概率描述,使得似然函数与其逻辑结论一致,减小了数据和参数之间的区别统一:不必对点估

14、计和区间估计各个解析推导,2018/10/24,47,反对贝叶斯学派的观点,不方便:后验区间不是真正的置信区间,估计通常都是有偏估计以参数为中心:在很多非参数情况下似然很脆弱计算强度大:积分/仿真或近似很难处理不必要的复杂:即使没有先验信息也要有先验函数假设检验:贝叶斯假设检验对先验的选取很敏感,2018/10/24,48,综上所述,在参数模型中,当样本数目很多时,贝叶斯方法和频率方法得到的近似相同的推理。但通常二者的结果不同贝叶斯方法和频率推理是为了解决不同的问题 结合先验知识和数据:贝叶斯方法 构造长期稳定的性能(如置信区间):频率方法,2018/10/24,49,综上所述,当参数空间为高

15、维时,通常采用贝叶斯方法 但当参数比数据还多时,没有统计方法能跨越自然的本质约束 即使先验知识选择得当,也只能对“过去”预测很好,对将来不一定能预测很好 You cannot get something for nothing. A little bit of data, will not help you to learn about a million dimensional, complex problem.,2018/10/24,50,2.3 贝叶斯估计,2018/10/24,51,2018/10/24,52,2.3.1 最大后验估计 2.3.2 最大似然估计 2.3.3 最小均方误差

16、估计 2.3.4 最小平均绝对误差估计,2018/10/24,53,2018/10/24,54,2018/10/24,55,2018/10/24,56,2018/10/24,57,2018/10/24,58,2018/10/24,59,2018/10/24,60,2018/10/24,61,2.3.5 均匀分布参数高斯过程条件下MAP,ML,MMSE和MAVE的等价性,2018/10/24,62,2.4 期望-最大方法,期望-最大(EM)算法是一种迭代实现的最大似然方法,在盲解卷积、聚类、隐马尔可夫模型的训练、基于模型的内插、带噪信号的谱估计、信号恢复与估计等领域得到广泛的应用。 EM是解决一类问题的一个框架,在这类问题中,由于数据的不完整性(图2.15),例如,当数据中丢失了一些样本或标志,或问题过于难等原因,往往难于直接得到问题的ML估计。例如,在聚类应用中,通常原始数据是没有聚类标记的,因此往往采用迭代的EM方法,其中包括: (a)给数据加上标记(期望) (b)计算聚类的均值和方差。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号