最大似然估计和贝叶斯参数估计

上传人:宝路 文档编号:52497025 上传时间:2018-08-22 格式:PPT 页数:103 大小:3.27MB
返回 下载 相关 举报
最大似然估计和贝叶斯参数估计_第1页
第1页 / 共103页
最大似然估计和贝叶斯参数估计_第2页
第2页 / 共103页
最大似然估计和贝叶斯参数估计_第3页
第3页 / 共103页
最大似然估计和贝叶斯参数估计_第4页
第4页 / 共103页
最大似然估计和贝叶斯参数估计_第5页
第5页 / 共103页
点击查看更多>>
资源描述

《最大似然估计和贝叶斯参数估计》由会员分享,可在线阅读,更多相关《最大似然估计和贝叶斯参数估计(103页珍藏版)》请在金锄头文库上搜索。

1、Chapter 3: Chapter 3: 最大似然估计和贝叶斯参数估计2要点: 重点掌握最大似然估计和贝叶斯参数估计的原理; 熟练掌握主成分分析和Fisher线性分析; 掌握隐马尔可夫模型; 了解维数问题;3贝叶斯框架下的数据收集 n在以下条件下我们可以设计一个可选择的分类器 :P(i) (先验)P(x | i) (类条件密度) 不幸的是,我们极少能够完整的得到这些信息!从一个传统的样本中设计一个分类器 n先验估计不成问题 n对类条件密度的估计存在两个问题:1)样本对于 类条件估计太少了;2) 特征空间维数太大了,计 算复杂度太高。1 3.1 引 言4如果可以将类条件密度参数化,则可以显著

2、降低难度。例如:P(x | i)的正态性 P(x | i) N( i, i)n用两个参数表示将概率密度估计问题转化为参数估计问题。估计n最大似然估计 (ML) 和贝叶斯估计;n结果通常很接近, 但是方法本质是不同的。5n最大似然估计将参数看作是确定的量,只是其值是 未知! 通过最大化所观察的样本概率得到最优的参数 用分析方法。n贝叶斯方法把参数当成服从某种先验概率分布的随 机变量,对样本进行观测的过程,就是把先验概率 密度转化成为后验概率密度,使得对于每个新样本 ,后验概率密度函数在待估参数的真实值附近形成 最大尖峰。n在这两种方法中,我们都用后验概率P(i | x)表示分 类准则!6n当样本

3、数目增加时,收敛性质会更好; n比其他可选择的技术更加简单 。假设有c类样本,并且 1)每个样本集的样本都是独立同分布的随机变量; 2)P(x | j) 形式已知但参数未知,例如P(x | j) N( j, j); 3)记 P(x | j) P (x | j, j),其中 3.2 最大似然估计o 最大似然估计的优点:3.2.1 基本原理7n使用训练样本提供的信息估计 = (1, 2, , c), 每个 i (i = 1, 2, , c) 只和每一 类相关 。n假定D包括n个样本, x1, x2, xnn的最大似然估计是通过定义最大化P(D | )的值 “值与实际观察中的训练样本最相符”2829

4、n最优估计 令 = (1, 2, , p)t 并令 为梯度算子 the gradient operator我们定义 l() 为对数似然函数:l() = ln P(D | )新问题陈述: 求解 为使对数似然最大的值 10对数似然函数l()显然是依赖于样本集D, 有:最优求解条件如下:令:来求解.11P(xk | ) N(, ) (样本从一组多变量正态分布中提取)这里 = ,因此:的最大似然估计必须满足:23.2.3 高斯情况: 未知12乘 并且重新排序, 我们得到:即训练样本的算术平均值!结论: 如果P(xk | j) (j = 1, 2, , c)被假定为d维特征空间中的 高斯分布; 然后我们

5、能够估计向量 = (1, 2, , c)t 从 而得到最优分类!213n未知 和 ,对于单样本xk = (1, 2) = (, 2)3.2.3 高斯情况: 和 均未知14对于全部样本,最后得到:联合公式 (1) 和 (2), 得到如下结果:2152的最大似然估计是有偏的 (渐进无偏估计) 的一个基本的无偏估计是:23.2.4 偏差估计16模型错误会怎么样?达不到最优!17在最大似然估计中 被假定为固定值在贝叶斯估计中 是随机变量目标: 计算 P(i | x, D) 假设样本为D,贝叶斯方程可以写成 : 3.3贝叶斯估计3.3.1 类条件密度18因此,核心工作就是要估计n先验概率通常可以事先获得

6、,因此n每个样本只依赖于所属的类,有:故:即:只要在每类中,独立计算 就可以确定x的类别。19假设 的形式已知, 参数的值未知,因此条 件概率密度 是知道的;假设参数是随机变量,先验概率密度函数p()已 知,利用贝叶斯公式可以计算后验概率密度函数p( | D) ;希望后验概率密度函数p( | D) 在的真实值附件 有非常显著的尖峰,则可以使用后验密度p( | D) 估计 ; 3.3.2 参数的分布20注意到 3.3.2 参数的分布如果p( | D) 在某个值 附件有非常显著的尖峰, 则即: 如果条件概率密度具有一个已知的形式,则 利用已有的训练样本,就能够通过p( | D) 对 p(x | D

7、) 进行估计。21单变量情形的 p( | D)3.4 贝叶斯参数估计: 高斯过程22复制密度23结论:贝叶斯学习24 单变量情形的 p(x|D)25多变量情形:复制密度其中仅未知.2627多变量学习283.5 贝叶斯参数估计:一般理论p(x | D) 的计算可推广于所有能参数化未知密度的情况中,基本假设如下:n假定 p(x | ) 的形式已知,但是的值未 知。n被假定为满足一个已知的先验密度 P()n其余的 的信息 包含在集合D中,其中D 是由n维随机变量x1, x2, , xn组成的集合 ,它们服从于概率密度函数p(x)。基本的问题是: 计算后验密度p( | D) ,然后 推导出 p(x |

8、 D)。29问题: p(x | D)是否能收敛到p(x),计算复杂度如何?(49)(50)(51)30递归贝叶斯学习该过程称为参数估计的递归贝叶斯方法,一种增量学习方法。因为:所以:令:31例1:递归贝叶斯学习32例1:递归贝叶斯学习33例1: Bayes vs. ML34唯一性问题np(x|q) 是唯一的: 后验概率序列 p(q|Dn) 收敛到 delta 函数;只要训练样本足够多,则 p(x|q) 能唯一确定q 。在某些情况下,不同 q 值会产生同一个 p(x|q) 。p(q|Dn) 将在 q 附近产生峰值,这时不管p(x|q) 是 否唯一, p(x|Dn)总会收敛到p(x) 。因此不确定

9、性客观存在。35最大似然估计和贝叶斯参数估计的区别最大似然估计 贝叶斯参数估计 计算复杂度 微分 多重积分 可理解性 确定易理解 不确定不易理解 先验信息的信任程度 不准确 准确例如 p(x|q) 与初始假设一致 与初始假设不一致 36分类误差种类:n贝叶斯错误或不可分错误,例如 P(x | i)之 间相互重叠引起,固有问题 ;n模型错误,ML与Bays犯错一样;n估计错误,训练样本个数有限产生。37Gibbs 算法在较弱的假设条件下,Gibbs算法的误差概率至多 是贝叶斯最优分类器的两倍。38n统计量任何样本集D的函数;n充分统计量即是一个样本集 D 的函数s ,其中 s 包含了有助于估计参

10、数 的所有所有信息,即 p(D|s, ) 与 无关;n满足上面,如果q 是随机变量,则可以写成 3.6 充分统计量反过来也成立。39因式分解定理:n一个关于参数q 的统计量s是充分统计量当且仅当 概率分布函数 P(D|q) 能够写成乘积形式: P(D|q) = g(s, q) h(D) 其中 g(.,.) 和h(.)是两个函数。40例子:多维高斯分布41证明:必要性注意到 对于一个给定的样本,只有一个s与之 对应。由定义42充分性:43核密度(Kernel density)n把 P(D|q) 分解成 g(s,q)h(D) 不是唯一的:如果f(s) 是一个函数, g(s,q)=f(s)g(s,q

11、) 和 h(D) = h(D)/f(s) 也是等价的分解;n这种二义性可以用定义核密度函数的方法来得 到消除:44例子:多维高斯分布45核密度与参数估计n对于最大似然估计情形,只需最大化 g(s,q),因为 : P(D|q) = g(s, q) h(D) n对于贝叶斯估计情形:如果我们对q的先验概率不确定, p(q) 通常选择 均匀分布, 则p(q|D) 几乎等于核密度;如果p(x|q) 可辩识时, g(s,q) 通常在某个值处有 明显的尖峰,并且如果p(q) 在该值处连续并且 非零, 则p(q|D) 将趋近核密度函数。46充分统计量与指数族函数47分类问题通常涉及50或100维以上的特征.

12、分类精度取决于维数和训练样本的数量n考虑有相同协方差矩阵的两组多维向量情况: 3.7 维数问题如果它们的先验概率相同,则贝叶斯误差概率为:48n如果特征是独立的,则有:n最有用的特征是两类均值之间的距离大于标准 方差的那些特征;n在实际观察中我们发现,当特征个数增加到某 个临界点后会导致更糟糕的结果而不是好的结 果: 我们的模型有误,或者由于训练样本个数有 限导致分布估计不精确,等等。49可分性与特征维数50学习过程的计算复杂度51分类过程的计算复杂度 分类阶段比学习阶段简单。52训练样本不足时的方法n降维重新设计特征提取模块;选择现有特征的子集;将几个特征组合在一起;假设各个类的协方差矩阵都

13、相同,将全部数据都归到 一起;n寻找协方差矩阵 更好的估计;如果有合理的先验估计 0, 则可以用如下的伪贝叶斯估 计 ; 设法将0对角化: 阈值化或假设特征之间统计独立;53过拟合的概念正确的拟合思想是:一开始用高阶的多项式曲线来拟合 ,然后依次去掉高阶项来逐渐简化模型,获得更光滑的 结果。54缩并(Regularized Discriminant Analysis)55组合特征从而降低特征空间的维数 线性组合通常比较容易计算和处理 将高维数据投影到一个低维空间里去 使用两种分类方法寻找理想一点的线性变 换: nPCA (主成份分析) “在最小均方意义下的数据 的最优表示的映射”nMDA (多

14、类判别分析) “在最小均方意义下的数 据的最优分类的映射” 3.8 成分分析与辨别函数 56主成分分析57沿直线投影:58对于通过样本均值直线的最佳投影59寻找最佳表达方向60主成分分析 (PCA) Principal component analysis61nL个N维空间的向量,构成N维空间的L个点。如 果大多数点落在一个M维超平面上,只要能找到 M维空间的坐标系,则可以将L个向量投影到M维 空间,获得低维的表达。K-L变换 PCA K-L变换是压缩与特征提取的有效方法。62Fisher 线性分类的概念 以“O”、“Q”为例,比较PCA与LDA的差别。63Fisher 线性鉴别分析 Fish

15、er Linear Discriminant Analysis64Fisher Linear Discriminant Analysis6566对于正态分布的LDA67多重判别分析MDA68Multiple Discriminant Analysis697071期望最大化 (EM)n将最大似然估计推广到允许包含丢失特征样本来学习特定 分布的参数问题; 完整的样本集 D = x1, . . ., xn xk = xkg, xkb 把不同的特征分成两部分 Dg 和 Db D 是 Dg 和 Db的并集 组成函数72begin initialize q0, T, i 0do i i + 1E step: Compute Q(q; q i)M step: q i+1 arg maxq Q(q,q i

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号