数理统计与随机过程7-参数估计.ppt

上传人:壹****1 文档编号:572704551 上传时间:2024-08-13 格式:PPT 页数:39 大小:1.95MB
返回 下载 相关 举报
数理统计与随机过程7-参数估计.ppt_第1页
第1页 / 共39页
数理统计与随机过程7-参数估计.ppt_第2页
第2页 / 共39页
数理统计与随机过程7-参数估计.ppt_第3页
第3页 / 共39页
数理统计与随机过程7-参数估计.ppt_第4页
第4页 / 共39页
数理统计与随机过程7-参数估计.ppt_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《数理统计与随机过程7-参数估计.ppt》由会员分享,可在线阅读,更多相关《数理统计与随机过程7-参数估计.ppt(39页珍藏版)》请在金锄头文库上搜索。

1、数理统计与随机过程数理统计与随机过程 1兰州大学信息科学与工程学院主讲主讲: 路永刚路永刚E-mail: 非正态总体非正态总体的区间估计的区间估计 7.6 非正态总体非正态总体的区间估计的区间估计 前前面面两两节节讨讨论论了了正正态态总总体体分分布布参参数数的的区区间间估估计计。但但是是在在实实际际应应用用中中,我我们们有有时时不不能能判判断断手手中中的的数数据据是是否否服服从从正正态态分分布布,或或者者有有足足够够理理由由认认为为它它们们不不服服从从正正态态分分布布。但但是是,只只要要样样本本大大小小 n 比比较较大大,总总体体均值均值 的置信区间仍可用正态总体情形的公式的置信区间仍可用正态

2、总体情形的公式 或或2已知时已知时2未知时未知时所不同的是:所不同的是:这时的这时的置信区间是近似的置信区间是近似的。 这是求一般总体均值的一种简单有效的这是求一般总体均值的一种简单有效的方法,其理论依据是方法,其理论依据是中心极限定理中心极限定理,它要求,它要求样本大小样本大小 n 比较大比较大。因此,这个方法称为。因此,这个方法称为大大样本方法样本方法。 设总体均值为设总体均值为 , 方差为方差为2 , X1, X2, , Xn 为来自总体的样本。因为这些样本为来自总体的样本。因为这些样本独立同独立同分布的分布的,根据,根据中心极限定理中心极限定理,对充分大的,对充分大的 n, 下式近似成

3、立下式近似成立因而,因而,近似地近似地有有 于是,于是, 的置信系数约为的置信系数约为1- - 的置信的置信区间为区间为当2未知未知时,用用2的的估估计S2 来代替来代替2,得得只要只要 n 很大,很大,(2)式所提供的置信区间在应用式所提供的置信区间在应用上是令人满意的。上是令人满意的。 那么,那么,n 究竟多大才算很大呢?究竟多大才算很大呢? 显然,对于相同的显然,对于相同的 n , (2)式所给出的置式所给出的置信区间的近似程度随总体分布与正态分布的信区间的近似程度随总体分布与正态分布的接近程度而变化接近程度而变化,因此,因此,理论上很难给出理论上很难给出 n 很大的一个界限很大的一个界

4、限。 但许多应用实践表明:但许多应用实践表明:当当 n30时,时,近似程度近似程度是是可以接受可以接受的;的;当当 n50时,时,近似程度近似程度是是很好很好的。的。例例1:某公司欲估计自己生产的电池寿命某公司欲估计自己生产的电池寿命。现从其产。现从其产品中随机抽取品中随机抽取 50 只电池做寿命试验。这些电池寿命只电池做寿命试验。这些电池寿命的平均值为的平均值为 2.261 (单位:单位:100小时小时),标准差,标准差 S=1.935。求该公司生产的电池平均寿命的置信系数为求该公司生产的电池平均寿命的置信系数为 95% 的的置信区间。置信区间。 解:解:查正态分布表,得查正态分布表,得 z

5、 /2= z0.025=1.96,由公式,由公式 (2),得电池平均寿命的置信系数为得电池平均寿命的置信系数为 95% 的置信区间为的置信区间为 设事件设事件 A 在一次试验中发生的概率为在一次试验中发生的概率为 p, 现在做现在做 n 次试验,以次试验,以Yn记事件记事件 A 发生的次数发生的次数,则则 Yn B(n, p)。依。依中心极限定理中心极限定理,对充分大的,对充分大的 n,近似地有,近似地有 7.6.1 二项分布二项分布 (3)式是式是(1)式的特殊情形。式的特殊情形。 (4)式就是式就是二项分布二项分布参数参数 p 的置信系数约为的置信系数约为1- 的置信区间的置信区间。例例2

6、:商品检验部门随机抽查了某公司生产的产品商品检验部门随机抽查了某公司生产的产品100件,发现其中合格产品为件,发现其中合格产品为84件,试求该产品合格件,试求该产品合格率的置信系数为率的置信系数为0.95的置信区间。的置信区间。解:解:n=100, Yn=84, =0.05, z/2=1.96, 将这些将这些结果代入到结果代入到(4)式,得式,得 p 的置信系数为的置信系数为0.95的近的近似置信区间为似置信区间为 0.77, 0.91。7.6.2 泊松分布泊松分布 设设 X1, X2 , Xn 为抽自具有泊松分布为抽自具有泊松分布P( )的总的总体的样本,因为体的样本,因为 E(X)=D(X

7、) = ,由:例例4:公共汽车站在一单位时间内公共汽车站在一单位时间内 (如半小时如半小时,或或1小时小时, 或一天等或一天等) 到达的乘客数服从泊松分布到达的乘客数服从泊松分布 P( ), 对不同对不同的车站的车站, 不同的仅是参数不同的仅是参数 的取值不同。的取值不同。现对某城市某公共汽车站进行现对某城市某公共汽车站进行100个单位时间的调查。个单位时间的调查。这里单位时间是这里单位时间是20分钟。计算得到每分钟。计算得到每 20 分钟内来到分钟内来到该车站的乘客数平均值为该车站的乘客数平均值为 15.2 人。试求参数人。试求参数 的置信的置信系数为系数为95%的置信区间。的置信区间。 解

8、解: n=100, =0.05, z / /2=1.96, 将这些结果将这些结果代入到代入到 (5) 式式, 得得 的置信系数为的置信系数为0.95的近似置信区的近似置信区间为间为 14.44, 15.96。讨论讨论要对非正态分布的参数进行区间估计,主要需要哪些条件?14 非参数估计非参数估计参数估计参数估计参数估计参数估计:样本的样本的概率密度函数概率密度函数P P( (x x, i i) )的的形式形式已知已知,去去推断推断概率密度函数中的概率密度函数中的某些未知的参数某些未知的参数 i i 。非参数估计非参数估计非参数估计非参数估计:样本的样本的概率密度函数概率密度函数P P( (x x

9、 , i i) )的的形式未形式未知知,去去推断推断概率密度函数概率密度函数。参数估计参数估计的两种类型的两种类型非参数估计非参数估计当密度函数的形式未知时,只能用当密度函数的形式未知时,只能用非参数方法。它能处理它能处理任意的概率分布。在在参数估计中中, , 密度函数的密度函数的参数形式是单模的 ( (单单个局部极大值个局部极大值) ),然而在现实中,所遇到的却常常,然而在现实中,所遇到的却常常是是多模的情况。的情况。基于基于直方图直方图的的概率密度估计概率密度估计就是一种典型的非参数估计就是一种典型的非参数估计最简单的非最简单的非参数估计参数估计非参数非参数概率密度函数的估计概率密度函数的

10、估计基本思想基本思想: :设有样本设有样本x x的概率密度函数为的概率密度函数为 p(x),则,则x x 落在区域落在区域 R 中中的概率为的概率为: :设 n 个抽取样本为独立同分布样本,其概率密度函数为 p(x), 则其中 k 个样本落在区域 R 的概率为:二项式分布(Binomial Distribution)k 的期望的期望值为: E(k) = nPPictire From:http:/en.wikipedia.org/即比值 k k/ /n n 就是概率概率 P P 的一个很好的估计. 若概率密度p(x)是连续的,并且区域R足够小,以致于在这个区间中p 几乎没有变化,那么近似地有:对

11、对概率概率P P,用用最大似然估最大似然估最大似然估最大似然估计计 ,设设参数向量参数向量为为 = =概率概率P P, 其中其中 x x 为为R R中的中的一个点,一个点, V V 是区域是区域 R R 所包含的体积从式从式 (1)(1), (3)(3),(4) (4) 可得可得: :由二项式分布的性质得:当由二项式分布的性质得:当 k nP 时时Pk 最大最大,所以这种情况这种情况毫无意义!毫无意义!区域区域 RR 中含有样本中含有样本: :收收敛条件条件 其其其其实实是是是是 p p( (x x) ) 的空的空的空的空间间平均平均平均平均. .对对有限的有限的有限的有限的n n,如果希望得

12、到,如果希望得到,如果希望得到,如果希望得到 p p( (x x) ),那么要求,那么要求,那么要求,那么要求 V V 的的的的值趋值趋于于于于0 0。这时这时会出会出会出会出现现两种情况:两种情况:两种情况:两种情况: 区域区域区域区域 RR 中不含有任何中不含有任何样本本: :在在在在这这种情况下,估种情况下,估种情况下,估种情况下,估计计的的的的结结果就果就果就果就变变成无成无成无成无穷穷大大大大: : 也毫无意也毫无意也毫无意也毫无意义义! !所以要求:所以要求:n为有限值,为有限值, V 不能趋于零不能趋于零当下面当下面当下面当下面3 3个条件成立个条件成立个条件成立个条件成立时时,

13、p pn n( (x x) ) 收收收收敛敛到到到到 p p( (x x) ):有有两种两种经常采用的常采用的满足以上三种条件的途径足以上三种条件的途径:(1) 体体积Vn是是N的确定函数,比如的确定函数,比如 VN = ,来来逐逐渐收收缩一个一个给定的定的初始区初始区间 “Parzen 窗法窗法”24(2) k kn n 是是 N N 的一个确定函数的一个确定函数, , 比如比如 k kN N = = ,这样体积这样体积 V VN N 就必须逐渐生长,就必须逐渐生长,直到最后能包含进直到最后能包含进 x x 的的 k kN N 个相邻点个相邻点. . “K-近邻估计”Parzen 窗法窗法K

14、-近邻估计近邻估计Parzen Parzen 窗法窗法根据某一个确定的体积函数,比如 ,来逐渐收缩逐渐收缩一个给定的初始区间初始区间。Parzen Parzen 窗法窗法Parzen Parzen 窗方法估计概率密度函数,我们假设区间窗方法估计概率密度函数,我们假设区间Vn 是一个是一个 d d 维的超立方体维的超立方体其中其中h hn n为为Vn的边长的边长令窗函数为:令窗函数为:如果如果如果如果 x xi i 落在中心落在中心落在中心落在中心为为 x x 的超立方体的超立方体的超立方体的超立方体 V Vn n 中,那么中,那么中,那么中,那么 ( (x-xx-xi i) ) /h/hn n

15、) ) 1 1,否,否,否,否则为则为0. 0.超立方体中的样本个数:将将 k kn n 代入代入 p pn n( (x x) ) = = ( (k kn n/n/n) )/V/Vn n , , 得:得:p p( (x x) ) 的估计的估计p pn n( (x x) )是一系列关于是一系列关于 x x 和和 x xi i ( (i = 1, ,ni = 1, ,n) )的函数的平均的函数的平均. . 推广:推广:窗函数窗函数 可以是可以是满足概率容许条件的容许条件的任意函数任意函数窗函数的选择窗函数的选择考虑考虑一维 N N ( (0,0, =1=1) ) 正态概率密度函数令令( (h h1

16、 1: : 随意选取的一个参数随意选取的一个参数) )则则: :表示表示P Pn n( (x x) )就是就是以各个以各个样本点xi为中心的的正态概率密度函数的的平均。举例说明如果如果 n = n = 10 10 、h = h = 0.1, 0.1, 那么每个样本点各自的贡献那么每个样本点各自的贡献能够清楚的观察到能够清楚的观察到 。数值计算结果:如果如果 n = n = 1 1、h h1 1=1=1h1=1h1=0.5h1=0.1在二维情况下有类似的结果:K-K-近邻估计近邻估计K Nearest Neighbor Density Estimation 在 Parzen窗法中:体积由 先确定

17、体积内的点数不确定在K-近邻估计中:体积内的点数 kN 先确定体积再由包含 kN 个最近邻点来确定VN基本公式仍然为:K-K-近邻估计近邻估计如果设如果设 ,随着,随着N增大,增大,KN增增大,所以体积也就增大。大,所以体积也就增大。如果如果x x点附近密度低,体积增大速度就快;点附近密度低,体积增大速度就快;如果如果x x点附近密度高,体积增大速度就慢。点附近密度高,体积增大速度就慢。可以克服可以克服Pazzen窗对于初值窗对于初值V1的依耐性的依耐性基本公式:K-K-近邻估计近邻估计假设条件:假设条件:一个较好的确定一个较好的确定kN的方法:的方法:K-K-近邻估计举例近邻估计举例讨论讨论用用直方图估计概率密度函数,和用概率密度函数,和用 Parzen 窗估计概率密度函数有什么概率密度函数有什么联系和区别? ? ? ?

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号