《数理统计与随机过程7--参数估计》由会员分享,可在线阅读,更多相关《数理统计与随机过程7--参数估计(39页珍藏版)》请在金锄头文库上搜索。
1、1兰州大学信息科学与工程学院主讲: 路永刚 E-mail: 非正态总体的区间估计 7.6 非正态总体的区间估计 前面两节讨论了正态总体分布参数的区间估计。 但是在实际应用中,我们有时不能判断手中的数据 是否服从正态分布,或者有足够理由认为它们不服 从正态分布。但是,只要样本大小 n 比较大,总体 均值 的置信区间仍可用正态总体情形的公式 或2已知时2未知时所不同的是:这时的置信区间是近似的。 这是求一般总体均值的一种简单有效的 方法,其理论依据是中心极限定理,它要求 样本大小 n 比较大。因此,这个方法称为大 样本方法。设总体均值为 , 方差为2 , X1, X2, , Xn 为来自总体的样本
2、。因为这些样本独立同 分布的,根据中心极限定理,对充分大的 n, 下式近似成立因而,近似地有 于是, 的置信系数约为1- 的置信区间为当2未知时时,用2的估计计S2 来代替2,得只要 n 很大,(2)式所提供的置信区间在应用 上是令人满意的。那么,n 究竟多大才算很大呢? 显然,对于相同的 n , (2)式所给出的置 信区间的近似程度随总体分布与正态分布的 接近程度而变化,因此,理论上很难给出 n 很大的一个界限。但许多应用实践表明: 当 n30时,近似程度是可以接受的; 当 n50时,近似程度是很好的。例1:某公司欲估计自己生产的电池寿命。现从其产 品中随机抽取 50 只电池做寿命试验。这些
3、电池寿命 的平均值为 2.261 (单位:100小时),标准差 S=1.935 。求该公司生产的电池平均寿命的置信系数为 95% 的置信区间。 解:查正态分布表,得 z /2= z0.025=1.96,由公式 (2), 得电池平均寿命的置信系数为 95% 的置信区间为设事件 A 在一次试验中发生的概率为 p, 现在做 n 次试验,以Yn记事件 A 发生的次数,则 Yn B(n, p)。依中心极限定理,对充分大的 n ,近似地有 7.6.1 二项分布 (3)式是(1)式的特殊情形。(4)式就是二项分布参数 p 的置信系数约为 1- 的置信区间。例2:商品检验部门随机抽查了某公司生产的产品 100
4、件,发现其中合格产品为84件,试求该产品合格 率的置信系数为0.95的置信区间。解:n=100, Yn=84, =0.05, z/2=1.96, 将这些 结果代入到(4)式,得 p 的置信系数为0.95的近 似置信区间为 0.77, 0.91。例3:在环境保护问题中, 饮水质量研究占有重要地 位, 其中一项工作是检查饮用水中是否存在某种类 型的微生物。 假设在随机抽取的100份一定容积的水样品中有20份 含有这种类型的微生物。试求同样容积的这种水含 有这种微生物的概率 p 的置信系数为0.90的置信区间 。解:n=100, Yn=20, =0.10, z/2=1.645, 将这些结果 代入到(
5、4)式,得 p 的置信系数为0.90的近似置信区 间为 0.134, 0.226。7.6.2 泊松分布 设 X1, X2 , Xn 为抽自具有泊松分布P( )的总 体的样本,因为 E(X)=D(X) = ,由:例4:公共汽车站在一单位时间内 (如半小时,或1小时 , 或一天等) 到达的乘客数服从泊松分布 P( ), 对不同 的车站, 不同的仅是参数 的取值不同。 现对某城市某公共汽车站进行100个单位时间的调查 。这里单位时间是20分钟。计算得到每 20 分钟内来 到该车站的乘客数平均值为 15.2 人。试求参数 的置 信系数为95%的置信区间。 解: n=100, =0.05, z /2=1
6、.96, 将这些结果 代入到 (5) 式, 得 的置信系数为0.95的近似置信区 间为 14.44, 15.96。要对非正态分布的参数进行区间估计, 主要需要哪些条件?1 4参数估计参数估计:样本的样本的概率密度函数概率密度函数P P( (x x, i i) )的的形式形式已知已知,去去推断推断概率密度函数中的概率密度函数中的某些未知的参数某些未知的参数 i i 。非参数估计非参数估计:样本的样本的概率密度函数概率密度函数P P( (x x , i i) )的的形式未形式未知知,去去推断推断概率密度函数概率密度函数。参数估计参数估计的两种类型的两种类型当密度函数的形式未知时,只能用非参数方法。
7、它能处理任意的概率分布。在参数估计中, 密度函数的参数形式是单模的 (单个局部极大值),然而在现实中,所遇到的却常常是多模的情况。基于直方图的概率密度估计就是一种典型的非参数估计最简单的非最简单的非参数估计参数估计基本思想: 设有样本x的概率密度函数为 p(x),则x 落在区域 R 中 的概率为:设 n 个抽取样本为独立同分布样本,其概率密度 函数为 p(x), 则其中 k 个样本落在区域 R 的概率 为:二项式分布(Binomial Distribution)k 的期望值为值为 : E(k) = nPPictire From:http:/en.wikipedia.org/即比值 k/n 就是
8、概率 P 的一个很好的估计. 若概率密度p(x)是连续的,并且区域R足够小,以致于在 这个区间中p 几乎没有变化,那么近似地有:对对概率概率P P,用用最大似然估最大似然估计计计计 ,设设参数向量参数向量为为 = =概率概率P P, 其中其中 x x 为为R R中的中的一个点,一个点, V V 是区域是区域 R R 所包含的体积 从式从式 (1)(1), (3)(3),(4) (4) 可得可得: :由二项式分布的性质得:当 knP 时Pk 最大,所以这种情况毫无意义!区域 R 中含有样本:收收敛敛敛敛条件条件其其实实实实是是 p p( (x x) ) 的空的空间间间间平均平均. .对对对对有限
9、的有限的n n,如果希望得到,如果希望得到 p p( (x x) ),那么要求,那么要求 V V 的的值趋值趋值趋值趋 于于0 0 。这时这时这时这时 会出会出现现现现两种情况:两种情况: 区域区域 R 中不含有任何样样本: :在在这这这这种情况下,估种情况下,估计计计计的的结结结结果就果就变变变变成无成无穷穷穷穷大大: : 也毫无意也毫无意义义义义! !所以要求:n为有限值, V 不能趋于零当下面当下面3 3个条件成立个条件成立时时时时,p pn n( (x x) ) 收收敛敛敛敛到到 p p( (x x) ):有两种经经常采用的满满足以上三种条件的途径:(1) 体积积Vn是N的确定函数,比
10、如 VN = ,来逐渐渐收缩缩一个给给定的初始区间间 “Parzen 窗法”2 4(2) kn 是 N 的一个确定函数, 比如 kN = ,这样体积 VN 就必须逐渐生长,直到最后能包含进 x 的 kN 个相邻点. “K-近邻估计”Parzen 窗法K-近邻估计根据某一个确定的体积函数,比如 ,来逐渐收缩一个给定的初始区间。Parzen 窗方法估计概率密度函数,我们假设区间Vn 是一个 d 维的超立方体其中hn为Vn的边长令窗函数为:如果如果 x xi i落在中心落在中心为为为为 x x 的超立方体的超立方体 V Vn n中,那么中,那么 ( (x-xx-xi i) ) /h/hn n) )
11、1 1,否,否则为则为则为则为 0. 0.将 kn 代入 pn(x) = (kn/n)/Vn , 得:p(x) 的估计pn(x)是一系列关于 x 和 xi (i = 1, ,n) 的函数的平均. 推广:窗函数 可以是满足概率容许条件的任意函数考虑一维 N (0, =1) 正态概率密度函数 令(h1: 随意选取的一个参数) 则:表示Pn(x)就是以各个样本点xi为中心的正态概率密度函数的平均。举例说明如果 n = 10 、h = 0.1, 那么每个样本点各自的贡献 能够清楚的观察到 。数数值计值计 算算结结果果: :如果如果 n = n = 1 1、h h1 1=1=1h1=1h1=0.5h1=
12、0.1在二维情况下有类似的结果:K Nearest Neighbor Density Estimation 在 Parzen窗法中: 体积由 先确定 体积内的点数不确定 在K-近邻估计中: 体积内的点数 kN 先确定 体积再由包含 kN 个最近邻点来确定VN 基本公式仍然为:K-近邻估计如果设 ,随着N增大,KN增 大,所以体积也就增大。如果x点附近密度低,体积增大速度就快; 如果x点附近密度高,体积增大速度就慢。可以克服Pazzen窗对于初值V1的依耐性 基本公式:K-近邻估计假设条件:一个较好的确定kN的方法:K-近邻估计举例用直方图估计概率密度函数,和用 Parzen 窗估计 概率密度函数有什么联系和区别? ?