非参数课件第2章基本概念

上传人:w****i 文档编号:94486142 上传时间:2019-08-07 格式:PPT 页数:77 大小:2.03MB
返回 下载 相关 举报
非参数课件第2章基本概念_第1页
第1页 / 共77页
非参数课件第2章基本概念_第2页
第2页 / 共77页
非参数课件第2章基本概念_第3页
第3页 / 共77页
非参数课件第2章基本概念_第4页
第4页 / 共77页
非参数课件第2章基本概念_第5页
第5页 / 共77页
点击查看更多>>
资源描述

《非参数课件第2章基本概念》由会员分享,可在线阅读,更多相关《非参数课件第2章基本概念(77页珍藏版)》请在金锄头文库上搜索。

1、,第二章 基本概念,内 容 要 点,绪 论,内 容 要 点,绪 论,2.1 非参数统计概念与产生,参数方法,定义 数据样本是从分布族的某个参数族抽取出来的总体的代表,未知的仅仅是总体分布具体的参数值,这样推断问题就转化为对分布族的若干个未知参数的估计问题,用样本对这些参数做出估计或者进行假设检验以得到数据背后的分布的推断方法称为参数方法。,绪 论,参数方法的实例,(1)研究某种的市场占有率,假定在平均的意义之下,每个消费者是否占有 待研究商品来自两点分布 (2)研究保险公司的索赔请求数时,可能假定索赔请求数来自泊松分布 (3)研究化肥对农作物产量的影响效果时,假定平均意义之下,每测量单元产量服

2、从正态分布 其中x是肥料的用料。,绪 论,非参数方法,不假定总体分布的具体形式,尽量从数据(或样本)本身获得所需要的信息,通过估计而获得分布的结构,并逐步建立对事物的数学描述和统计模型的方法称为非参数方法。,非参数统计的突出特点,(1)非参数统计方法对总体的假定相对较少,效率高,结果一般有较好的稳定性,即不会由于总体分布与数据之间不一致所导致发生大的 结论性错误; (2)非参数统计可以处理所有类型的数据,有广泛的适用性; (3)非参数思想容易理解,计算容易。,非参数统计的弱点,如果人们对总体有充分的了解且足以确定其分布类型,非参数方法就不如参数方法具有更强的针对性,有效性可能会差一些,所以非参

3、数统计并非要取代参数统计,而是作为参数统计的一个有力的补充,符合人类认识问题、解决问题的认知过程。,2.2. 假设检验回顾,基本的假设检验问题,零假设和备择假设,假设检验的3个问题,(1)如何选择零假设和备择假设 (2)检验的p值和显著性水平的作用 检验统计量 的分布必须已知, 概率 称为检验的p值。 (3)两类错误:当零假设为真时拒绝零假设,犯第I类错误;当备择假设为真时接受零假设,犯第II类错误。 传统意义上,一般先给出第I类错误的概率 , 称它为检验的显著性水平。,(1) 假设检验回顾,问题: ( 1 ) 新引进的生产过程是否优于旧过程? (2)几种不同的肥料哪一种更有效? (3)大学生

4、的就业率与城市失业率之间是否存在关系?,U 检验,(2) 检验统计量,(3) 对给定的显著性水平 ,查表得 ;,(4) 由样本值算得 U 的值;,如果 ,则拒绝H0 ;否则, 不能拒绝H0 .,已知时关于 的假设检验,(1),回顾U检验,(1)如何选择零假设和备择假设 (2)检验的p-值和显著性水平 (3)两类错误,思考:,单边检验和双边检验的p值,检验的势,定义2.1 对一般的假设检验问题 : 其中 ,检验统计量为 .拒绝零假设的概率,即样本落入拒绝 域 的概率为检验的势,记为,由定义2.1可知, 当 时,检验的势是犯第I类错误的概率, 一般由显著性水平 控制; 当 时,检验的势是不犯第II

5、类错误的概率, 是检验犯第II类错误的概率。 我们用势函数将两类错误统一在一个函数中, 一个有意义的检验,检验的势函数应该越大越 好,低势的检验说明检验在区分零假设和备择 假设方面的价值不大。,例2.1(P33),指数分布p(x),检验问题,拒绝域,例2.1(P33),容易计算,称这类检验为无偏检验, 上述函数为势函数, 它依赖参数和拒绝域,无偏检验,如果一个检验不犯第II类错误的概率不小于第I 类错误的概率,称这样一类检验为无偏检验。具体定义如下: 定义2.2 设 表示一个检验的拒绝域,对一般的假设检验问题,如果 则称该检验无偏检验。,2.3. 经验分布和分布探索,经验分布,一个随机变量 的

6、分布函数定义为: 对分布函数最直接的估计是应用经验分布函数。 经验分布函数的定义是:当有独立随机样本 时, 定义 这里,定理2.1 令 的分布函数为 为经验分布函数 ,于是下列结论成立: (1) 于是, (2)(Glivenko-Cantelli定理) (3) (Dvoretzky-Kiefer-Wolfowitz(DKW)不等式),生存函数,生存函数是生存分析中的基本概念,它是用分布函数来定义的: 其中,是服从分布 的随机变量。 这里,我们更习惯于用生存函数而不是累积分布,尽管两者给出同样的信息。于是,可以用经验分布函数估计生存函数: 表示寿命超过t的数据占的比例。,危险函数,危险函数是另一

7、个生存分析中的重要内容,它表示一个生存时间超过给定时间的个体瞬时死亡率。 如果一个个体在时刻t仍然存活,那么个体在时间范围 死亡的概率为(假设密度函数f在t上是连续的) 危险函数定义为 是一个存活时间超过规定时间的个体瞬时死亡率。如果T是一个产品零件的寿命, 可以解释成零件的瞬时损坏率。,危险函数还可以表示为 上式说明危险函数是对数生成函数斜率的负数。 指数分布: 对数经验生存函数的方差:,2.4. 检验的相对效率,对同一个假设检验问题而言,选择不同的统计量,得到的势函数也不同。一个好的检验应有较大的势,因而通过比较势大小选择较优的检验。然而直接比较势比较困难,转而考虑影响势大小的因素: 总体

8、的真值 检验的显著水平 样本量,(2)检验的相对效率,渐近效率的概念,说明: 效率是一个相对术语,它是用来比较在相同条件下两种检验的样本容量。 设A和B分别表示两种检验,用来检验相同的零假设和备择假设,临界域对应的和相等,B对A的相对效率(或“B相对于A的效率”)定义为na/nb。其中na和nb分别表示A和B的样本量。即: 检验的功效效率nanb100 为达到同样和,检验T1需要n1个样本,T2需要n2个样本,则n1 /n2就是T2 /T1的相对效率(relative efficiency).如固定而让n1 (这时势=1-不断增加),则相应检验的样本量n2也一定要增加(趋于)以保持两个检验的势

9、一样.在一定条件下,相对效率n1 /n2存在极限,这个极限称为T2对T1的渐近相对效率(ARE).,2.5. 分位数和非参数估计,一、顺序统计量 因为非参数方法通常并不假定总体分布。因此,观测值的顺序及性质则作为研究的对象。,1、顺序统计量:对于样本X1,X2,X3,Xn, 如果按照升幂排列,得到 则称统计量 为顺序统计量,其中 为第i个顺序统计量。,2、 基于顺序统计量的统计量 中位数,极差,3、顺序统计量分布函数 设总体的分布函数为F(X),则第r个顺序统计量的分 布函数为,补充:,(4)顺序统计量密度函数,分位数(quantile),一组数据从小到大排序后,每一个数在数据中的序非常重要,

10、给定序,寻找对应的数据,用分布的语言来说,就是找分位数。比如:分布在3/4位置的数称为3/4分位数。中位数是分布在样本中间 位置的数。 不失一般性,对任意分布而言,分布的分位数如下定义 定义2.5 假定 服从概率密度为 的分布,令 , 满足等式 唯一的根 称为分布 的p分位数。,例如:中位数可以定义为 分布的3/4分位数定义为 对连续分布而言,分布的分位数可以简化如下: 定义2.6 假定 服从密度为 的分布,令 满足等式 的唯一的 称为分布 的p分位数。 3.分位数的估计 给定 可以根据 计算任意 分位数的值。,分位数的图形表示,1)箱线胡须图 boxplot graphics Box Plo

11、ts Description Produce box-and-whisker plot(s) of the given (grouped) values. Usage boxplot(x, .) setwd(“C:/data“) X X boxplot(X),计算过程: 1 计算上四分位数,中位数,下四分位数 2 计算上四分位数和下四分位数之间的差值,即四分位数差(IQR,interquartile range) 3 绘制箱线图的上下范围,上限为上四分位数,下限为下四分位数。在箱子内部中位数的位置绘制横线。 4. 异常上下警戒点 :以中位数为中心,加减3/4位置与1/4位置差的1.5倍,1.5

12、倍是经验值,在R软件中可以根据情况调整。如遇最小值或最大值,则以最小值或最大值为限,以 表示上警戒点,以 表示下警戒点,则,5 警戒点以外的数据表示数据主体信息以外的异常点,常用空心点表示,这表示这些点被诊断为异常点。异常值之外,最靠近上边缘和下边缘的两个值处,画横线,作为箱线图的触须。 6 极端异常值,即超出四分位数差3倍距离的异常值,用实心点表示;较为温和的异常值,即处于1.5倍-3倍四分位数差之间的异常值,用空心点表示。 7 为箱线图添加名称,数轴等。 下面是R中的一个箱线图举例 在R软件中输入如下命令: xboxplot(x),Quantile-Quantile Plots qqnor

13、m stats Description qqnorm is a generic function the default method of which produces a normal QQ plot of the values in y. qqline adds a line to a “theoretical”, by default normal, quantile-quantile plot which passes through the probs quantiles, by default the first and third quartiles. qqplot produ

14、ces a QQ plot of two datasets. Graphical parameters may be given as arguments to qqnorm, qqplot and qqline Usage qqnorm(y, .) # Default S3 method:,qqnorm(y, ylim, main = “Normal Q-Q Plot“, xlab = “Theoretical Quantiles“, ylab = “Sample Quantiles“, plot.it = TRUE, datax = FALSE, .) qqline(y, datax =

15、FALSE, distribution = qnorm, probs = c(0.25, 0.75), qtype = 7, .) qqplot(x, y, plot.it = TRUE, xlab = deparse(substitute(x), ylab = deparse(substitute(y), .) Examples require(graphics) y - rt(200, df = 5) qqnorm(y); qqline(y, col = 2) qqplot(y, rt(300, df = 5) qqnorm(precip, ylab = “Precipitation in/yr for 70 US cities“),R语言如何检验一个数据集的分布,R语言如何画QQ图,我们可以用很多方法分析一个单变量数据集的分布。最简单的办法就是直接看数字。 利用函数summary 和fivenum 会得到两个稍稍有点差异的汇总信息。此外,stem(茎叶图)也会反映整个数据集的数字信息。 attach(faithful) summary(eruptions) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.600 2.163 4.000 3.488 4.454 5.100 fivenum(eruptions) 1 1.6000 2.1585

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号