《非参数统计课件精华版》由会员分享,可在线阅读,更多相关《非参数统计课件精华版(50页珍藏版)》请在金锄头文库上搜索。
1、非参数非参数统计目目 录第一章第一章绪论第二章第二章 S-Plus基基础第三章第三章单一一样本的推断本的推断问题第四章两第四章两样本位置和尺度本位置和尺度检验第五章多第五章多总体的体的统计检验第六章分第六章分类数据的关数据的关联分析分析第七章秩相关分析和秩回第七章秩相关分析和秩回归第一章第一章绪 论主要内容主要内容1. 统计的的实践践2. 非参数非参数统计方法方法简介介 3. 参数参数统计过程与非参数程与非参数统计的比的比较4. 非参数非参数统计的的历史史5. 必要的准必要的准备知知识1. 统计的的实践践我我们周周围的世界的世界符号和数据就是整个世界。符号和数据就是整个世界。数据繁衍,信息数据
2、繁衍,信息匮乏:乏:观察数据激增,察数据激增,设计数据数据细分。分。数据的复数据的复杂性和不确定性的特点更性和不确定性的特点更为突出。突出。数据分析方法和手段不足。数据分析方法和手段不足。统计的方法的方法论就方法就方法论而言,而言,统计分析主要解决两方面的分析主要解决两方面的问题: 寻找数据内部差异中共同的特征。找数据内部差异中共同的特征。 寻找数据之找数据之间本本质的差异。的差异。统计分析的目分析的目标是从数据中是从数据中发现比数据本身更比数据本身更为有用的知有用的知识2. 非参数非参数统计方法方法简介介参数方法参数方法定定义:样本被本被视为从分布族的某个参数族抽取出来的从分布族的某个参数族
3、抽取出来的总体的代表,而未知的体的代表,而未知的仅仅是是总体分布具体的参数体分布具体的参数值,推断推断问题就就转化化为对分布族的若干个未知参数的估分布族的若干个未知参数的估计问题,用,用样本本对这些参数做出估些参数做出估计或者或者进行某种形式行某种形式的假的假设检验,这类推断方法称推断方法称为参数方法参数方法参数方法参数方法。比如:比如:(1)研究保)研究保险公司的索公司的索赔请求数求数时,可能假定索,可能假定索赔请求数来自泊松分布求数来自泊松分布P(a);(2)研究化肥)研究化肥对农作物作物产量的影响效果量的影响效果时,平均意,平均意义之下,每之下,每测量量单元(可能是)元(可能是)产量服从
4、正量服从正态分布分布N(a,b).一个典型的参数一个典型的参数检验过程程1. 总体参数体参数Example: Population Mean2. 假定数据的形假定数据的形态为 Whole Numbers or Fractions Example: Height in Inches (72, 60.5, 54.7)3. 有很有很强的假定的假定Example: 正正态分布分布4. 例子例子: Z Test, t Test, 2 Test一个例子:一个例子:对两组学生进行语法测试,如何比较两组学生的成绩是否存在差异?原始数据原始数据秩秩2530293424251332243032379.514.01
5、2.021.07.59.52.017.57.514.017.524.04433228473140303335182135282226.019.55.51.027.016.025.014.019.522.53.04.022.511.05.5非参数非参数检验过程程1.不涉及不涉及总体的分布体的分布Example: Probability Distributions, Independence2. 数据的形数据的形态各异各异定量数据定量数据定序数据定序数据Example: Good-Better-Best名名义数据数据Example: Male-Female3.例子例子: Wilcoxon Rank
6、 Sum Test/Run TestF, F, F, F, F, F, F, F, M, M, M, M, M, M, MF, M, F, M, F, M, F, M, F, M, F, M, F, M, F3. 参数参数统计与非参数与非参数统计比比较对总体假定体假定较少,有广泛的适用少,有广泛的适用性,性,结果果稳定性定性较好。好。1. 假定假定较少少2. 不需要不需要对总体参数的假定体参数的假定3. 与参数与参数结果接近果接近针对几乎所有几乎所有类型的数据形型的数据形态。容易容易计算算在在计算机盛行之前就已算机盛行之前就已经发展起来。展起来。非参数检验的优点1. 可能会浪可能会浪费一些信息
7、一些信息特特别当数据可以使用参数模型的当数据可以使用参数模型的时候。候。2. 大大样本手算相当麻本手算相当麻烦3. 一些表不易得到一些表不易得到非参数检验的弱点本学期内容本学期内容结构体系构体系非参数统计的主要内容内容内容非参数非参数检验相相应的参数的参数检验2独立样本中位数检验秩和检验独立样本t检验2 配对样本/单一样本符号检验Wilcoxon 检验成对样本 t-检验2独立样本Kruskal-Wallis 检验单一因素ANOVA两因素Friedman检验双因素ANOVA相关性检验Spearman秩相关Pearson相关性检验 分布的检验Kolmogorov-Smirnov4. 非参数非参数统
8、计的的历史史非参数非参数统计的的历史史非参数非参数统计的形成主要的形成主要归功于功于20世世纪40年代年代50年代化学家年代化学家F.Wilcoxon等人的工作。等人的工作。Wilcoxon于于1945年提出两年提出两样本秩和本秩和检验,1947年年Mann和和Whitney二人将二人将结果推广到两果推广到两组样本量不等的一般情况;本量不等的一般情况;Pitman于于1948年回答了非参数年回答了非参数统计方法相方法相对于参数方法来于参数方法来说的相的相对效率方面的效率方面的问题;非参数非参数统计的的历史(史(续)60年代中后期,年代中后期,Cox和和Ferguson最早将非参数方法最早将非参
9、数方法应用于生存分析。用于生存分析。70年代到年代到80年代,非参数年代,非参数统计借助借助计算机技算机技术和大量和大量计算算获得更得更稳健的估健的估计和和预测,以,以P.J.Huber以及以及 F.Hampel为代表的代表的统计学家从学家从计算技算技术的的实现角度,角度,为衡量估衡量估计量的量的稳定性提出了新准定性提出了新准则。90年代有关非参数年代有关非参数统计的研究和的研究和应用主要集中在非参用主要集中在非参数回数回归和非参数密度估和非参数密度估计领域,其中域,其中较有代表性的人有代表性的人物是物是Silverman和和J. Fan。 5.必要的准必要的准备知知识(1)假)假设检验(2)
10、渐进相相对效率效率(3)秩)秩检验统计量量(4)U统计量量(1) 假假设检验回回顾问题:( a ) 新引新引进的生的生产过程是否程是否优于旧于旧过程?程? (b)几种不同的肥料哪一种更有效?)几种不同的肥料哪一种更有效? (c)大学生的就)大学生的就业率与城市失率与城市失业率之率之间是否是否存在关系?存在关系?内容内容 (a)假)假设的真正涵的真正涵义和作用和作用 (b)如何)如何选择零假零假设和和备择假假设 (c)检验的的p-值和和显著性水平的作用著性水平的作用 (d)两)两类错误 (e)置信区)置信区间和假和假设检验之之间的关系的关系单边检验和双和双边检验的的p值?例例2:Poisson分
11、布H0: 1 H1:按照假设检验的步骤,可以选取统计量为检验统计量,检验的目的是使得C=5C=7同同样显著性水平之下的著性水平之下的检验在在不同不同样本量下的本量下的势函数函数0.9901263 0.9997043(2)检验的相的相对效率效率渐进效率的概念效率的概念分位数和非参数置信区分位数和非参数置信区间秩秩检验统计量量无无结点秩的定点秩的定义例例题:某学院本科三年:某学院本科三年级有有9个个专业组成,成,统计每个每个专业学学生每月消生每月消费数据如下,用数据如下,用S-Plus求消求消费数据的秩和数据的秩和顺序序统计量的量的现值: 300 230 208 580 690 200 263 215 520 2.有有结数据的秩数据的秩设样本本取自取自总体体X的的简单随随机抽机抽样,将数据排序后,将数据排序后,相同的数据点相同的数据点组成一成一个个“结”,称重复数据的个数,称重复数据的个数为结长。例例1:3.8 3.2 1.2 1.2 3.4 3.2 3.23.8 3.2 1.2 1.2 3.4 3.2 3.2解:解:结长为3 3。U统计量量核的概念核的概念例:例:总体期望有无偏估体期望有无偏估计X1,总体期望是体期望是1可估的,可估的, X1是是总体期望的核。体期望的核。对称核和称核和U统计量的概念量的概念U统计量的特征量的特征计算算U统计量的大量的大样本性本性质U统计量量举例例