社会统计学张彦第七章节

上传人:E**** 文档编号:91088970 上传时间:2019-06-21 格式:PPT 页数:50 大小:725KB
返回 下载 相关 举报
社会统计学张彦第七章节_第1页
第1页 / 共50页
社会统计学张彦第七章节_第2页
第2页 / 共50页
社会统计学张彦第七章节_第3页
第3页 / 共50页
社会统计学张彦第七章节_第4页
第4页 / 共50页
社会统计学张彦第七章节_第5页
第5页 / 共50页
点击查看更多>>
资源描述

《社会统计学张彦第七章节》由会员分享,可在线阅读,更多相关《社会统计学张彦第七章节(50页珍藏版)》请在金锄头文库上搜索。

1、第七章 假设检验,我们在第一章就已经知道,推论统计有两个基本 内容:假设检验;参数估计。有了概率和概率分 布的知识,接下来我们要逐步掌握统计检验的一般步 骤。既然按照数学规则得到的概率都不能用经验方法 准确求得,于是,理论概率和经验得到的频率之间肯 定存在某种差别,这就引出了实践检验理论的问题。 随机变量的取值状态不同,其概率分布的形式也就不 同。本章我们不仅要引出二项分布和正态分布这两个 著名的概率分布,并且要将它们与抽样调查联系起 来,以领会统计检验,并逐步拓宽其应用面。,第一节 二项分布,二项分布是从著名的贝努里试验中推导而来。所谓 贝努里试验,是指只有两种可能结果的随机试验。在实际 问

2、题中,有许多随机现象只包含两个结果,如男与女,是 与非,生与死,同意与不同意,赞成与反对等等。通常, 我们把其中比较关注那个结果称为“成功”,另一个结果则 称为“失败”。每当情况如同贝努里试验,是在相同的条件 下重复n次,考虑的是“成功”的概率,且各次试验相互独 立,就可利用与二项分布有关的统计检验。虽然许多分布 较之二项分布更实用,但二项分布简单明了,况且其他概 率分布的使用和计算逻辑与之相同。所以要理解统计检验 以及它所涉及的许多新概念,人们几乎都乐意从二项分布 的讨论入手。,1. 二项分布的数学形式 从掷硬币的试验入手。假定二项试验由重复抛掷n次 硬币组成,已知硬币面朝上(成功)的概率是

3、p,面朝下(失 败)的概率是q (显然有 q1p)。这样,对试验结果而 言,成功的次数(即硬币面朝上的次数)X是一个离散型 随机变量,它的可能取值是0,1,2,3,n。而对X的 一个具体取值x而言,根据乘法规则,我们立刻可以就试 验结果计算出一种特定排列方式(先x次面朝上,而后nx 次面朝下)实现的概率,即 ppppqqqqpxqn-x,由于正确解决概率问题,光考虑乘法规则是 不够的,还要考虑加法规则,于是就x次成功和 (nx)次失败这个宏观结果而言所包含的所有 排列的方式数,用符号表示 这样,我们就得到了二项试验中随机变量X的 概率分布,即,譬如,二项试验是将一枚硬币重复做8次抛掷,假设这枚

4、硬币是无偏的,即 pq0.5,那么恰好得到5次面朝上的概率是,同理,我们也可以求出 这个二项试验中硬币刚好为 0,1,2,8次面朝上的 各种宏观结果的概率,全部 写出来就是右表。,2. 二项分布讨论, 二项分布为离散型随机变量的分布。每当试验做的是在相同的条件下n次重复的伯努利试验时,随机变量X共有n+1个取值。二项分布可以用分布律(见上表)和折线图(见右图)来表示。 当P=0.5时二项分 布的图形是对称的。, E(X)=np, D(X)= 2= npq 二项分布受 p 和 n 变化的影响,只要确定了 p和 n,成功次数 X 的分布也随之确定。因此,二项分布还可简写作 B(x; n,p)。 二

5、项分布的概率值除了根据公式直接进行计算外,还可查表求得。二项分布表的编制方法有两种:一种依据概率分布律 P(x) 编制(见附表2);另一种依据分布函数 F(x) 编制(见附表3)。 其中,例 某特定社区人口的10%是少数民族,现随机 抽取6人,问其中恰好2人是少数民族的概率是多少? 解 解法一:根据(7.3)式直接计算 解法二:根据附表2中纵列n6和横行p0.1所 对应x值,可直接查得B(x;6,0.1)的概率值 B (2;6,0.1)00984 解法三:根据附表3求得 B (2;6,0.1)F(2) F(3 ) 0.11430.01590.0984,第二节 统计检验的基本步骤,二项分布是用数

6、学或演绎推理的方法求得的一种理论分布。认识到 概率分布是先验的理论分布这一点很重要,因为我们不禁要问,既然试 验或抽样调查的结果仅与随机变量可能取值中的一个相联系,那么实际 试验或样本调查对结果的概率分布及前提假设有没有一个检验的问题? 具体来讲,对于一枚硬币被重复抛掷8次的二项试验,经验告诉我们,一 共有9种可能的结果,而且实现这些结果的机会是大不相同的。研究者实 际上从来不用经验的方法求得概率分布,因为通常我们只对一项试验进 行一次或几次,抽取样本也是一个或至多不过几个。既然二项分布是按 照数学规则得到的,那么对这9种结果的可能性我们应该作出何种评价呢? 如果实际试验(或抽样)得到的结果偏

7、巧就是先验概率预示的最不可能 出现的结果,那么我们是认定纯属巧合,还是开始对用数学或演绎推理 方法求得的概率以及理想试验的种种前提假设产生怀疑?更准确地说,在 一枚硬币被重复抛掷8次的这个二项试验中,究竟出现什么结果时,我们 应该对二项分布及其前提假设产生怀疑呢?是不是只要不是得到4次成功4 次失败这个最大可能性结果就开始怀疑,还是仅当出现8次成功或一次也 不成功这两个极端情况时才产生怀疑呢?这就是统计检验的核心问题。,大数定理表明:就大量观察而言,事件的发生具有一定的规律性。 根据概率的大小,人们处理的态度和方式很不一样。 在日常生活中,人们往往习惯于把概率很小的事件,当作一次观察中是极不可

8、能看到的事件。例如,人们出门做事就有可能遇到不测事故,但却很少人因此而不敢出门。原因是:小概率事件极不可能发生。,统计检验是指先建立一个关于总体情况的假设, 继而抽取一个随机样本,然后以样本的统计量或者统计性质来检定假设。,统计检验的依据是 小概率原理:一是认为 小概率事件在一次观察 中是极少出现的;二是 如果在一次观察中出现 了小概率事件,那么应 该否定原有事件具有小 概率的说法或者假设。,(1)建立假设,(2)求抽样分布,(4)计算检验统计量,(3)选择显著性水平和否定域,(5)判定,所所 包有 含统 的计 步检 骤验,根据以往多年的统计表明,上海财大英语的平均成绩为90分,随机抽取100

9、个学生,其平均成绩为80分,问今年财大学生的英语成绩是否下降?,1建立假设 统计检验是将抽样结果和抽样分布相对照而作出判 断的工作。取得抽样结果,依据描述性统计的方法就足 够了。抽样分布则不然,它无法从资料中得到,非利用 概率论不可。而不对待概括的总体和使用的抽样程序做 某种必要的假设,这项工作将无法进行。比如通过掷硬 币的实验得到二项分布,必须假设:样本是随机的, 试验中各次抛掷相互独立;硬币是无偏的(或称是诚 实的),即pq0.5。概括地说,必须首先就研究总 体和抽样方案都做出假设,再加上概率论,我们就可以 对各种可能结果做具体的概率陈述了。,2求抽样分布 在做了必要的假设之后,我们就能用

10、数学推理 过程来求抽样分布了。比如在这一章开头,在硬币重 复抛掷n次的理想实验中,我们计算了成功次数为x的 宏观结果所具有的概率,得到二项分布。如果前提假 设变动了,还可以求出其他形式的概率分布,如正态 分布、泊松分布、卡方分布等等,它们都有特定的方 程式。由于数学上已经取得的成果,实际上统计工作 者要做的这项工作往往并不是真的去求抽样分布的数 学形式,而是根据具体需要,确定特定问题的统计检 验应该采用哪种分布的现成的数学用表。,3选择显著性水平和否定域 在统计检验中,那些不大可能的结果称为否定域。 如果这类结果真的发生了,我们将否定假设;反之就不 否定假设。 在统计检验中,通常把被检验的那个

11、假设称为零假 设(用符号H0表示),并用它和其他备择假设(用符号 H1表示)相对比。,零假设与备择假设,否定域,在统计检验中,无论是拒绝或者接受原假设,都不 可能做到百分之百的正确,都有一定的错误。第一类错 误是,零假设H0实际上是正确的,却被否定了。第二类 错误则是,H0实际上是错的,却没有被否定。 遗憾的是,不管我们如何选择否定域,都不可能完 全避免第一类错误和第二类错误,也不可能同时把犯两 类错误的危险压缩到最小。对任何一个给定的检验而 言,第一类错误的危险越小,第二类错误的概率就越 大;反之亦然。一般来讲,不可能具体估计出第二类错 误的概率值。第一类错误则不然,犯第一类错误的概率 是否

12、定域内各种结果的概率之和。,两类错误及其关系,被我们事先选定的可以犯第一类错误的概率, 叫做检验的显著性水平(用表示),它决定了否定 域的大小。因此,有人也把第一类错误称之错 误 。相应地第二类错误被人称为 错误。 在原假设成立的条件下,统计检验中所规定的 小概率标准一般取为=0.05或=0.01。 由所决定的否定域与接受域之间的分界值被 称为临界值, 如Z 。 如果抽样分布是连续的,否定域可以建立在想 要建立的任何水平上,否定域的大小可以和显著性 水平的要求一致起来(后面的正态检验就如此)。 如果抽样分布是非连续的,就要用累计概率的方法 找出一组构成否定域的结果。,显著性水平,根据否定域位置

13、 的不同,可以将假设 检验分为双侧检验和 单侧检验。,在统计中,必须把否定域分配到抽样分布的两端的检验,被称为双侧检验。,在统计中,可以事先能预测偏差方向,因而可以把否定域集中到抽样分布更合适的一端的检验,被称为单侧检验。,双侧检验和单侧检验,奈曼皮尔逊 (NeymanPearson)提出了一个 原则 “在控制犯第一类错误的概率不超过指定值的 条件下, 尽量使犯第二类错误 小”按这种法则做出的 检验称为“显著性检验”, 称为显著性水平或检验 水平。,在同样显著性水平的条件下,单侧检验比双侧检 验更合适。因为否定域被集中到抽样分布更合适的一 侧,这样在犯第一类错误的危险不变的情况下,减少 了犯第

14、二类错误的危险。,4计算检验统计量 在完成了上述工作之后,接下来就是做一次与理想试验 尽量相同的实际抽样(比如实际做一次重复抛掷硬币的试验), 并从获取的样本资料算出检验统计量。检验统计量是关于样本 的一个综合指标,但与我们后面参数估计中将要讨论的统计量 有所不同,它不用作估测,而只用作检验。 5判定 假设检验系指拒绝或保留零假设的判断,又称显著性检 定。在选择否定域并计算检验统计量之后,我们完成最后一道 手续,即根据试验或样本结果决定假设的取与舍。如果结果落 在否定域内,我们将在已知犯第一类错误概率的条件下,否定 零假设。反之,如果结果落在否定域外,则不否定零假设,与 此同时,我们就有了犯第

15、二类错误的危险。,例 若想通过抛掷10次硬币的实验来检验这个硬 币无偏的零假设,通过双侧检验0.10显著性水平,请 指出否定域。如果单侧检验(p0.4),第三节 正态分布,如果说二项分布是离散型随机变量最具典型意义 的概率分布,那么连续型随机变量最具典型意义的概率 分布就是正态分布了。一般地讲,若影响某一变量的随 机因素很多,而每个因素所起的作用不太大且相互独 立,则这个变量服从正态分布。更为重要的是,不论总 体是否服从正态分布,只要样本容量n足够大,样本平 均数的抽样分布就趋于正态分布。 正态分布是最重要的概率分布:(1)许多自然现 象和社会现象,都可用正态分布加以叙述;(2)当样 本足够大

16、时,都可用正态近似法解决变量的概率分布问 题;(3)许多统计量的抽样分布呈正态分布。,1. 正态分布的数学形式,正态分布性质: (1)正态曲线以x=呈钟型对称 均值=中位数=众数 (2)在x=处,概率密度最大;当区间离 越远,x落在这个区间的概率越小。,(3)正态曲线的外形由值确定。对于固定的 值,不同均值的正态曲线的外形完全相同,差别 只在于曲线在横轴方向上整体平移了一个位置 。,(5)E(X)= D(X)= 2,(4)对于固定的 值,改变值, 值越小,正态曲线越 陡峭;值越大,正 态曲线越低平。 (总之,正态分布曲线 的位置是由决定的,而正态 分布曲线的“高、矮、胖、瘦” 由决定的。),一般正态分布的表示,标准正态分布的表示,3. 正态曲线下的面积,但积分毕竟太麻烦了,更何况许多人对积分运算不熟悉,为 此须计算出现成的数值表

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号