期末复习讲义(1)带答案

上传人:第*** 文档编号:48886476 上传时间:2018-07-21 格式:PPTX 页数:72 大小:988.25KB
返回 下载 相关 举报
期末复习讲义(1)带答案_第1页
第1页 / 共72页
期末复习讲义(1)带答案_第2页
第2页 / 共72页
期末复习讲义(1)带答案_第3页
第3页 / 共72页
期末复习讲义(1)带答案_第4页
第4页 / 共72页
期末复习讲义(1)带答案_第5页
第5页 / 共72页
点击查看更多>>
资源描述

《期末复习讲义(1)带答案》由会员分享,可在线阅读,更多相关《期末复习讲义(1)带答案(72页珍藏版)》请在金锄头文库上搜索。

1、第二章 数值型变量的描述统计:图示 法9. 累积相对频数线图和形状 P20分布的形状(对称钟形、左偏和右偏)和累积相对频数线图之间是有对应关系的 ,也就是说,我们可以通过观察累积相对频数线图的形状来判断分布的形状。ABC上图给出了三组数据的累积相对频数线图。A的累积速度一开始比较快,后来 比较慢,所以A的分布是右偏的;B的累积速度开始比较慢,后来比较快,最后 又比较慢,所以B的分布是对称的;C的累积速度一开始比较慢,后来比较快, 所以C的分布是左偏的。ABC补例:1.扔一个均匀的骰子12次,记录点数6出现的次数。这样的工作重复 200次,12次中点数6出现次数的分布是下面哪个? 答案:A第三章

2、:数值型数据的概括性度量5. 比较均值和中位数来看分布的形状 P27众数、均值和中位数的近似关系:左偏右偏对称钟形一般情况下,均值大于中位数,数据呈现右偏分布;均值小于中位数,数据呈 现左偏分布。答案:A第四章:数据的收集:观测研究和实验4.2.2抽样调查样调查 P41抽样调查是最被人熟知的、最常见的调查方式。有句谚语说:“你不必吃完整头牛 ,才知道肉是老的。”这就是抽样的精髓:从总体中检查一部分来得知总体。 所以相对于普查来说,抽样调查更具有可操作性,相比之下有如下优点: (1)抽样调查比普查更节约费用。特别是当总体非常大的时候,这个特点尤为突 出。 (2)抽样调查比普查更节省时间。普查的历

3、时一般都很长,抽样调查整理数据的工 作量比较小。 (3)一些项目天生不能使用普查。例如某电视节目的收视率,没法取得总体;检测 葡萄酒是不是已经到了可罐装销售的时间,不可能把所有葡萄酒都测试一遍。 抽样的样本容量越大,样本对总体的代表性也就越好,这和总体的大小无关。例如 从大小为10000的总体中抽一个样本容量为500的样本和从大小为1000000的总体中抽 一个样本容量为500的样本,这两个样本对各自总体的代表性是相同的。抽样调查分为两类,一类是使用概率原则的,这种叫做概率抽样(probability sampling)或随机抽样(random sampling);另一类叫做非随机抽样(non

4、- random sampling)4.2.2.1随机抽样样 所谓随机抽样就是在抽样中使用概率原则,也就是抽样时保证总体的每一个个体 都要有被抽中的可能。每个个体被抽中的概率是已知的,或是可以计算出来的。 随机抽样主要有如下几种: 1. 简单随机抽样 简单随机抽样(Simple random sampling)是最常见、最重要的随机抽样方法,使 用这种方法抽出来的样本叫做简单随机样本(SRS),以后推断总体使用的样本 就是这种样本。 具体的做法是,从总体的N个个体(元素)中随机地抽取n个个体作为样本,使得 总体中每一个元素都有相同的概率被抽中。所以简单随机抽样也叫等概率抽样。 简单随机抽样的具

5、体操作过程有三种: (1)帽子抽签法 把每个个体都编号,把号码写在大小相同的纸片上,把所有的纸片放到一个箱子 里充分混合均匀,然后抽取相应数量的纸片即可。但是这种方法存在操作上的难 度,即如何才能知道纸片已经充分混合均匀了。所以在实际工作中不采用这种方 法。 (2)随机数表法 把每个个体编号以后在随机数表上顺序数出研究者想要的样本容量。重复的只计 算一次,超出范围的忽略。(3)计算机产生随机数法 还有一种办法就是使用计算机产生随机数,例如需要从大小为1000的总体中抽一个样 本,在EXCEL中使用randbetween函数即可。 简单随机抽样的特点就是简单、直观。用样本统计量对目标量进行估计比

6、较方便。但 它也有一定的局限性,表现在抽出的单位很分散,给实施调查增加了困难。没有利用 其他辅助信息以提高估计的效率。补例:1.如果我们想从全校3000名学生中,使用简单随机抽样的方式抽取300 名学生作为一个样本,请描述这种抽样方式。答:使用随机数表法。给所以学生编号0001-3000,使用随机数表4位一取取 出300个四位随机数代表300名学生,重复的只取一次,超出范围的忽略。也可以使用计算机产生随机数法。从大小为3000的总体中抽一个容量为 300的样本,在EXCEL中使用randbetween函数即可。2. 分层抽样 P42分层抽样就是将总体单位按某种特征或某种规则划分为不同的层,然后

7、从不同 的层中独立、随机地抽取样本。分好的层具有同类性。分层的规则一般是按照 对抽样结果有影响的变量来分。 例如要调查不同年龄的人对保健品的看法,答案可能随着年龄的不同而不同, 这时我们可以根据年龄来分层,然后从不同年龄段独立随机地抽取一些个体组 成样本进行调查。这样抽出来的样本包含所有年龄的人,并且不同年龄的人对 保健品的看法是不同的。 如果使用简单随机抽样,有可能抽出的样本里都是年轻人或是老年人,这样就 和总体差别过大了。 所以分层抽样的优点就是它能保证样本的结构与总体的结构比较相近,从而提 高估计的精度;并且这种方式组织实施调查方便,既可以对总体参数进行估计 ,也可以对各层的目标量进行估

8、计。 如果我们事先知道总体的结构(各个年龄段的人的比例),我们就可以使得在 分层抽样时每个层里抽出的个体占样本容量的比例和该年龄段占总体的比例一 样,这时候我们把它叫做比例抽样。4.3.1 实验实验 中的几个概念 P456. 处理 处理是指可控制的因素的各个水平,大多数实验的目的是为了比较和估计不同的 处理对因变量的影响。7. 实验单元 为了收集实验数据,需要将实验对象(人、汽车、动物)赋予不同的处理,这些 实验对象称为实验单元。补例:1.农业部门的专家研究一个制止鸟儿破坏庄稼的办法,可行环保的方 案是使用大蒜油,使用八哥作为实验对象,每组8只,每只八哥都在 单独的鸟笼里。现在把玉米分成5组,

9、每组的大蒜油含量分别为0%、 2%、10%、25%和50%。实验人员观测这些玉米的食用情况。对于这个实验,请你定义:实验的处理 答:给玉米粒里放大蒜油。实验单元 答:八哥。所要测量的结果 答:每组八哥吃了多少玉米粒。第五章 概率论和概率分布10. 独立事件 P58两个事件A和B是 独立的,当且仅当:(1) ,或者等价地, (2) 也就是说,如果事件A和B独立,有:补例:1. 调查者想研究习惯用右手或习惯用左手(左撇子)和智商的关系, 调查了2000个高中生,结果如下:任意选择一位普通智商被调查者,他习惯用右手的概率是多少?在上述的调查中,“被调查者是高智商”和“习惯左手”之间独立吗 ?5.3随

10、机变量的均值(期望) P655.4两个随机变量相加或相减的期望和方差 P67补例:1. 若X服从均值为100,标准差为20的正态分布。Y服从均值为200,标 准差为30的正态分布。且X和Y独立。Y-X服从什么分布?P(YX)=? (只列公式即可)5.5 概率分布的模拟 P67概率分布的模拟是指利用随机数表对离散随机变量的分布进行模拟,连续随机 变量的分布无法模拟。补例:1. 模拟扔4个均匀的硬币,观察其中正面向上的个数的过程中,如何 使用随机数?答:用“0”表示0个正面向上,“1,2,3,4”表示1个正面向上, “5,6,7,8,9,10”表示2个正面向上,“11,12,13,14”表示3个正

11、面向上, “15”表示4个正面向上。“16,17,18,19”忽略。第七章 抽样分布7.3 样本均值的抽样分布和中心极限定理 P951.样本均值的抽样分布2.中心极限定理7.3 样本均值的抽样分布 P95补例:1.扔一枚均匀的骰子,扔出来点数的均值为3.5、标准差为1.708。如果 这个骰子扔5次,那么扔5次的点数的均值和标准差各是多少?A 均值=3.5 标准差= 0.3416 B 均值=3.5 标准差= 0.7639 C 均值=17.5 标准差= 0.3416 D 均值=17.5 标准差= 0.7639答案:B7.6 两个相互独立的样本比例之差的抽样分布 P98在实际问题中,我们也会遇到比较

12、两个比例的问题。例如,比较两个地区贫困 人口比例的大小,比较两个地区新生婴儿性别比的大小等。我们需要研究比较 两个总体的比例之差。补例:1.要检验男生跟女生去逛街比例的异同,我们应该使用什么样的检验 ?A 一个比例的Z检验 B 一个样本均值的Z检验 C 两个比例的Z检验 D 两个样本均值的Z检验答案:C第八章 参数估计8.1.3 点估计计和区间间估计计 P1031. 点估计 点估计(point estimation)是指用样本估计量的某个取值直接作为总体参数的估计 值,是对总体参数给出的一个估计的数值。例如,用样本均值直接作为总体均值的 估计;用两个样本均值之差直接作为总体均值之差的估计等。

13、由于抽样时一般仅仅抽取一个样本,并且用该样本的这个估计量的实现来估计对应 的参数,这个估计量所对应的估计值很可能不同于总体真值。人们并不知道这个估 计值和要估计的参数差多少,一个具体的点估计值无法给出估计的可靠性的度量。 2. 区间估计 点估计只是一个数值,上面讲到它无法给出估计的可靠性的度量。所以有时更有用 的信息是得到包含总体未知参数真实值的一个区间。 第二种估计未知参数的方法就是区间估计(interval estimation),又叫置信区间( confidence interval),就是在点估计附近构造的一个区间。区间估计给出了估计者 认为比较可能或确信的一个包含总体参数的范围,而且

14、比点估计更留有余地。例如 ,一个人谈到他的体重时,他不大可能会精确地说“61.24千克”,而更可能会说 “61千克左右”或者“在6162千克之间”。3. 置信区间对于大多数总体参数,置信区间是用如下方法找到的:第一、找到一个样本统计量, 如样本均值或样本比例;第二,从样本计算抽样误差,用k倍样本统计量抽样分布的 标准差来表示;第三、用样本统计量加减抽样误差得到置信区间的两个端点,称为区 间的置信下限(confidence lower limit)和置信上限(confidence upper limit)。通过 这三步得到的区间就是置信区间,估计者认为该区间能够包含总体参数的真实值。 置信区间的

15、一般公式为:(统计量-抽样误差,统计量+抽样误差) 因为统计学家有某种程度的信心认为构造的区间会包含真正的固定的总体参数的值, 所以叫它置信区间。计算总体均值的置信区间是基于所谓的置信水平或置信度( confidence level)的,置信度是一个百分比(例如95%或99%)。直观地看,这个就是 信心的程度。 为了更好的理解这个区间,我们必须意识到,当实际抽取样本时,我们不可能抽取所 有样本容量为n的可能样本,我们只是观察到大量可能样本中特别的一个。因此,我 们也只是得到了许多可能得到的置信区间中特定的一个。例如实际抽取5袋巧克力的 样本的样本均值为 g,所以 的95%的置信区间就是 = = 30.6,32.0。由于我们并 不知道 的真实值,因此不能确定 是否被包含在这个区间里。但是有95%的信心认为 是被包含在这个区间里。也就是说,我们希望区间30.6,32.0是所有95%的包含 的区 间中的一个,而不是所有5%的不包含 的区间中的一个。这里的95%就是置信水平。 置信区间的解释:有95%的信心认为 会在30.6g32.0g之间。答案:A4. 置信区间的宽度:误差幅度 P107 宽度就是估计的精

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号