{品质管理抽样检验}概率与统计随机抽样用样本估计总体变量间的相互

上传人:冯** 文档编号:139834583 上传时间:2020-07-24 格式:PPTX 页数:80 大小:267.79KB
返回 下载 相关 举报
{品质管理抽样检验}概率与统计随机抽样用样本估计总体变量间的相互_第1页
第1页 / 共80页
{品质管理抽样检验}概率与统计随机抽样用样本估计总体变量间的相互_第2页
第2页 / 共80页
{品质管理抽样检验}概率与统计随机抽样用样本估计总体变量间的相互_第3页
第3页 / 共80页
{品质管理抽样检验}概率与统计随机抽样用样本估计总体变量间的相互_第4页
第4页 / 共80页
{品质管理抽样检验}概率与统计随机抽样用样本估计总体变量间的相互_第5页
第5页 / 共80页
点击查看更多>>
资源描述

《{品质管理抽样检验}概率与统计随机抽样用样本估计总体变量间的相互》由会员分享,可在线阅读,更多相关《{品质管理抽样检验}概率与统计随机抽样用样本估计总体变量间的相互(80页珍藏版)》请在金锄头文库上搜索。

1、第十模块 概率与统计 第四十八讲 随机抽样用样本估计 总体变量间的相互关系统计案例,回归课本,1.样本及抽样的定义 (1)在数理统计中称研究对象的全体为总体,组成总体的每一个基本单元为个体,从总体中抽取若干个个体x1,x2,xn,这样的n个个体x1,x2,xn称为大小为n(容量为n)的一个样本. (2)抽样:抽样是为了获取总体的信息,特别在客观实际中对总体的全部个体逐一进行研究,有的是不适宜不可能或不必要的.因此,抽样调查是获取总体信息的重要方法.,2.随机抽样 (1)简单随机抽样:从一个总体中通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,这样的抽样称为简单随机抽样

2、.这样抽出的样本称为简单随机样本.简单随机抽样的基本方法有抽签法和随机数表法.,(2)系统抽样:系统抽样被称为等距抽样或机械抽样.它按照时间或空间的等距间隔抽取样本,即将总体分成几个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样称为系统抽样.系统抽样与简单随机抽样的联系在于:将总体均分后的每一部分进行抽样时,采用的是简单随机抽样.,(3)分层抽样:当总体中一部分个体与另一部分个体有明显的差异且易于区别时,常将相近的个体归成一组,然后按照各部分所占的比例进行抽样,这种抽样称为分层抽样.其中所分成的各部分称为层.分层抽样时,每一个个体被抽到的概率都是相等的.,3.

3、频率分布表频率分布直方图与茎叶图 (1)频率分布 样本中所有数据(或者数据组)的频数和样本容量的比,就是该数据的频率.所有数据(或者数据组)的频率的分布变化规律叫做频率分布,可以用频率分布表频率分布直方图频率分布折线图茎叶图等来表示. (2)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.,(3)总体密度曲线 如果样本容量不断增大,分组的组距不断缩小,则频率分布直方图实际上越来越接近于总体在各小组内所取值的个数与总数比值的大小,它可以用一光滑曲线来描绘,这条光滑曲线就叫做总体密度曲线. (4)茎叶图表示数据有两个突出的优点,其一是统计图上没有原始数据的损失,所有

4、信息都可以从这个茎叶图中得到,其二是在比赛时随时记录,方便记录与表示.,4.用样本的数字特征估计总体的数字特征 (1)众数,中位数,平均数 在一组数据中,出现次数最多的数据叫做这组数据的众数. 将一组数据按大小依次排列,把处在中间位置的一个数据(或中间两个数据的平均数)叫做这组数据的中位数.,如果n个数,x1,x2,xn,那么 (x1+x2+xn)叫做这n个数的平均数. 总体中所有个体的平均数叫做总体平均数. 样本中所有个体的平均数叫做样本平均数,如果在n个数据中,x1出现了f1次,x2出现f2次,xk出现fk次(这里f1+f2+fk=n),那么 (x1f1+x2f2+xkfk),叫做这n个数

5、的加权平均数.,5.两个变量的相关关系 (1)当自变量的取值一定时,因变量的取值带有随机性,这两个变量之间的关系叫做相关关系. 如果一个变量的值由小变大时,另一个变量的值也在由小到大,这种相关称为正相关;反之,如果一个变量的值由小变大时,另一个变量的值在由大到小,这种关系称为负相关.变量间的这种关系与函数关系不同,它是一种非确定关系.,(2)散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图.,6.回归直线方程 (1)一般地,设x和y是具有相关关系的两个变量,且对应于n个观测值的n个点大致分布在一条直线的附近,若所求的直线方程为,我们将这个方程叫做回归直线方程,a,b叫做回归系数,相

6、应的直线叫做回归直线. (2)最小二乘法 使离差平方和Q=(y1-bx1-a)2+(y2-bx2-a)2+(yn-bxn-a)2为最小的方法,叫做最小二乘法.,7.回归分析 (1)回归直线方程 =bx+a中, 上述方程对应的直线叫做回归直线,而对两个变量所进行的上述统计分析叫做线性回归分析. 相关系数,用相关系数来描述线性相关关系的强弱.当r0时,两个变量正相关;当r0时,两个变量负相关,r的绝对值越接近1,表明两个变量的线性相关性越强,r的绝对值接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|大于r0.05时,认为两个变量有很强的线性相关关系,因而求回归直线方程才有意义.,数据

7、点和它在回归直线上相应位置的差异(y1- i)是随机误差效应,称 i=yi- i为残差,将所得值平方后加起来,用数学符号表示为 (yi- i)2称为残差平方和,它代表了随机误差的效应.,8.独立性检验 (1)分类变量的定义 如果某种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.,(2)22列联表 一般地,假设有两个分类变量X和Y,它们的值域分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为,K2= 用它的大小可以决定是否拒绝原来的统计假设H0,如果K2值较大,就拒绝H0,即拒绝事件A与B无关.,考点陪练,1.(2010重庆)某单位有职工750人,其中青年职工

8、350人,中年职工250人,老年职工150人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本.若样本中的青年职工为7人,则样本容量为( ) A.7 B.15 C.25 D.35 解析:设样本容量为n,则依题意有 n=7,n=15,选B. 答案:B,2.(2010湖北)将参加夏令营的600名学生编号为:001,002,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300的第营区,从301到495在第营区,从496到600在第营区,三个营区被抽中的人数依次为( ) A.26,16,8 B.25,17,8 C.25,1

9、6,9 D.24,17,9,解析:依题意及系统抽样的意义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k(kN*)组抽中的号码是3+12(k-1).令3+12(k-1)300,得k ,因此第营区被抽中的人数是25;令3003+12(k-1)495得 k42,因此第营区被抽中的人数是42-25=17.结合各选项知,选B. 答案:B,3.(2010山东)在某项体育比赛中,七位裁判为一选手打出的分数如下: 90 89 90 95 93 94 93 去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为( ) A.92,2 B.92,2.8 C.93,2 D.93,2.8,解

10、析:去掉一个最高分95分与一个最低分89分后,所得的5个数分别为9090939493, 所以 故选B. 答案:B,4.(2010福建)若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( ) A.91.5和91.5 B.91.5和92 C.91和91.5 D.92和92,解析:中位数为 (91+92)=91.5;平均数为 (87+89+90+91+92+93+94+96)=91.5. 答案:A,5.(2010湖南)某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是( ) A. =-10 x+200 B. =10 x+200 C. =-10 x

11、-200 D. =10 x-200 解析:由图象知选项BD为正相关,选项C不符合实际意义,故选A. 答案:A,类型一抽样方法的综合应用 解题准备:1.简单随机抽样:抽签法:搅拌均匀后逐一抽取. 随机数表法:注意编号的灵活性,如对100个个体可用00,01,01,02,99来编号. 2.系统抽样:对多余个体的剔除不影响总体中每个个体被抽到的等可能性,仍然能保证抽样的公平性.例如从1002个体中利用系统抽样抽取容量为20的样本,剔除2个个体后,每个个体被抽到的可能性仍为,3.分层抽样:当总体中个体差异较大时,往往采用分层抽样的方法,若有某些层面应抽取的个体数目不是整数时,可作适当的细微调整.,【典

12、例1】 为了考察某校的教学水平,将抽查这个学校高三年级的部分学生本年度的考试成绩.为了全面反映实际情况,采取以下三种方式进行抽查(已知该校高三年级共有20个班,并且每个班内的学生已经按随机方式编好了学号,假定该校每班学生的人数相同):从高三年级20个班中任意抽取一个班,再从该班中任意抽取20名学生,考察他们的学习成绩;每个班抽取1人,共计20人,考察这20名学生的成绩;,把学生按成绩分成优秀、良好、普通三个级别,从其中共抽取100名学生进行考察(已知该校高三学生共1000人,若按成绩分,其中优秀生共150人,良好生共600人,普通生共250人).根据上面的叙述,试回答下列问题:(1)上面三种抽

13、取方式的总体、个体、样本分别是什么?每一种抽取方式抽取的样本中,样本容量分别是多少?(2)上面三种抽取方式各自采用的是何种抽取样本的方法?(3)试分别写出上面三种抽取方式各自抽取样本的步骤.,分析 本题主要考查基本概念和三种抽样方法的联系与区别,准确把握三种抽样方法的概念与特点是解此题的关键;另外要注意叙述的完整性和条理性. 解 (1)这三种抽取方式的总体都是指该校高三全体学生本年度的考试成绩,个体都是指高三年级每个学生本年度的考试成绩.其中第一种抽取方式的样本为所抽取的20名学生本年度的考试成绩,样本容量为20;第二种抽取方式的样本为所抽取的20名学生本年度的考试成绩,样本容量为20;第三种

14、抽取方式的样本为所抽取的100名学生本年度的考试成绩,样本容量为100.,(2)三种抽取方式中,第一种采用的是简单随机抽样法;第二种采用的是系统抽样法和简单随机抽样法;第三种采用的是分层抽样法和简单随机抽样法. (3)第一种方式抽样的步骤如下:第一步,用抽签法在这20个班中任意抽取一个班;第二步,从这个班中按学号用随机数表法或抽签法抽取20名学生,考察其考试成绩. 第二种方式抽样的步骤如下:第一步,用简单随机抽样法从第一个班中任意抽取一名学生,记其学号为a;第二步,在其余的19个班中,选取学号为a的学生,加上第一个班的一名学生,共计20人.,第三种方式抽样的步骤如下:第一步,分层.因为若按成绩

15、分,其中优秀生共150人,良好生共600人,普通生共250人,所以在抽取样本时,应该把全体学生分成三个层次;第二步,确定各个层次抽取的人数.因为样本容量与总体的个数之比为100:1000=1:10,所以在每个层次中抽取的个体数依次为 即15,60,25;第三步,按层次分别抽取.在优秀生中用简单随机抽样法抽15人;在良好生中用简单随机抽样法抽取60人;在普通生中用简单随机抽样法抽取25人.,类型二频率分布直方图和茎叶图 解题准备:1.作频率分布直方图的步骤: (1)求极差,即一组数据中最大值和最小值的差. (2)决定组距与组数.将数据分组时,组数应力求合适,以使数据的分布规律能较清楚的呈现出来.

16、这时应注意:一般样本容量越大,所分组数越多;为方便起见,组距的选择应力求“取整”;当样本容量不超过100时,按照数据的多少,通常分成512组.,(3)将数据分组. (4)计算各小组的频率,作频率分布表.各小组的频率 (5)画频率分布直方图.,2.茎叶图的制作步骤如下: (1)将所有两位数的十位数字作为“茎”,茎按从小到大顺序排列,茎相同者共用一个茎,再画上竖线作为分界线. (2)在分界线的一侧对应“茎”处,记录下“叶”个位数字,一般共茎的叶按从小到大(或从大到小)的顺序同行列出.,【典例2】 为了解某校初中毕业男生的体能状况,从该校初中毕业班学生中抽取若干名男生进行铅球测试,把所得数据(精确到0.1米)进行整理后,分成6组画出频率分布直方图的一部分(如下图),已知从左到右前5个小组的频率分布为0.04,0.10,0.14,0.28,0.30.第6小组的频数是7.,(1)请将频率分布直方图补充完整;,(2)该校参加这

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 企业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号