《统计及统计案例PPT课件》由会员分享,可在线阅读,更多相关《统计及统计案例PPT课件(67页珍藏版)》请在金锄头文库上搜索。
1、考点一、三种常用抽样方法考点一、三种常用抽样方法: : (1 1)简单随机抽样:设一个总体的个数为)简单随机抽样:设一个总体的个数为N N。如果通过。如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽个体被抽到的概率相等,就称这样的抽样为简单随机抽样。样。简单随机抽样的常用方法:简单随机抽样的常用方法:抽签法,抽签法,随机数表法随机数表法知识点:知识点:(2 2)系统抽样(也称为机械抽样):当总体的个数较)系统抽样(也称为机械抽样):当总体的个数较多时,采用简单随机抽样较为费事。这时可将总体分
2、多时,采用简单随机抽样较为费事。这时可将总体分成均衡的几个部分,然后按照预先定出的规则,从每成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样一部分抽取一个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样)。叫做系统抽样(也称为机械抽样)。 系统抽样的步骤:系统抽样的步骤: 采用随机的方式将总体中的个体编号;采用随机的方式将总体中的个体编号; 整个的编号分段(即分成几个部分),要确定分段的整个的编号分段(即分成几个部分),要确定分段的间隔间隔k k。当。当N/nN/n(N N为总体中的个体的个数,为总体中的个体的个数,n n为样本容量)为样
3、本容量)是整数时,是整数时,k=N/n;k=N/n;当当N/nN/n不是整数时,通过从总体中剔不是整数时,通过从总体中剔除一些个体使剩下的总体中个体的个数除一些个体使剩下的总体中个体的个数NN能被能被n n整除,整除,这时这时k=N/nk=N/n; 在第一段用简单随机抽样确定起始的个体编号在第一段用简单随机抽样确定起始的个体编号1 1; 按照事先确定的规则抽取样本(通常是将按照事先确定的规则抽取样本(通常是将1 1加上间隔加上间隔k k得到第得到第2 2个编号个编号1+k,1+k,第第3 3个编号个编号1+2k1+2k,这样继续下去,直,这样继续下去,直到获取整个样本)。到获取整个样本)。 (
4、3)(3)分层抽样:当已知总体由差异明显的几部分组成时,分层抽样:当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几为了使样本更充分地反映总体的情况,常将总体分成几个部分,然后按照各部分所占的比例进行抽样,这种抽个部分,然后按照各部分所占的比例进行抽样,这种抽样叫做样叫做“分层抽样分层抽样”,其中所分成的各部分叫做,其中所分成的各部分叫做“层层”。各种抽样方法的联系与区别:各种抽样方法的联系与区别:类别类别类别类别共同点共同点共同点共同点各自特点各自特点各自特点各自特点相互联系相互联系相互联系相互联系适用范围适用范围适用范围适用范围简单随简单随简单随简单随机抽
5、样机抽样机抽样机抽样抽样过程抽样过程抽样过程抽样过程中每个个中每个个中每个个中每个个体被抽取体被抽取体被抽取体被抽取的概率相的概率相的概率相的概率相等等等等从总体中逐从总体中逐从总体中逐从总体中逐个抽取个抽取个抽取个抽取总体中的总体中的总体中的总体中的个体数较个体数较个体数较个体数较少少少少系统抽系统抽系统抽系统抽样样样样将总体分成将总体分成将总体分成将总体分成几部分按事几部分按事几部分按事几部分按事先确定的规先确定的规先确定的规先确定的规则在各部分则在各部分则在各部分则在各部分抽取抽取抽取抽取在起始部在起始部在起始部在起始部分抽样时分抽样时分抽样时分抽样时采用简单采用简单采用简单采用简单随机
6、抽样随机抽样随机抽样随机抽样总体中的总体中的总体中的总体中的个体数较个体数较个体数较个体数较多多多多分层抽分层抽分层抽分层抽样样样样将总体分成将总体分成将总体分成将总体分成几层,分层几层,分层几层,分层几层,分层进行抽取进行抽取进行抽取进行抽取各层抽样各层抽样各层抽样各层抽样时采用简时采用简时采用简时采用简单随机抽单随机抽单随机抽单随机抽样或系统样或系统样或系统样或系统抽样抽样抽样抽样总体由差总体由差总体由差总体由差异明显的异明显的异明显的异明显的几部分组几部分组几部分组几部分组成成成成方法:方法:简单随机抽样简单随机抽样, ,系统抽样系统抽样, ,分层抽样都是不放回抽样分层抽样都是不放回抽样
7、用简单随机抽样从含有用简单随机抽样从含有N N个个体的总体中抽取一个容个个体的总体中抽取一个容量为量为n n的样本时的样本时, ,每次抽取时任一个体被抽到的概率为每次抽取时任一个体被抽到的概率为 在整个抽样过程中各个个体被抽到的概率为在整个抽样过程中各个个体被抽到的概率为 , ,简单随简单随机抽样是一种等概率抽样机抽样是一种等概率抽样. .常用抽签法和随机数表法实常用抽签法和随机数表法实现简单随机抽样现简单随机抽样. .系统抽样又称等距抽样系统抽样又称等距抽样, ,号码序列一确定号码序列一确定, ,样本即确定样本即确定了了. .分层抽样就是按比例抽样分层抽样就是按比例抽样, ,也是等概率抽样也
8、是等概率抽样. . .例例1.某校共有学生某校共有学生2000名名,各年级男、女生人数如下表各年级男、女生人数如下表.已已知在全校学生中随机抽取知在全校学生中随机抽取1名,抽到二年级女生的概率是名,抽到二年级女生的概率是0.19.现用分层抽样的方法在全校抽取现用分层抽样的方法在全校抽取64名学生,则应在三名学生,则应在三年级抽取的学生人数为(年级抽取的学生人数为( )一年级一年级二年级二年级三年级三年级女生女生373xy男生男生377370zC解解:依题意二年级的女生有依题意二年级的女生有380名,名,那么三年级学生的人数应该是那么三年级学生的人数应该是2000-373-377-370-380
9、=500,即在总体中各个年级的人数比例为即在总体中各个年级的人数比例为3 3 2,故在分层抽样中应在三年级抽取的学生人数为故在分层抽样中应在三年级抽取的学生人数为64 =16.名师名师1:考点二、总体分布的估计:考点二、总体分布的估计: 随着试验次数的不断增加随着试验次数的不断增加, ,试验结果的频率值在相应的试验结果的频率值在相应的概率值附近摆动概率值附近摆动. .当试验次数无限增大时当试验次数无限增大时, ,频率值就变频率值就变成相应的概率了成相应的概率了. .此时随着样本容量无限增大其频率分此时随着样本容量无限增大其频率分布也就会排除抽样误差布也就会排除抽样误差, ,精确地反映总体取的概
10、率分布精确地反映总体取的概率分布规律规律, ,通常称为总体分布。通常称为总体分布。1 1、用样本的频率分布去估计总体分布:、用样本的频率分布去估计总体分布: 由于总体分布通常不易知道由于总体分布通常不易知道, ,我们往往用样本的频率分我们往往用样本的频率分布去估计总体分布布去估计总体分布, ,一般地一般地, ,样本容量越大样本容量越大, ,估计越精确估计越精确. . 总体分布的估计总体分布的估计: : (1)(1)频率分布表频率分布表; ;分组分组分组分组频数频数频数频数频率频率频率频率00,0.5)0.5)4 40.040.040.50.5,1)1)8 80.080.0811,1.5)1.5
11、)15150.150.151.51.5,2)2)22220.220.2222,2.5)2.5)25250.250.252.52.5,3)3)14140.140.1433,3.5)3.5)6 60.060.063.53.5,4)4)4 40.040.0444,4.5)4.5)2 20.020.02合计合计合计合计1001001.001.00(2)(2)频率分布直方图;频率分布直方图;(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值;(2)平均数:平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和;(3)众数:在频率分布
12、直方图中,众数是最高的矩形的中点的横坐标.频率分布直方图;频率分布直方图;在频率分布直方图中在频率分布直方图中(1)中位数中位数: 中位数左边和右边的直方图的面积应该相等中位数左边和右边的直方图的面积应该相等.(2)平均数平均数: 每个小矩形的面积乘以小矩形底边中点的横坐标之和每个小矩形的面积乘以小矩形底边中点的横坐标之和;(3)众数众数: 众数是最高的矩形的中点的横坐标众数是最高的矩形的中点的横坐标.(3)(3)频率分布折线图;频率分布折线图;频率分布折线图频率分布折线图频率分布折线图的优点频率分布折线图的优点它反映了数据的变化趋势它反映了数据的变化趋势.如果样本容量不断增大如果样本容量不断
13、增大,分组分组的组距不断缩小的组距不断缩小,那么折线图就趋于总体分布的密度曲线那么折线图就趋于总体分布的密度曲线(4)(4)总体密度曲线;总体密度曲线;总体密度曲线总体密度曲线(5 5)茎叶图。)茎叶图。总体密度曲线反映了总体在各个范围内取值的百分比总体密度曲线反映了总体在各个范围内取值的百分比,它能给我们提供更加精细的信息它能给我们提供更加精细的信息.例如图中阴影部分的例如图中阴影部分的面积面积,就是总体在区间就是总体在区间(a,b)内取值得百分比内取值得百分比2、用样本的数字特征估计总体的数字特征:、用样本的数字特征估计总体的数字特征:1 1). . 众数、中位数、平均数众数、中位数、平均
14、数平均数:用一组数据的总和除以数据的个数所得的商;平均数:用一组数据的总和除以数据的个数所得的商;众众 数:在一组数据中出现次数最多的数;(若有两个数:在一组数据中出现次数最多的数;(若有两个或两个以上的数字出现的次数一样多,则这些数字皆为或两个以上的数字出现的次数一样多,则这些数字皆为该组数据的众数,若每个数据出现的次数都一样,则认该组数据的众数,若每个数据出现的次数都一样,则认为该组数据没有众数)为该组数据没有众数)中位数:将一组数据按照大小顺序排列后,若数据个数中位数:将一组数据按照大小顺序排列后,若数据个数是奇数,则最中间的数字为中位数;若数据个数是偶数,是奇数,则最中间的数字为中位数
15、;若数据个数是偶数,则最中间两个数字的平均数为中位数。则最中间两个数字的平均数为中位数。2 2). . 标准差、方差标准差、方差标准差:标准差:方方 差:差:随机变量的方差和标准差都反映了随机变量取值随机变量的方差和标准差都反映了随机变量取值偏偏离于均值的平均程度离于均值的平均程度。方差或标准差。方差或标准差越小越小,则随机,则随机变量偏离于均值的平均程度越小。变量偏离于均值的平均程度越小。1.右图是某运动员在一次篮球邀右图是某运动员在一次篮球邀请赛中每场得分的茎叶统计图,请赛中每场得分的茎叶统计图,则该运动员在此次邀请赛中得分则该运动员在此次邀请赛中得分的平均分和中位数分别是(的平均分和中位
16、数分别是( ) A. 15和和15 B. 16和和17 C. 17和和15 D. 18和和17012375 5 71 10D练习:练习:例例2 2 某工厂有工人某工厂有工人1000名,其中名,其中250名工人参加过短期名工人参加过短期培训培训(称为称为A类工人类工人),另外另外750名工人参加过长期培训名工人参加过长期培训(称称为为B类工人类工人),现用分层抽样方法,现用分层抽样方法(按按A类、类、B类分二层类分二层)从该工厂的工人中共抽查从该工厂的工人中共抽查100名工人名工人,调查他们的生产能调查他们的生产能力力(此处生产能力指一天加工的零件数此处生产能力指一天加工的零件数).从从A类工人
17、中的类工人中的抽查结果和从抽查结果和从B类工人中的抽查结果分别如下表类工人中的抽查结果分别如下表1和表和表2.生产能力生产能力生产能力生产能力分组分组分组分组100,110100,110100,110100,110)110,120110,120110,120110,120)120,130120,130120,130120,130)130,140130,140130,140130,140)140,150140,150140,150140,150)人数人数人数人数4 4 4 48 8 8 8x x x x5 5 5 53 3 3 3生产能力分组生产能力分组生产能力分组生产能力分组110,12011
18、0,120110,120110,120) 120,130120,130120,130120,130) 130,140130,140130,140130,140) 140,150140,150140,150140,150)人数人数人数人数6 6 6 6y y y y3636363618181818先确定先确定x,y,再在答题纸上完成下列频率分布直方图再在答题纸上完成下列频率分布直方图.就生产能就生产能力而言力而言, A类工人中个体间的差异程序与类工人中个体间的差异程序与B类工人中个体间的差类工人中个体间的差异程度哪个更小异程度哪个更小?(不用计算不用计算,可通过观察直方图直接回答结论可通过观察直
19、方图直接回答结论)分别估计分别估计A类工人和类工人和B类工人生产能力的平均数类工人生产能力的平均数,并估计该并估计该工厂工人的生产能力的平均数工厂工人的生产能力的平均数,同一组中的数据用该组区间同一组中的数据用该组区间的中点值作代表的中点值作代表生产能力生产能力生产能力生产能力分组分组分组分组100,110100,110100,110100,110)110,120110,120110,120110,120)120,130120,130120,130120,130)130,140130,140130,140130,140)140,150140,150140,150140,150)人数人数人数人数
20、4 4 4 48 8 8 8x x x x5 5 5 53 3 3 3生产能力分组生产能力分组生产能力分组生产能力分组110,120110,120110,120110,120) 120,130120,130120,130120,130) 130,140130,140130,140130,140) 140,150140,150140,150140,150)人数人数人数人数6 6 6 6y y y y3636363618181818先确定先确定x,y,再在答题纸上完成下列频率分布直方图再在答题纸上完成下列频率分布直方图.就生产能就生产能力而言力而言, A类工人中个体间的差异程序与类工人中个体间的差
21、异程序与B类工人中个体间的差类工人中个体间的差异程度哪个更小异程度哪个更小?(不用计算不用计算,可通过观察直方图直接回答结论可通过观察直方图直接回答结论)解解:由题意知由题意知A类工人中应抽查类工人中应抽查25名名, B类工人中应抽查类工人中应抽查75名名. 故故4+8+x+5+3=25,得得x=5, 6+y+36+18=75,得得y=15.频率分布直方图如下频率分布直方图如下从直方图可以判断从直方图可以判断:B类工人中个体间的差异程度更小类工人中个体间的差异程度更小.分别估计分别估计A类工人和类工人和B类工人生产能力的平均数类工人生产能力的平均数,并估计该并估计该工厂工人的生产能力的平均数工
22、厂工人的生产能力的平均数,同一组中的数据用该组区间同一组中的数据用该组区间的中点值作代表的中点值作代表A类工人生产能力的平均数类工人生产能力的平均数, B类工人生产能力的平均数以及类工人生产能力的平均数以及全工厂工人生产能力的平均数的估计值分别为全工厂工人生产能力的平均数的估计值分别为123, 133.8和和131.1.练习: :从某小学随机抽取从某小学随机抽取100100名同学名同学, ,将他将他们身高身高( (单位位:cm:cm)数据数据绘制成制成频率分布直方率分布直方图。由。由图中数据可知中数据可知a=a= 。若要从身高在。若要从身高在120120,130130,130130,14014
23、0,140140,150150三三组内的学生中,用分内的学生中,用分层抽抽样的方法的方法选取取1818人参加一人参加一项活活动,则从身高在从身高在140140,150150内的学生中内的学生中选取的人数取的人数应为 。0.03, 3名师点题名师点题2名师名师3: 甲、乙、丙三名射箭运动员在某次测试中甲、乙、丙三名射箭运动员在某次测试中各射箭各射箭20次,三人的测试成绩如下表次,三人的测试成绩如下表甲的成绩甲的成绩甲的成绩甲的成绩环数环数环数环数7 78 89 91010频数频数频数频数5 55 55 55 5乙的成绩乙的成绩乙的成绩乙的成绩环数环数环数环数7 78 89 91010频数频数频数
24、频数6 64 44 46 6丙的成绩丙的成绩丙的成绩丙的成绩环数环数环数环数7 78 89 91010频数频数频数频数4 46 66 64 4s1,s2,s3分别表示甲、乙、丙三名运动员这次测试成绩分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则有的标准差,则有 ( )A.s3s1s2 B.s2s1s3C.s1s2s3 D.s2s1s3例例4:某高校在某高校在20092009年的自主招生考年的自主招生考试成成绩中随机抽取中随机抽取100100名名学生的笔学生的笔试成成绩, ,按成按成绩分分为五五组, ,得到的得到的频率分布直方率分布直方图如下如下图所示所示. .(1 1)为了能了能选拔出最
25、拔出最优秀的学生,高校决定秀的学生,高校决定在第在第3 3、4 4组中用分中用分层抽抽样抽取抽取5 5名学生名学生进入第二入第二轮面面试,求第求第3 3、4 4组每每组各抽取多少各抽取多少名学生名学生进入第二入第二轮面面试?(2)(2)在(在(1 1)的前提下,学校)的前提下,学校决定在决定在5 5名学生中随机抽取名学生中随机抽取2 2名学生接受名学生接受A A考官考官进行面行面试,求第求第4 4组至少有一名学生被至少有一名学生被考官考官A A面面试的概率?的概率?(2)(2)在(在(1 1)的前提下,学校决定在)的前提下,学校决定在5 5名学生中随机抽取名学生中随机抽取2 2名学生接受名学生
26、接受A A考官考官进行面行面试,求第,求第4 4组至少有一名学生被至少有一名学生被考官考官A A面面试的概率?的概率?作作业评讲: :为了了解中了了解中华人民共和国道路交通安全法在学人民共和国道路交通安全法在学生中的普及情况,生中的普及情况,调查部部门对某校某校6 6名学生名学生进行行问卷卷调查6 6人人得分情况如下:得分情况如下: 5 5,6 6,7 7,8 8,9 9,1010把把这6 6名学生的得分看成一个名学生的得分看成一个总体体()求)求该总体的平均数;体的平均数;()用)用简单随机抽随机抽样方法从方法从这6 6名学生中抽取名学生中抽取2 2名,他名,他们的得的得分分组成一个成一个样
27、本求本求该样本平均数与本平均数与总体平均数之差的体平均数之差的绝对值不超不超过的概率的概率作作业评讲: :为了了解中了了解中华人民共和国道路交通安全法在学人民共和国道路交通安全法在学生中的普及情况,生中的普及情况,调查部部门对某校某校6 6名学生名学生进行行问卷卷调查6 6人人得分情况如下:得分情况如下:5 5,6 6,7 7,8 8,9 9,1010把把这6 6名学生的得分看成名学生的得分看成一个一个总体体()用简单随机抽样方法从这)用简单随机抽样方法从这6名学生中抽取名学生中抽取2名,名,他们的得分组成一个样本求该样本平均数与总体平均数之差他们的得分组成一个样本求该样本平均数与总体平均数之
28、差的绝对值不超过的概率的绝对值不超过的概率作业作业:p189名师点题名师点题3补充知识:补充知识:第一、计算原理第一、计算原理1.分类加法计数原理:完成一件事有两类不同的方案,分类加法计数原理:完成一件事有两类不同的方案,在第一类方案中有在第一类方案中有m种不同的方法,在第二类方案中有种不同的方法,在第二类方案中有n种不同的方法。那么完成这件事共有种不同的方法。那么完成这件事共有N=m+n种方法种方法2.分步乘法计数原理:完成一件事需要两个步骤,做第分步乘法计数原理:完成一件事需要两个步骤,做第1步有步有m种不同的方法,做第二步有种不同的方法,做第二步有n种不同的方法,那么种不同的方法,那么完
29、成这件事共有完成这件事共有N=mn种方法种方法注意:用乘法原理时,和顺序有关。注意:用乘法原理时,和顺序有关。第二、组合数第二、组合数计算公式:计算公式:例如例如:从从6名学生中抽取名学生中抽取2名,一共有名,一共有注意:用组合数公式时,和顺序没有关系。注意:用组合数公式时,和顺序没有关系。E N D!4 4、线性回归:、线性回归:(1)(1)相关关系:自变量取值一定时,因变量的取值带相关关系:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系。有一定随机性的两个变量之间的关系。注:与函数关系不同,相关关系是一种非确定性关系。注:与函数关系不同,相关关系是一种非确定性关系。(2)
30、(2)回归分析:对具有相关关系的两个变量进行统计分回归分析:对具有相关关系的两个变量进行统计分析的方法。析的方法。(3)(3)散散点点图图:表表示示具具有有相相关关关关系系的的两两个个变变量量的的一一组组数数据的图形。据的图形。(4)(4)回归直线方程:回归直线方程: ,其其中中 , 。相相应应的的直直线线叫叫回回归归直直线线,对对两两个个变变量量所所进进行行的的上述统计叫做回归分析。上述统计叫做回归分析。回归方程必须经过样本点的中心。回归方程必须经过样本点的中心。(5)(5)相关系数:相关系数:相关系数的性质:相关系数的性质:(1)|r|1。(2)|r|越越接接近近于于1,相相关关程程度度越
31、越大大;|r|越越接接近近于于0,相关程度越小,相关程度越小相关指数相关指数 R2 : 刻画回归的效果刻画回归的效果. 在线性回归模型中在线性回归模型中, R2表示解释变量对预报变量变化的贡献率表示解释变量对预报变量变化的贡献率. R2越接近于越接近于1, 表示回归的效果越好表示回归的效果越好 ( 因为因为R2越接近越接近于于1, 表示解释变量和预报变量的线性相关性越强表示解释变量和预报变量的线性相关性越强 ) .且且 ( r 为相关系数为相关系数 ) 即相关指数是相关系数的平方即相关指数是相关系数的平方.数据点和它在回归直线上相应位置的差异数据点和它在回归直线上相应位置的差异 是是随机误差的
32、效应随机误差的效应, 称称 为为残差残差. 残差分析残差分析: 是回归诊断的一种方法是回归诊断的一种方法. 通过残差来判断通过残差来判断模型拟合的效果模型拟合的效果, 判断原始数据中是否存在可疑数据判断原始数据中是否存在可疑数据, 在方在方面的分析工作称为残差分析面的分析工作称为残差分析. 利用残差图进行残差分析的具体步骤如下利用残差图进行残差分析的具体步骤如下:(1) 计算每组观测数据的残差计算每组观测数据的残差 , 即即残差等于观测值减预测值残差等于观测值减预测值. 当残差比较小时当残差比较小时, 说明回归模型说明回归模型拟合数据较好拟合数据较好; 如如:编号编号编号编号1 1 1 12
33、2 2 23 3 3 34 4 4 45 5 5 56 6 6 67 7 7 78 8 8 8身高身高身高身高/ / / /165165165165165165165165157157157157170170170170175175175175165165165165155155155155170170170170体重体重体重体重/ / / /4848484857575757505050505454545464646464616161614343434359595959残差残差残差残差-6-6-6-62.62.62.62.62.42.42.42.4-5-5-5-51.11.11.11.16.6
34、6.66.66.6-3-3-3-30.40.40.40.4(2) 画残差图画残差图. 残差图的纵坐标为残差残差图的纵坐标为残差, 横坐标通常可以是横坐标通常可以是观测样本的编号、自变量观测样本的编号、自变量x或因变量的预测值等或因变量的预测值等, 残差图是残差图是一种散点图一种散点图; 如如:(3) 分析残差图分析残差图; 若残差点比较均匀地落在水平的带状区域中若残差点比较均匀地落在水平的带状区域中, 说明选说明选用的模型比较合适用的模型比较合适. 这样的带状区域的宽度越窄这样的带状区域的宽度越窄, 说明模型说明模型拟合精度越高拟合精度越高, 回归方程的预报精度越高回归方程的预报精度越高.(4
35、) 找异常值找异常值. 根据计算的残差值和残差图根据计算的残差值和残差图, 观察是否存在残差特别观察是否存在残差特别大的点大的点, 即远离横坐标的点即远离横坐标的点. 如果存在远离坐标轴的点如果存在远离坐标轴的点, 就就要研究它出现的原因要研究它出现的原因.1.下列现象属于相关关系的是下列现象属于相关关系的是 ( ) A.家庭收入越多家庭收入越多, 消费也越多消费也越多 B.圆的半径越大圆的半径越大, 圆的面积越大圆的面积越大 C.气体体积随温度升高而膨胀气体体积随温度升高而膨胀, 随压力加大则减少随压力加大则减少 D.在价格不变的条件下在价格不变的条件下,商品销售量越多销售额也越多商品销售量
36、越多销售额也越多2.设产品产量与产品单位成本之间的线性相关系数为设产品产量与产品单位成本之间的线性相关系数为-0.87, 这说明二者之间存在着这说明二者之间存在着 ( ) A.高度相关高度相关 B.中度相关中度相关 C.弱度相关弱度相关 D.极弱相关极弱相关AA 独立性检验独立性检验: 利用检验统计量利用检验统计量K2来确定在多大程度可来确定在多大程度可以认为以认为“两个分类变量有关系两个分类变量有关系”的方法称为两个分类变量的方法称为两个分类变量的的独立性检验独立性检验. 独立性检验独立性检验: 根据采集样本的数据根据采集样本的数据, 先利用三维柱先利用三维柱形图和二维条形图粗略判断两个分类
37、变量是否有关系形图和二维条形图粗略判断两个分类变量是否有关系, 再再利用公式计算利用公式计算 K2 的观测值的观测值 k , 比较与临界值大小关系比较与临界值大小关系, 来来判定事件判定事件 x 与与 y 是否无关的问题是否无关的问题.三维柱形图三维柱形图 二维条形图二维条形图 等高条形图等高条形图 一般地一般地, 假设有两个分类变量假设有两个分类变量X和和Y, 它们的值域分别它们的值域分别为为 x1 , x2 和和 y1 , y2 , 其样本频数列联表其样本频数列联表 ( 称为称为22列联表列联表 ) 为为:y y1 1y y2 2总计总计总计总计x x1 1a ab ba a + b +
38、bx x2 2c cd dc c + + d d总计总计总计总计a a + + c cb b + + d da a + + b b + + c c + + d d22 列联表列联表 1. 通过三维柱形图判断和二维条形图通过三维柱形图判断和二维条形图, 可以粗略地判可以粗略地判断两个分类变量是否有关系断两个分类变量是否有关系, 但是这种判断无法精确地给但是这种判断无法精确地给出所得结论的可靠程度出所得结论的可靠程度.若要推断的论述为若要推断的论述为 H1: “ X 和和 Y 有关系有关系 ”, 可按照如下步骤判断可按照如下步骤判断 H1 成立的可能性成立的可能性: (1) 在三维柱形图中在三维柱
39、形图中, 主对角线上两个柱形高度的乘主对角线上两个柱形高度的乘积积 ad 和副对角线上两个柱形高度的乘积和副对角线上两个柱形高度的乘积 bc 相差越大相差越大, H1 成立的可能性就越大成立的可能性就越大; (2) 在二维条形图中在二维条形图中, 可以估计满足条件可以估计满足条件 X = x1 的个的个体中具有体中具有 Y = y1 的个体所占的的个体所占的 ,可以估计满足条可以估计满足条件件 X = x2 的个体中具有的个体中具有 Y = y2的个体所占的的个体所占的 两两个比例的值相差越大个比例的值相差越大, H1成立的可能性就越大成立的可能性就越大.2. 利用独立性检验来考察两个分类变量
40、是否有关系利用独立性检验来考察两个分类变量是否有关系, 并且能并且能较精确地给出这种判断的可靠程度较精确地给出这种判断的可靠程度.具体做法是具体做法是:(1)提出假设检验问题提出假设检验问题. (2) 根据观测数据计算随机变量根据观测数据计算随机变量K2的观测值的观测值k, 其值越大其值越大, 说说明明“X与与Y有关系有关系”成立的可能性越大成立的可能性越大.(3)(3) 查表查表,给出推断结果极其解释给出推断结果极其解释.P P( (KK2 2 k k) )0.500.500.400.400.250.250.150.150.100.100.050.050.0250.0250.0100.010
41、0.0050.0050.0010.001k k0.4550.4550.7080.7081.3231.3232.0722.0722.7062.7063.8413.8415.0245.0246.6356.6357.8797.87910.82810.828两个特殊的临界值两个特殊的临界值: (1) k = 6.635 ; (2) k . (1) 如果如果k , 就有就有99%的把握认为的把握认为“X与与Y有关系有关系”; (2) 如果如果k, 就认为没有充分的证据显示就认为没有充分的证据显示“X与与Y有有 关系关系”. 1.三维柱形图中柱的高度表示的是三维柱形图中柱的高度表示的是 2. A.分类变量
42、的百分比分类变量的百分比3. B.分类变量的样本数分类变量的样本数4. C.分类变量的具体值分类变量的具体值5. D.各分类变量的频数各分类变量的频数2. 下列关于对等高条形图说法正确的是下列关于对等高条形图说法正确的是 A.等高条形图表示高度相对的条形图等高条形图表示高度相对的条形图 B.等高条形图表示的是分类变量的频数等高条形图表示的是分类变量的频数 C.等高条形图表示的是分类变量的百分比等高条形图表示的是分类变量的百分比 D.等高条形图表示的是分类变量的实际高度等高条形图表示的是分类变量的实际高度DC2.用样本估计总体:频率分布直方图、总体密度曲线、用样本估计总体:频率分布直方图、总体密
43、度曲线、茎叶图、众数、中位数、平均数、标准差、方差茎叶图、众数、中位数、平均数、标准差、方差3.变量间的相关关系、线性回归变量间的相关关系、线性回归4.统计案例统计案例 回归分析的基本思想,独立性检验的基本回归分析的基本思想,独立性检验的基本思想思想例例1 1:某初级中学有学生某初级中学有学生270人,其中一年级人,其中一年级108人,二、人,二、三年级各三年级各81人,现要利用抽样方法抽取人,现要利用抽样方法抽取10人参加某项调查,人参加某项调查,考虑选用简单的随机抽样、分层抽样和系统抽样三种方案,考虑选用简单的随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、
44、二、三年使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为:级依次统一编号为:1,2,270;使用系统抽样时,;使用系统抽样时,将学生统一随机编号将学生统一随机编号1,2,270,并将整个编号依次,并将整个编号依次分为分为10段段如果抽得号码有下列四种情况:如果抽得号码有下列四种情况:7,34,61,88,115,142,169,196,223,250;5,9,100,107,111,121,180,195,200,265;11,38,65,92,119,146,172,200,227,254;30,57,84,111,138,165,192,219,246,270;关于上述样
45、本的下列结论中,正确的是关于上述样本的下列结论中,正确的是 A.、都不能为系统抽样都不能为系统抽样 B.、都不能为分层抽样都不能为分层抽样C.、都可能为系统抽样都可能为系统抽样 D.、都可能为分层抽样都可能为分层抽样D1.某某单单位位有有500名名职职工工,其其中中不不到到35岁岁的的有有125人人,35岁岁49岁岁的的有有280人人,50岁岁以以上上的的有有95人人.为为了了了了解解该该单单位位职职工工与与身身体体状状况况有有关关的的某某项项指指标标,要要从从中中 抽抽 取取 一一 个个 容容 量量 为为 100的的 样样 本本 , 应应 该该 用用_抽抽样样法法.分分层层2.某某公公司司生
46、生产产三三种种型型号号的的轿轿车车,产产量量分分别别为为1200辆辆,6000辆辆和和2000辆辆.为为检检验验该该公公司司的的产产品品质质量量,现现用用分分层层抽抽样样的的方方法法抽抽取取46辆辆舒舒畅畅行行检检验验,这这三三种种型型号号的的轿车轿车依次依次应应抽取抽取_辆辆.6、 30 、 10练习:练习:寿命寿命(h h)100200100200200300200300300400300400400500400500500600500600个数个数20203030808040403030寿命(寿命(h h)频数频数频率频率10010020020020200.100.10200200300
47、30030300.150.1530030040040080800.400.4040040050050040400.200.2050050060060030300.150.15合计合计2002001 1延伸拓展延伸拓展2 某公司在过去几年内使用某种型号的灯管某公司在过去几年内使用某种型号的灯管1000支,该公司对这些灯管的使用寿命(单位:小时)支,该公司对这些灯管的使用寿命(单位:小时)进行了统计,统计结果如下表所示:进行了统计,统计结果如下表所示:分组分组分组分组500,500,900)900)900,900,1100)1100)1100,1100,1300)1300)1300,1300,1500)1500)1500,1500,1700)1700)1700,1700,1900)1900)1900,1900,+)+)频数频数频数频数48481211212082082232231931931651654242频率频率频率频率(1)将各组的频率填入表中:)将各组的频率填入表中:(2)根据上述统计结果,计算灯管使用寿命不足)根据上述统计结果,计算灯管使用寿命不足1500小小时的频率;时的频率;(2)解:由()解:由(1)可得,所以灯管使用寿命不足)可得,所以灯管使用寿命不足1500小小时的频率为时的频率为0.6.练习:练习:P203 第第10题题