统计案例复习

上传人:xzh****18 文档编号:49542567 上传时间:2018-07-30 格式:PPT 页数:33 大小:704KB
返回 下载 相关 举报
统计案例复习_第1页
第1页 / 共33页
统计案例复习_第2页
第2页 / 共33页
统计案例复习_第3页
第3页 / 共33页
统计案例复习_第4页
第4页 / 共33页
统计案例复习_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《统计案例复习》由会员分享,可在线阅读,更多相关《统计案例复习(33页珍藏版)》请在金锄头文库上搜索。

1、 统计案例要点梳理1.回归分析(1)定义:对具有 的两个变量进行统计分析的一种常用方法.(2)随机误差:线性回归模型用y=bx+a+e表示,其中a和b为模型的 , 称为随机误差.(3)样本点的中心在具有线性相关关系的数据(x1,y1), (x2,y2), ,(xn,yn)中,回归方程的截距和斜率的最小二乘,估计公式分别为:相关关系未知参数 e基础知识 自主学习其中 称为样本点的中心.(4)相关系数, .,r= 当r 0时,表明两个变量 ;当r 0时,表明两个变量 .r 的绝对值越接近于1,表明两个变量的线性相关性 .r 的绝对值越接近于0时,表明两个变量之间 .通常|r|大于 时,认为两个变量

2、有很强的线性相关性.正相关负相关越强几乎不存在线性相关关系0.752.残差分析(1)总偏差平方和把每个效应(观测值减去总的平均值)的平方加起来即: .(2)残差数据点和它回归直线上相应位置的差异(yi- )是 的效应,称 为残差.(3)残差平方和 .随机误差(4)相关指数R2= .R2的值越大,说明残差平方和 ,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归的效果越好.越小3.独立性检验(1)分类变量:变量的不同“值”表示个体所属 的 ,像这类变量称为分类变量.不同类别(2)列联表:列出两个分类变量的 ,称为列联表.假设有两个分类

3、变量X和Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为频数表y1 y2 总计总计 x1 a b a+b x2 c d c+d 总计总计 a+c b+d a+b+c+d 22列联表构造一个随机变量K2= , 其中n= 为样本容量.a+b+c+d(3)独立性检验利用随机变量 来确定是否能以一定把握认为“两个分类变量 ”的方法称为两个分类变量的独立性检验.K2有关系基础自测1.相关系数度量()A.两个变量之间线性相关关系的强度B.散点图是否显示有意义的模型C.两个变量之间是否存在因果关系D.两个变量之间是否存在关系解析 相关系数来衡量两个变量之间线性相关关系的强

4、弱.A2.甲、乙、丙、丁四位同学各自对A、B两变量的线性相关性作试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:则哪位同学的试验结果体现A、B两变量更强的线性相关性?()A.甲 B.乙 C.丙 D.丁解析 r0且丁最接近1,残差平方和越小,相关性越高,故选D. 甲 乙 丙 丁r0.82 0.78 0.69 0.85m115 106 124 103 D3.已知x、y之间的数据如表所示,则回归直线过点()A.(0,0) B.( ,0) C.(0, ) D.( , )解析 回归直线过样本点的中心( , ).x 1.08 1.12 1.19 1.28 y 2.25 2.37 2.40 2

5、.55 D4.下列说法中正确的有:若r0,则x增大时,y也相应增大;若r0,则x增大时,y也相应增大;若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个点均在一条直线上( )A. B. C. D.解析 若r0,表示两个相关变量正相关,x增大时,y也相应增大,故正确.r0,表示两个变量负相关,x增大时,y相应减小,故错误.|r|越接近1,表示两个变量相关性越高,|r|=1表示两个变量有确定的关系(即函数关系),故正确.C5.在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算K2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是 的(有关,无关).解析 K

6、2=27.6310.828,有99.9%的把握认为“打鼾与患心脏病有关”.有关题型一 线性回归分析【例1】假设关于某种设备的使用年限x(年)与所支出的维修费用y(万元)有如下统计资料:23456y2.23.85.56.57.0已知(1)求 , ;(2)求出线性回归方程;(3)估计使用年限为10年时,维修费用约是多少?x(1)先根据已知计算相关系数r,判断是否具有相关关系.(2)再利用公式求出回归方程进行回归分析.解 (1)所以线性回归方程为 =1.23x+0.08.(4)当x=10时, =1.2310+0.08=12.38(万元),即估计使用10年时,维修费用约为12.38万元.知能迁移1 测

7、得某国10对父子身高(单位:英寸)如下:父亲亲身 高(x)60 62 64 65 66 67 68 70 72 74 儿子身 高(y)63.6 65.2 66 65.5 66.9 67.1 67.4 68.3 70.1 70 (1)求线性回归方程;(2)如果父亲的身高为73英寸,估计儿子的身高.(1)设回归方程为 故所求的回归方程为 =0.464 6x+35.974 7.(2)当x=73时, =0.464 673+35.974 769.9.所以当父亲身高为73英寸时,估计儿子身高约为69.9英寸.题型二 独立性检验【例3】(12分)在调查的480名男人中有38名患有色盲,520名女人中有6名患

8、有色盲,用独立性检验的方法来判断色盲与性别是否有关? (1)先由已知作出调查数据的列联表.(2)利用独立性检验作出判断.解 根据题目所给的数据作出如下的列联表:色盲 不色盲 合计计 男 38 442 480 女 6 514 520 合计计 44 956 1 000 根据列联表中所给的数据可以有a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,代入公式K2=得K2=由于K2=27.110.828,所以我们有99.9%的把握认为性别与患色盲有关系.题型三 独立性检验在对人们休闲方式的一次调查中,共调查了124人,其中女性70人,

9、男性54人.女性中有43人主要的休闲方式是看电视,另外27人的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个22列联表;(2)检验休闲方式是否与性别有关,可靠性有多大.解 (1)22列联表如图:看电视电视 运动动 合计计 女 43 27 70 男 213354合计计 6460124休闲方式 性别 (2)K2=所以我们有97.5%的把握认为休闲方式与性别有关.方法与技巧1.线性回归分析以散点图为基础,具有很强的直观性,有散点图作比较时,拟合效果的好坏可由直观性直接判断,没有散点图时,只须套用公式求r,R2再作判断即可.2.独立性检

10、验没有直观性,必须依靠K2的观测值作判断.思想方法 感悟提高一、选择题1.下列四个命题:线性相关系数r越大,两个变量的线性相关性越强;反之,线性相关性越弱;残差平方和越小的模型,模型拟合的效果越好;用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好;在推断H:“X与Y有关系”的论述中,用三维柱形图,只要主对角线上两个柱形高度的比值与副对角线上的两个柱形高度的比值相差越大,H成立的可能性就越大.其中真命题的个数是()A.1 B.2 C.3D.4其中真命题的个数是()A.1B.2C.3D.4解析 r有正负,应为|r|越大,相关性越强.正确.R2越大,拟合效果越好.应为高度积的差的绝对值

11、越大,H成立的可能性就越大,故选A.A2.对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是()A.模型的相关系数r为0.98B.模型的相关系数r为0.80C.模型的相关系数r为0.50D.模型的相关系数r为0.25解析 根据相关系数的定义和计算公式可知,|r|1,且|r|越接近于1,相关程度越大,拟合效果越好;|r|越接近于0,相关程度越小,拟合效果越弱,所以A正确.A3.下列说法:将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;设有一个回归方程 =3-5x,变量x增加一个单位时,y平均增加5个单位;线性回归方程 必过点( , );曲

12、线上的点与该点的坐标之间具有相关关系;在一个22列联表中,由计算得K2=13.079,则其两个变量间有关系的可能性是90%.其中错误的个数是()A.1B.2C.3D.4解析 根据方差的计算公式,可知正确;由线性回归方程的定义及最小二乘法的思想,知正确,不正确.答案 C4.下面是22列联表:y1 y2 合计计x1a 21 73x2 22 25 47 合计计 b 46 120 则表中a,b的值分别为()A.94,72B.52,50C.52,74D.74,52解析 a+21=73,a=52.又a+22=b,b=74.C5.若变量y与x之间的相关系数r=-0.936 2,查表得到相关系数临界值r0.0

13、5=0.801 3,则变量y与x之间()A.不具有线性相关关系B.具有线性相关关系C.它们的线性关系还要进一步确定D.不确定解析 相关系数r主要是来衡量两个变量之间线性关系的强弱,|r|越接近1,两个变量之间线性关系就越强,|r|越接近0,两个变量之间几乎不存在线性关系.因为|r|=0.936 2,接近1,所以变量y与x之间具有线性相关关系.B6.冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如下表所示.杂质杂质 高 杂质杂质 低 旧设备设备 37 121新设备设备 22202根据以上数据,则()A.含杂质的高低与设备改造有关B.含杂质的高低

14、与设备改造无关C.设备是否改造决定含杂质的高低D.以上答案都不对解析 由已知数据得到如下22列联表答案 A杂质杂质 高 杂质杂质 低 合计计 旧设备设备 37 121 158 新设备设备 22 202 224 合计计 59 323 382 由公式由于13.1110.828,故有99.9%的把握认为含杂质的高低与设备是否改造是有关的.二、填空题7.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下22列联表:理科 文科男13 10女 720已知P(K23.841)0.05,P(K25.024)0.025.根据表中数据,得到则认为选修文科与性别有关系出错的可能性约为 .解析 K24.844,这表明小概率事件发生.根据 假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案 5%三、解答题8.在一次飞机航程中调查男女乘客的晕机情况,其二维条形图如图:(1)写出22列联表;(2)判断晕机与性别是否有关?解 (1)晕晕机 不晕晕机 合计计 男 10 70 80 女 10 20 30 合计计 20 90 110故有97.5%的把握认为“晕机与性别有关”.

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 法律文献 > 理论/案例

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号