独立性检验和回归分析 讲义(PDF版含答案)

上传人:ni****g 文档编号:568533526 上传时间:2024-07-25 格式:PDF 页数:5 大小:499.05KB
返回 下载 相关 举报
独立性检验和回归分析 讲义(PDF版含答案)_第1页
第1页 / 共5页
独立性检验和回归分析 讲义(PDF版含答案)_第2页
第2页 / 共5页
独立性检验和回归分析 讲义(PDF版含答案)_第3页
第3页 / 共5页
独立性检验和回归分析 讲义(PDF版含答案)_第4页
第4页 / 共5页
独立性检验和回归分析 讲义(PDF版含答案)_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《独立性检验和回归分析 讲义(PDF版含答案)》由会员分享,可在线阅读,更多相关《独立性检验和回归分析 讲义(PDF版含答案)(5页珍藏版)》请在金锄头文库上搜索。

1、 1 重难点突破重难点突破:回归分析及独立性检验:回归分析及独立性检验 一、基本知识总结一、基本知识总结 1、 对具有相关关系的两个变量进行统计分析的方法叫回归分析.回归分析的一般步骤为画散点图求回归直线方程用回归直线方程进行预报. 2、回归直线方程 回归直线:观察散点图的特征,如果各点大致分布在一条直线的附近,就称两个变量之间具有线性相关的关系,这条直线叫做回归直线. 回归直线方程:设所求的直线方程为ybxa,其中xxbaybxxx yyiiniiin(),()()121,nnxx yyiiiinn,1111x y( , )称为样本点的中心,回归直线过样本点的中心.回归方程的截距a和斜率b是

2、用最小二乘法计算出来的. 3、相关系数 两个变量之间线性相关关系的强弱用相关系数r来衡量. 相关系数:xxyyrxx yyiiiinniiin()()()()11221 r0,表示两个变量正相关;r0,表示两个变量负相关;r的绝对值越接近 1,表明两个变量的线性相关性越强.r的绝对值越接近 0,表明两个变量之间几乎不存在线性相关关系.通常,r的绝对值大于 0.75 时,表明两个变量的线性相关性很强. 4、建立回归模型的基本步骤: 确定研究对象,明确哪个是解释变量,哪个是预报变量; 画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在线性关系) 由经验确定回归方程的类型(如我们观

3、察到数据呈线性关系,则选用线性回归方程ybxa) 按照公式计算回归方程中的参数(如最小二乘法) 2 得出结果后检查数据模型是否合适 5、独立性检验的基本思想及其初步运用 1)、用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,是否患肺癌,国籍等 2)、独立性检验的方法 (1)、列出两个分类变量的频数表(列联表),直观判断. (2)、画三维柱形图、二维条形图、等高条形图,直观判断. (3)、两个分类变量的独立性检验 一般步骤: (1)列联表 p p 总计 q a b a+b q c d c+d 总计 a+c b+d abcd (2)提出假设:设p与q没有关系 (3)

4、根据列联表中的数据K2计算的值 量容本样为中其 ab cd ac bdKnabcdn adbc()()()()()()22 (4)根据计算得到的随机变量K2的观测值作出判断 kp K)(02 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 如:K4.2322因为 4.232 介于临界值 3.841 和 5.024 之间,p K(3.841)2=0.05,所以两个分类变量没有关系的概率是5%,即两个分类变量有关

5、系的概率为95% 温馨提示 (1)独立性检验的必要性:为什么不能只凭列联表和图形下结论?原因是列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此需要用列联表检 3 验这个方法来确认所得得结论在多大程度上适用于总体. (2) 独立性检验的思想来自于统计上的假设性检验,它与反证法类似.假设检验和反证法都是先假设结论不成立, 然后根据是否能够推出矛盾来确定结论是否成立.但是二者的矛盾的含义不同,反证法中的矛盾是指不符合逻辑的事情发生;而假设检验中的矛盾是指不符合逻辑的小概率事件发生, 即在结论不成立的假设下推出有利于结论成立的小概率事件的发生. (3)K2与k的关系并不是kK2,k是K2的

6、观测值,或者说K2是一个随机变量,它在, , ,a b c d取不同的值时,K2可能不同,而k是取定一组数, , ,a b c d后的一个确定值. 【例 1】【2017 课标 1,文 19】为了监控某种零件的一条生产线的生产过程,检验员每隔 30min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)下面是检验员在一天内依次抽取的 16 个零件的尺寸: 抽取次序 1 2 3 4 5 6 7 8 零件尺寸 9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04 抽取次序 9 10 11 12 13 14 15 16 零件尺寸 10.26 9.91 10.13

7、 10.02 9.22 10.04 10.05 9.95 经计算得 𝑥 =116 16𝑖=1xi9.97,s= 116 16𝑖=1(𝑥𝑖 𝑥)2=116( 16𝑖=1𝑥𝑖2 16𝑥2) 0.212, 16𝑖=1(𝑖 8.5)218.439, 16𝑖=1(xi𝑥)(i8.5)2.78,其中 xi为抽取的第 i 个零件的尺寸,i1,2,16 (1)求(xi,i)(i1,2,16

8、)的相关系数 r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小) (2)一天内抽检零件中,如果出现了尺寸在(𝑥 3s,𝑥 +3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产 4 过程进行检查 ()从这一天抽检的结果看,是否需对当天的生产过程进行检查? ()在(𝑥 3s,𝑥 +3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差(精确到 0.01) 附:样

9、本(xi,yi)(i1,2,n)的相关系数 r= 𝑛𝑖=1(𝑦𝑖𝑦)(𝑧𝑖𝑧) 𝑛𝑖=1(𝑦𝑖𝑦)2 𝑛𝑖=1(𝑧𝑖𝑧)2,0.008 0.09 解:(1)r= 16𝑖=1(𝑦𝑖𝑦)(𝑖8.5) 16𝑖=1(

10、9910;𝑖𝑦)2 16𝑖=1(𝑖8.5)2=2.780.2121618.439= 0.18 |r|0.25,可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小 (2)(i)𝑥 =9.97,s0.212,合格零件尺寸范围是(9.334,10.606), 显然第 13 号零件尺寸不在此范围之内, 需要对当天的生产过程进行检查 (ii)剔除离群值后,剩下的数据平均值为115(16 9.97 9.22) =10.02, 16𝑖=1𝑥𝑖2=160.2122+16

11、9.9721591.134, 剔除离群值后样本方差为115(1591.1349.2221510.022)0.008, 剔除离群值后样本标准差为0.008 0.09 【点评】(1)统计概率的解答题一般阅读量信息量比较大,并且数据比较多,对考生的心理素质要求较高,如果学生急躁冒进,对解题的影响就大了. 遇到这样的题目,建议先绕过拦路虎,杀个回马枪.先把其它题目完成再回过头来解答. 不要硬碰硬. (2)前几年的高考,数据直接代进去就可以了,运算量比较小,最近几年的高考, 有的数据不能直接代进去, 还要把目标数据变形后才能代进去. 故近几年的高考统计概率题的数据分析处理能力要求更高了. 本题中要求xxii()1216,已知告诉的却是xxii16()11216 0.212,所以要化简计算才能得到xxii()1216.本题中要求剩下的 15 个数的平 5 均数,但是已知告诉的却是xxii169.971116,所以要利用平均数的定义和xxii169.971116求出剩下的 15 个数的平均数. 本题要求剩下的 15 个数的方差,但是已知告诉的却是 16 个数的标准差xxii16()0.21211216,所以要利用方差的定义结合xxii16()0.21211216求出剩下的 15 个数的方差. 这是本题的三个难点.

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号