变量间的相关关系、回归分析及独立性检验

上传人:tian****1990 文档编号:73429274 上传时间:2019-01-25 格式:PPT 页数:36 大小:1.07MB
返回 下载 相关 举报
变量间的相关关系、回归分析及独立性检验_第1页
第1页 / 共36页
变量间的相关关系、回归分析及独立性检验_第2页
第2页 / 共36页
变量间的相关关系、回归分析及独立性检验_第3页
第3页 / 共36页
变量间的相关关系、回归分析及独立性检验_第4页
第4页 / 共36页
变量间的相关关系、回归分析及独立性检验_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《变量间的相关关系、回归分析及独立性检验》由会员分享,可在线阅读,更多相关《变量间的相关关系、回归分析及独立性检验(36页珍藏版)》请在金锄头文库上搜索。

1、【考纲下载】,1. 会作两个相关变量的数据的散点图,会利用散点图认识变量的相关关系 2了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程 3了解独立性检验(只要求22列联表)的基本思想、方法及其简单应用 4了解假设检验的基本思想、方法及其简单应用.,第3讲 变量间的相关关系、回归分析及独立性检验,(1)在散点图中,点散布在从 到 的区域对于两个 变量的这种相关关系,我们将它称为正相关如果在散点图 中,点散布在从 到 的区域,两个变量的这种相关 关系称为负相关,左下角,右上角,左上角 右下角,1两个变量的线性相关,(2)线性相关关系、回归直线 如果散点图中点的分布从整体上看大

2、致在 ,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线,一条直线附近,【思考】 相关关系与函数关系有什么异同点? 答案:相同点:两者均是指两个变量的关系 不同点:函数关系是一种确定的关系,相关关系是一种非确定的关 系,事实上,函数关系是两个非随机变量的关系而相关关系是非随 机变量与随机变量的关系函数关系是一种因果关系,而相关关系 不一定是因果关系,也可能是伴随关系,(1)最小二乘法 求回归直线使得样本数据的点到回归直线的 的 方法叫做最小二乘法 (2)回归方程 方程 bxa是两个具有线性相关关系的变量的一组数据(x1,y1), (x2,y2),(xn,yn)的回归方程,其中a,b是待

3、定参数,2回归方程,距离的平方和最小,(3)相关系数 r 当r0时,表明两个变量 ; 当r0时,表明两个变量 r的绝对值越接近于1,表明两个变量的线性相关性 r的绝对值越接近于0 时,表明两个变量之间 通常|r|大于 时,认为 两个变量有很强的线性相关性,正相关,负相关,越强,几乎不存在线性相关关系,0.75,(1)分类变量:变量的不同“值”表示个体所属的 ,像这类变量 称为分类变量 (2)列联表:列出两个分类变量的 ,称为列联表假设有两个分类 变量X和Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联 表(称为22列联表)为 22列联表,不同类别,频数表,3独立性检验,构造一个随

4、机变量K2 , 其中n 为样本容量,abcd,(3)独立性检验 利用随机变量 来确定是否能以一定把握认为“两个分类变量 ” 的方法称为两个分类变量的独立性检验 【思考】 在独立性检验中经常由K2得到观测值k,则k 吗? 答案:K2与k的关系并不是k ,k是K2的观测值,或者说K2是一个随机变量,它在a,b,c,d 取不同值时,K2可能不同,而k是取定一组数a, b,c,d后的一个确定的值,K2,有关系,学生的学习态度与学习成绩之间的关系; 教师的执教水平与学生的学习成绩之间的关系; 学生的身高与学生的学习成绩之间的关系; 家庭的经济条件与学生的学习成绩之间的关系 A B C D,1下列关系中,

5、是相关关系的为( ),解析:学生的学习态度与学习成绩之间不是因果关系, 是相关关系教师的执教水平与学生的学习成绩之间的 关系是关关系都不具备相关关系 答案:A,2(2009宁夏、海南)对变量x,y有观测数据(xi,yi)(i1,2,10),得散 点图(1);对变量u、v有观测数据(ui,vi)(i1,2,10),得散点图 (2)由这两个散点图可以判断( ),A变量x与y正相关,u与v正相关 B变量x与y正相关,u与v负相关 C变量x与y负相关,u与v正相关 D变量x与y负相关,u与v负相关 解析:由图1可知,各点整体呈递减趋势,x与y负相关,由图2可知, 各点整体呈递增趋势,u与v正相关 答案

6、:C,3对有线性相关关系的两个变量建立的回归直线方程 中, 回归系数 ( ) A可能小于0 B小于0 C能等于0 D只能等于0 解析: 0时,得r0,这时不具有线性相关关系,但 能大于0, 也能小于0. 答案:A,4在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算 K227.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是 _的(有关,无关) 解析:K227.636.635, 有99%的把握认为“打鼾与患心脏病有关” 答案:有关,判断两个变量正相关还是负相关,有三种方法: 1利用散点图; 2利用相关系数r的符号;当r0时,正相关;r0时,负相关; 3在已知两变量线性相关时,也

7、可以利用回归方程 abx.当b0时, abx是增函数,两变量是正相关, 当b0时, abx是减函数, 两变量是负相关,【例1】 山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg).,(1)画出散点图; (2)判断是否具有相关关系,思维点拨:用施化肥量x作为横轴,产量y为纵轴可作出散点图,由散 点图即可分析是否具有线性相关关系,解:(1)散点图如右图所示, (2)由散点图知,各组数据对应点大致都在一条直线 附近,所以施化肥量x与产量y具有线性相关关系.,对具有相关关系的两个变量进行统计分析时,首先要作

8、出散点图,然后进行相关性检验,在确认具有线性相关关系后,再求其回归直线,【例2】 一台机器使用时间较长,但还可以使用它按不同的转速生产 出来的某机械零件有一些会有缺点,每小时生产有缺点零件的 多少,随机器运转的速度而变化,下表为抽样试验结果:,(1)对变量y与x进行相关性检验; (2)如果y与x有线性相关关系,求回归直线方程; (3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么, 机器的运转速度应控制在什么范围内?,思维点拨:利用相关系数r进行线性相关检验(也可利用散点图)如果线性相 关,再求回归直线方程并加以判断,因为r0.5,所以y与x有很强的线性相关关系,(2) 0.7

9、28 6x0.857 1. (3)要使 100.728 6x0.857 110, 所以x14.901 3. 所以机器的转速应控制在14.901 3转/秒以下,变式2:假设关于某设备的使用年限x和所支出的维修费用y(万元), 有如下的统计资料:,(1)y与x间是否有线性相关关系?若有,求出线性回归方程; (2)估计使用年限为10年时的维修费用,解:(1)作散点图,如右图 由散点图可知,y与x呈线性相关关系,,1.23,所以回归直线方程为 =1.23x+0.08.,(2)当x=10时, =1.2310+0.08=12.3+0.08=12.38(万元),即估计使用10 年时,维修费用是12.38万元

10、.,所谓独立性检验,就是根据采集样本的数据,先利用三维柱形图和二维条形图粗略判断两个分类变量是否有关系,再利用公式计算K2的值,比较它与临界值的大小关系,来判断事件X与Y是否有关的问题,【例3】 (2009辽宁)某企业有两个分厂生产某种零件,按规定内径尺寸 (单位:mm)的值落在29.94,30.06)的零件为优质品从两个分 厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:,(1)试分别估计两个分厂生产的零件的优质品率; (2)由以上统计数据填下面22列联表,并问是否有99%的把握认为 “两个分厂生产的零件的质量有差异”.,解:(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的

11、零件的优质品 率估计为 72%; 乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计 为 64%. (2),所以有99%的把握认为“两个分厂生产的零件的质量有差异”,变式3:在对人们休闲方式的一次调查中,共调查了124人,其中女性70 人,男性54人女性中有43人主要的休闲方式是看电视,另外27人 的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外 33人主要的休闲方式是运动 (1)根据以上数据建立一个22列联表; (2)画出二维条形图; (3)检验休闲方式是否与性别有关,可靠性有多大,解:(1)22列联表如图:,(2)二维条形图如图:,(3)假设休闲方式与性别无关,

12、则 K2 6.2015.024,所以有理 由认为休闲方式与性别无关是不合理的,即我们有97.5%的把握认为 休闲方式与性别有关.,【方法规律】,1求回归方程,关键在于正确求出系数a,b,由于a,b的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误(注意回归直线方程中一次项系数为b,常数项为a,这与一次函数的习惯表示不同) 2回归分析是处理变量相关关系的一种数学方法主要解决:确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;根据一组观察值,预测变量的取值及判断变量取值的变化趋势;求出回归直线方程 3独立性检验是一种假设检验,在对总体的估计中,通过抽取样本,构造合适的随

13、机变量,对假设的正确性进行判断.,【规范解答】,从而 ,所以物理成绩更稳定,(2)由于x与y之间具有线性相关关系,根据回归系数公式得到 b 0.5,a1000.510050, 线性回归方程为 0.5x50.当y115时,x130. 建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于 物理成绩的进一步提高,为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议现对他前7次考试的数学成绩x、物理成绩y进行分析下面是该生7次考试的成绩,(1)他的数学成绩与物理成绩哪个更稳定?请给出你的证明;,(2)已知该生的物理成绩y与数学成绩x是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议,【易入误区】,成绩的稳定性用样本数据的方差判断,由物理成绩估计数学成绩由回归直线方程解决本题容易出错的就是把回归系数和回归常数弄颠倒,导致解题错误,回归系数与回归常数回归直线方程 bxa和通常的一次函数表达式 在系数上的习惯不一样,这里的系数,叫做回归系数,求回归直线方程时首先求这个系数,然后由 计算出的a叫做回归常数在求回归直线方程时注意不要把这两个系数弄颠倒了.,【状元笔记】,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号