统计学基础第八章课件

上传人:大米 文档编号:569861181 上传时间:2024-07-31 格式:PPT 页数:37 大小:904KB
返回 下载 相关 举报
统计学基础第八章课件_第1页
第1页 / 共37页
统计学基础第八章课件_第2页
第2页 / 共37页
统计学基础第八章课件_第3页
第3页 / 共37页
统计学基础第八章课件_第4页
第4页 / 共37页
统计学基础第八章课件_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《统计学基础第八章课件》由会员分享,可在线阅读,更多相关《统计学基础第八章课件(37页珍藏版)》请在金锄头文库上搜索。

1、第八章第八章 相关与回相关与回归第一第一节 相关关系的概念与种相关关系的概念与种类一、变量之间的关系1.函数关系(也称确定性关系)即变量之间存在着确定的依存关系。其特点是对于一个或一组变量的每一确定的值,另一个变量都有惟一确定的值与之对应,这种关系能用函数来表达。例如对于商品的销售额,当价格P不变时,销售额Y由销售量X惟一确定,X与Y具有一一对应的确定性关系,可以用这种函数来表达,这种关系就是函数关系。2.相关关系(也称非确定性关系)即变量之间显然存在着密切的关系,但不是确定的依存关系。其特点是对于一个(或一组)变量的每一个确定的值,另一个变量有多个值与之对应,这种关系不能用普通函数来表达。例

2、如单位面积上的粮食产量与施肥量有关,即在一定范围内,随着施肥量的增加,粮食产量也相应有所提高。 二、相关关系的分二、相关关系的分类1.单相关和复相关从变量的多少来看,相关可以分为单相关和复相关。单相关也称一元相关,是指两个变量间的相关关系;复相关也称多元相关,是指三个或三个以上变量间的相关关系。(二)线性相关和非线性相关从变量之间相互关系的表现形式来看,相关可以分为线性相关和非线性相关。线性相关也称直线相关,是指当一个变量每增(减)1个单位,另一相关变量按一个近似固定的增(减)量变化。从散点图上看,其观测点的分布近似地表现为一条直线形式,见图8-1(a)与(b)所示;非线性相关也称曲线相关,是

3、指当一个变量每增(减)1个单位,另一相关变量按不固定的增(减)量变化。从散点的分布近似地表现为某种曲线形式。见图8-2所示。(a)正线性相关(b)负线性相关图8-1线性相关关系图8-2非线性相关(三)正相关和负相关从变量之间变化的方向来看,线性相关可以分为正相关和负相关。正相关是指相关变量按同一方向变化,即当一个变量的值增加时,另一个变量的值也相应地增加,见图8-1(a)所示;负相关是指相关变量按反方向变化,即当一个变量的值增加时,另一个变量的值却相应地减少,见图8-1(b)所示。(a)正线性相关(b)负线性相关图8-1线性相关关系图8-2非线性相关(四)完全相关、不相关和不完全相关从变量之间

4、关系的密切程度来看,相关可以分为完全相关、不相关和不完全相关。完全相关是指变量之间的关系是函数关系,见图8-3所示。不相关是指变量之间不存在关系,相互独立,见图8-4所示。不完全相关是指变量之间的关系介于完全相关和不相关之间,见图8-1和图8-2所示。相关分析和回归分析研究的主要是不完全相关的问题。 图图8-3 完全相关完全相关 图图8-4 不相关不相关第二第二节 相关分析的内容与方法相关分析的内容与方法一、相关分析的主要内容一、相关分析的主要内容(1)研究现象之间有无依存关系存在,以及依存关系的表现形式。这是相关分析的出发点。有相互依存关系才能用相关分析方法进行分析研究,没有关系而当作有关系

5、会导致错误的结果。关系表现为什么样的形式,就需要使用什么样的分析方法。把曲线相关当作直线相关来进行分析,也会使认识发生偏差。(2)研究相关关系的密切程度。相关关系是一种数量关系不严格的相互依存关系,相关分析的一个目的就是从这种不严格的关系中想办法来判断它们之间关系的密切程度。判断相关关系密切程度的主要方法是计算相关系数和绘制相关图。二、相关分析的主要方法二、相关分析的主要方法(一)相关表与相关(一)相关表与相关图1相关表相关表是统计表的一种表现形式。根据资料是否分组,相关表可分为简单相关表和分组相关表。(1)简单相关表是资料未经分组的相关表。这是把影响因素(称自变量)的标志值与被影响因素(称因

6、变量)的标志值按着从小到大一一对应平行排列起来的统计表。例如,某厂的机床使用年限与维修费用资料如表8-1所示。机床编号12345678910使用年限3344556677维修费用(元)400540520620600740700760700820表8-l机床使用年限与维修费用相关表(2)分组相关表。如果原始资料很多,绘制相关图、编制简单相关表都不方便,可以编制分组相关表。分组相关表是将原始资料进行分组而编制的相关表。按分组的情况不同,分为单变量分组表与双变量分组表两种。1)单变量分组表,是具有相关关系的两个变量中,只根据一个变量进行分组,计算出变量组和平均数的相关表。例如为研究某县40块耕地每亩施

7、肥量与小麦亩产量的相依关系,编制单变量分组表见表8-2。按施肥量分组(kg/亩)亩数/亩产量(kg)平均亩产量(kg/亩)75以下659098.375-10091125125.0100-12571140162.9125-15061100183.3150-17571395199.3175以上51055211.0表8-240块耕地每亩施肥量与小麦亩产量分组相关表双变量分组表,是对自变量和因变量都进行分组编制的相关表。双变量分组表也叫棋盘式相关表。如果将上述40块耕地每亩施肥量与小麦亩产量的资料编制成双变量分组表如表8-3。按每亩施肥量分组/kg按亩产量分组/kg合计110以下110-145145-

8、180180-215215-250175以上325150-l7577125-150246100-12561775-10081950-75426合计410915240表8-340块耕地每亩施肥量与小麦亩产量相关表2相关图相关图是根据原始数据或分组表将对应数值在坐标图上用点画出来,以表明相关点的分布状况。一般地说,把自变量(x)置于横轴上,因变量(y)置于纵轴上。通过相关图,可以大致看出两个现象之间有没有关系,是什么样的关系,密切程度如何。根据表8-2的资料,可绘制施肥量与小麦亩产量的相关图,如图8-5所示。图8-5小麦亩产量与施肥量相关图其中y表示小麦平均亩产量,x表示每亩施肥量,单位为(公斤/

9、亩)。(二)相关系数相关表和相关图只能反映相关关系的方向和形态,却不能说明相关关系的密切程度,为此,需要计算相关系数。相关系数是描述两个现象之间线性相关关系密切程度的数字指标。计算相关系数的方法很多,以英国统计学家皮尔生的积差法为基本方法,其公式为:(8.1)式中r称为相关系数。其中:,称为x与y的协方差。,是x的标准差。,是y的标准差。所以相关系数可表示为(8.1)【例8-1】以某厂机床使用年限与维修费的资料为例说明相关系数的计算。计算按下列步骤进行:(1)计算两个数列的平均值。机床平均使用年限:(年)平均每台机床维修费:(元)(2)计算表8-4上第(3)到(7)各栏数值,并得出合计数。3.

10、计算自变量数列标准差4.计算因变量数列标准差5.计算相关系数用积差法计算相关系数,需计算离差,计算过程较繁杂,实际工作中一般采用简算公式:(8.3)将表85的数据代入公式(8.23)可得=0.8602计算结果与按式(8.2)计算结果完全相同。表8-5相关系数简算公式计算表相关系数简算公式计算表公式(8.2)和(8.3)都是在相关表为简单表的情形下计算相关系数的公式。如果从单变量分组表计算相关系数则需要进行加权,若用积差法计算,其公式为:(8.4)如果用简算公式计算则公式为:(8.5) (三)相关密切程度的判断(三)相关密切程度的判断根据相关系数r数值的大小判断两变量的密切程度如下:(1)当|r

11、|=1时,x与y完全线性相关,即x与y之间存在着确定的函数关系。(2)当0|r|1时,表示x与y之间存在着一定的线性相关关系。|r|的数值愈大,愈接近于1,表示x与y的直线相关程度愈高;反之,|r|的数值愈小,愈接近于0,表示x与y的直线相关程度愈低。通常,判断电标准是:|r|0.3,称为微弱相关;0.3|r|0.5,称为低度相关;0.5|r|0.8,称为显著相关0.8|r|1,称为高度相关。(3)当r0时,表示x与y为正相关;当r0时,表示x与y为负相关。(4)当|r|=0时,表示y的变化与x无关,即x与y完全没有直线相关关系。第三第三节 回回归分析分析一、回一、回归分析的主要内容分析的主要

12、内容(1)确定相关关系的数学表达式。(2)检验所建立数学模型的可靠性。 二、回二、回归分析与相关分析的区分析与相关分析的区别与与联系系回归分析和相关分析是互相补充、密切联系的。相关分析需要回归分析来表明现象数量关系的具体形式,而回归分析则应该建立在相关分析的基础上。依靠相关分析,表明现象的数量变化具有密切的相关关系后,进行回归分析才有意义。三、回三、回归分析的种分析的种类(一)一元线性回归根据实测值绘制散点图时,如果图中反映两变量之间的关系呈直线趋势,则可以初步判定两者之间存在线性关系,其关系式为:上式中a、b的值确定后,直线也就确定了。在回归分析中,a、b的值确定后,则估计直线的方程可以写作

13、:(8.6)式中, 表示自变量;表示因变量的估计值。式(8.6)称为对的直线回归方程或线性回归模型,该直线称为回归直线,b称为回归系数。拟合回归直线的主要问题就在于估计待定参数a和b的值。常用的方法是最小二乘法,用这种方法求出的回归直线是实测资料的“最佳”拟合直线。这和最小二乘法求直线趋势方程一样,只要将(5.9)式中时间变量的符号t改为自变量x,即可得如下方程组:解方程组得:(8.7)【例8-2】某产品的产量与单位成本的资料与有关计算结果见表8-6。从表中可大致地看出,单位成本和产量间具有线性负相关关系,即随着产量的增加,单位成本不断下降。设两者的关系式为:按公式(8.7)计算a、b的值为:

14、= 所以回归方程为:(8.8)此回归方程表示产量每增加1000件,单位成本平均下降1.82元。我们知道当回归系数b的符号为正时,自变量和因变量按相同方向变动;当b的符号为负时,自变量和因变量按相反方向变动。这里b=-1.82,说明产量与单位成本成反比例变化,即产量越大,成本越低。当给定自变量一个值时,我们可以根据回归方程来估计或预测因变量的平均可能值。例如,若产量为6000件,代入回归方程可算得平均单位成本为:(元)(二)回归效果检验(8.9)用8-2中的资料来说明回归标准差的计算方法。中间数据的计算见表8-7表87估计标准误差计算表估计标准误差计算表把计算结果代人公式(8.9),即得:(元/

15、件)当实际观察值甚多,且数值较大时,根据上面公式计算估计标准误差十分麻烦,此时可采用以下的简化公式计算:(8.10)(元)(三)回归系数、回归标准差与相关系数的关系1.回归系数与相关系数的关系由相关系数简算公式可推得(8.11)又由回归系数公式(8.12)将式(8.11)代入(8.12)并整理便得(8.13)式(8.13)反映了相关系数r与回归系数b之间的数量关系。相关系数r值是有正、负之分的,它反映两个变量相关的方向。由(8.13)我们看到r的正、负号要由回归系数b的符号来确定,b的正、负号与r的符号是一致的,因为在回归直线y=a+bx中,当回归系数b为正值时,y会随着x的增大而增加,此时r

16、必然为正值,反之,当b为负值时,y将随着x的增大而减少,所以r必然为负值。2.相关系数和回归标准差之间的关系因为而所以即 除以n便得到此即上式两边同时除以 得或于是得到(8.14)(四)多元线性回归多元线性回归描述一个因变量与两个或两个以上自变量之间的数量关系。其回归方程的一般表达式为:多元线性回归是一元线性回归的推广,在计算上较复杂,但其基本原理与一元线性回归分析类似,这里仅以二元线性回归为例来加以说明。其线性回归方程为:上式中,a为常数项,b1表示自变量x2一定时,由于自变量x1变化一个单位而使y平均改变的数值;b2表示自变量x1一定时,由于自变量x2变化一个单位而使y平均改变的数值,因此,b1和b2称为偏回归系数。a、b1和b2的求解方法仍用最小二乘法便得如下正规方程组:【例8-3】,消费者对某种商品的需求量主要取决于消费者的收入和该商品的价格,假设已知资料如表8-8所示。将表中算出的数值代人正规方程组得:解此方程组,得a =57.15,b1=0.01, b2=-5.44于是二元线性回归方程为:上式表明,当商品价格(x2)不变时,需求量将随着消费者收入的增加而有所增加(b1正值);当消费者车平均收入(x1)不变时,需求量随着价格的上涨而减少(b1是负值)。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号