统计学之相关分析的意义与任务

上传人:luobi****88888 文档编号:94013052 上传时间:2019-07-31 格式:PPT 页数:47 大小:841KB
返回 下载 相关 举报
统计学之相关分析的意义与任务_第1页
第1页 / 共47页
统计学之相关分析的意义与任务_第2页
第2页 / 共47页
统计学之相关分析的意义与任务_第3页
第3页 / 共47页
统计学之相关分析的意义与任务_第4页
第4页 / 共47页
统计学之相关分析的意义与任务_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《统计学之相关分析的意义与任务》由会员分享,可在线阅读,更多相关《统计学之相关分析的意义与任务(47页珍藏版)》请在金锄头文库上搜索。

1、本资料来源,第七章相关分析,1相关分析的意义和任务 2简单线性相关 3回归分析 4估计标准误差,1 相关分析的意义与任务,一、函数关系与相关关系 例如: 半径与圆面积的关系 工资水平与社会商品零售额的关系 良种比重与收获量的关系 沸点(100度) (a+b)2 = a2+2ab+b2 砖头的抗压强度与抗折强度,函数关系,函数关系,函数关系,相关关系(因果),相关关系(因果),相关关系,现象之间的关系一般可以区分为两种不同的类型:,函数关系:当一个或几个变量取一定值时,另一个变量有确定值与之相对应,这种关系称为确定性的函数关系。 在函数关系中,一般把作为影响因素的变量称为自变量(x);把发生对应

2、变化(结果)的变量称为因变量(y)。 相关关系:当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系。,函数关系与相关关系是两种不同类型的关系,但两者之间并不存在严格的界限。,由于在观察或实验中出现的误差,函数关系也就通过相关关系反映出来; 而当对现象之间的内在联系和规律性了解得更加清楚的时候,相关关系就可能转化为函数关系。 在相关关系中,通常存在一定的因果关系。但也应该知道,在相关关系中,有时两个变量之间只存在相互联系而并不存在明显的因果关系。,二、相关关系的种类,按相关的程度划分为:完

3、全相关(函数关系)、不完全相关和不相关; 按相关的方向划分为:正相关和负相关; 按相关的形式划分为:线性相关(直线关系)和非线性相关; 按所研究的变量多少可分为:单相关、复相关和偏相关。,按相关程度划分为:,完全相关:当一个现象的数量变化完全由另一个现象的数量变化所决定时,这两种现象间的关系就为完全相关(函数关系)。如:半径与圆面积之间的关系。 不相关:当两个现象彼此互不影响,其数量变化各自独立时,这两种现象间的关系就为不相关。如:股票价格与人的平均寿命之间的关系。 不完全相关:当现象之间的关系介于完全相关和不相关之间时,这两种现象间的关系就为不完全相关。如:居民的收入水平与恩格尔系数之间的关

4、系。,按相关的方向划分为:,正相关:当一个现象的数量由小变大,另一个现象的数量也相应由小变大,这种相关称为正相关。如:职工的工资水平应随劳动生产率的提高而增加。 负相关:当一个现象的数量由小变大,而另一个现象的数量相反地由大变小,这种相关称为负相关。如:随着销售额的增加,流通费用率下降,按相关的形式划分为:,线性相关:当两种相关现象之间的关系大致呈现为线性关系时,称之为线性相关(直线相关)。如:人们的消费水平与收入水平之间的关系。 非线性相关:当两种相关现象之间近似于某种曲线方程的关系时,则这种相关关系称为非线性关系。如:产品的平均成本与产品产量之间的关系。,按所研究的变量多少划分为:,单相关

5、:两个现象的相关,即一个变量对另一个变量的相关关系。如:投资额与国内生产总值之间的关系。 复相关:当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。如:某种商品的销售额与其价格水平和人们收入水平之间的相关关系。 偏相关:在某一现象与多种现象相关的场合,假定其它变量不变时,其中两个变量的相关关系称为偏相关。如:在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。,三、相关分析与回归分析:这是两种研究现象相关关系的基本方法。,(一)、相关分析 所谓相关分析,就是用一个指标来表明现象间相互依存关系的密切程度。 (二)、回归分析 所谓回归分析,就是根据

6、相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。,回归(Regression):,回归一词,最初是英国生物学家F.Golton在研究遗传学的论文中所采用的词汇(1877年)。他在研究中发现,具有较高身躯的双亲,或具有较矮身躯的双亲,其子女的身高均表现出退回(即回归)到人的平均身高的趋势。他在这一研究中所建立的数学公式被称为回归方程式,其涵义应是关系方程式或估计方程式,但基于历史的原因,通常仍沿用回归方程式这一提法。,(三)、相关分析与回归分析的联系,相关分析与回归分析不仅具有共同的研究对象,而且在具体应用时,常常必须相互补充。 相关分析需要依靠回归分析来表明现象数

7、量相关的具体形式。 回归分析需要依靠相关分析来表明现象数量变化的相关程度。 只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。 因此,相关分析与回归分析被合称为广义的相关分析。,(四)、相关分析与回归分析的区别:,研究目的不同: 相关分析是研究变量之间相关的 方向、相关程度和相关形式。 回归分析是研究变量之间相互关系的具体形式,即:当一个变量发生数量上的变化时,另一个变量平均会发生什么样的变化。 研究方法不同: 相关分析是通过计算相关系数或相关指数来判断变量之间的相关关系。 回归分析是通过数学模型来确定变量之间的具体的数量关系。 变量的性质不同:在相关分析中,不用确定谁

8、是自变量,谁是因变量,且所有变量都是随机变量。 在回归分析中,必须事先确定在具有相关关系的变量中,谁是自变量和谁是因变量。一般来说,自变量是给定的非随机变量(一般变量),因变量是随机变量。,四、相关表和相关图,(一)、居民消费和收入的相关表,单位:百元,可支配收入,消费支出,(二)、消费与收入的相关图,2 简单线性相关分析,相关系数:用于判断线性相关关系。用 积差法进行计算。 相关指数:用于判断所有相关关系,包 括线性和非线性的相关关系。 但要用回归系数b判别其相关 方向。,一、相关系数(r):,相关系数是在直线相关的条件下,说明两个现象之间相关关系密切程度的统计指标。 相关系数的取值范围,是

9、在1和+1之间。计算结果r 0 为正相关,r 0为负相关。相关系数的数值越接近于1(+1或1),表示相关关系越强。越接近于0,相关关系越弱。 如果r =0,则表明两个现象之间完全没有直线相关关系。(但并不表明两个现象之间没有非线性相关) 相关系数的绝对值 r 在0.3以下是无直线相关,在0.30.5是低度直线相关,在0.50.8是显著相关,0.8以上是高度相关。,计算相关系数的方法(积差法):,根据计算结果可以知道:,在第一、三象限中, (xx)(yy)0,为正值; 在第二、四象限中, (xx)(yy)0,为负值;,但(xx)(yy)的大小受变量值个数多少的影响,同样的两个现象会因为变量值个数

10、的多少而出现计算结果的不一致。因此,需要消除计算结果受变量值个数多少的影响。方法就是:将计算结果除以变量值的个数 n。,协方差的作用:,显示 x 与 y 是正相关,还是负相关。相关系数的正负完全取决于协方差的正负。 显示 x 与 y 相关程度的大小。 协方差的绝对值小,表示相关程度低;协方差的绝对值大,表示相关程度高。,但x与y的协方差是名数,不同现象的变异情况不同,相关程度不能直接以协方差大小加以比较。需要以x与y的标准差加以标准化,使协方差化为无名数,使相关系数可以比较不同现象相关程度的高低。而且以x与y的标准差加以标准化以后,使相关系数的绝对值不超过1。,举例说明相关系数的计算:,例:观

11、察收入水平提高对用于食品支出的影响。设:收入水平为x,食品支出为y。,根据资料做散点图:,收入水平,食品支出,从计算结果可以知道,收入水平与用于食品的支出成高度的正相关。,3 一元线性回归分析,在相关分析中,已知两个变量之间有直线相关关系。 就需要确定一个数学表达式反映因变量与自变量之间的关系。 有了这种数学表达式就便于进行解析,当有了自变量的一定数值,就可以估计因变量的数值平均来说将会有怎样的变动。 这样的数学表达式称为回归方程式。 由于变量之间关系的复杂性,回归方程式也有多种类型和形式。 一元线性回归方程式是指一个自变量且相关形式为直线。,举例说明其研究方法:,设:x(自变量)为人均月收入

12、水平, y(因变量)为人均月食品支出额。,从前面的相关分析中,已经看出两个变量之间是线性趋势,因此,可以通过一个线性方程式来表达这种关系: a、b是回归方程的待定参数,其中b称为回归系数。,对研究线性关系来说,回归方程式应当满足这样的要求:,根据方程所确定的估计值 应能代表所有观察值y的全体,而按照 求出的估计直线与各观察点之间应达到最大限度的接近,也就是说,用这条直线来代表y与x的关系,它和实际数据的误差比任何其他直线都小,这样一来,根据回归方程所求的直线就是反映y与x之间的关系的较为合理的一条直线。,利用最小二乘法估计待定系数a和b:,a:是截距,表示当x等于0时,y = a; b:是斜率

13、,表示x每增加一个单位时,y所平均 增加的数值。 也是回归系数,它与相关系数 r 的取值方向一致: b为正值时,r为正,表示正相关; b为负值时,r为负,表示负相关。,一元线性回归方程的具体求法:,a = 9.99元,表示当没有任何收入时,人均用于 食品的支出需要9.99元。 b =0.18元, 表示每增加一元的收入,人均用于 食品的支出平均会增加0.18元。b为 正值,表示收入水平与食品支出的 关系为正相关。,将人均收入水平(x)代入回归方程式,计算得到估计值,将其结果填入统计表。 我们可以看到因变量(y)的观察值和估计值并不一致,存在差异。 这个差异的大小就是衡量直线方程式对所有观察点的代

14、表性的标准。,4 估计标准误差与相关指数,回归方程反映了因变量与自变量之间的变动关系。但它本身并不能反映拟合程度的好坏,在建立方程之后,需要进一步分析估计直线的代表性,所有观察点与估计值之间的离差程度等,这就需要建立一些指标来加以测定。,一、离差平方和的分解,所有观察值y是上下波动的,y取值的这种波动的现象称为变差。产生变差的原因是: 受自变量变动的影响,即x取值的不同; 其他因素的影响。 为了分析这两个方面的影响,需要对总变差进行分解,即:,x,总变差的分解:,:根据线性方程,可以把它看作是由于x的变动所引起。因此, 反映了在y的总变差中由于 x 与 y 的线性依存关系而引起 y 的变化部分

15、,即总变差的变化中被判明或已经解释了的部分,称为回归变差,记作U。 :是每个观察点距回归直线离差的平方和。根据最小二乘法原理,这个量是在所有的直线中与观察点距离平方和最小的一个,它反映的是除了x对y的线性关系影响之外的一切因素对y的影响部分,称为剩余变差,或未解释的变差,记为Q。,二、估计标准误差:,从定义上看,它是观察值y与估计值y的平均离差。,在回归分析中,Sq则反映了所有观察值y对估计值y的平均差异程度。 从回归方程的意义中知道,对给定的自变量x值,观察值y并非总在回归直线上,而是分布在它的周围,这样就必然形成一定的离差。 从直观上看,它反映的是观察值y与估计值y之间的离差,而在它的背后

16、则是反映由自变量x来估计因变量y时所产生的误差。 若是这个离差的值愈小,即按照给定的x值来估计y的误差愈小,因而y的准确程度愈高;相反,若是这个离差的值愈大,从直观上看就是各观察点离开直线愈远,这时按给定的x值来估计y值,其误差就愈大,因而y的准确程度降低。 从这个意义上说,这个标准离差通称为回归估计标准误差。,回归估计标准误差的计算公式:,说明:观察值y与估计值y的平均差异程度是1.91元。,根据正态分布的性质:,趋势值(预测值)落在下列区间的概率是: 落在ySq的区间内约占总次数的68.27%; 落在y2Sq的区间内约占总次数的95.45%; 落在y3Sq的区间内约占总次数的99.73%;,三、判定系数与相关系数,回归变差U,从意义上讲,就是在影响总变差的因素当中已被查明或已被解释了的部分,也就是自

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号