统计学原理:第7章相关分析与回归分析

上传人:cl****1 文档编号:569802164 上传时间:2024-07-31 格式:PPT 页数:100 大小:6.29MB
返回 下载 相关 举报
统计学原理:第7章相关分析与回归分析_第1页
第1页 / 共100页
统计学原理:第7章相关分析与回归分析_第2页
第2页 / 共100页
统计学原理:第7章相关分析与回归分析_第3页
第3页 / 共100页
统计学原理:第7章相关分析与回归分析_第4页
第4页 / 共100页
统计学原理:第7章相关分析与回归分析_第5页
第5页 / 共100页
点击查看更多>>
资源描述

《统计学原理:第7章相关分析与回归分析》由会员分享,可在线阅读,更多相关《统计学原理:第7章相关分析与回归分析(100页珍藏版)》请在金锄头文库上搜索。

1、第七章第七章 相关分析与回相关分析与回归分析分析123第七章 相关分析与回归分析相关分析简单线性回归分析多元线性相关与回归分析2024/7/312相关系数的检验相关系数的检验512相关图和相关表相关图和相关表34第一节 相关分析函数关系与相关关系函数关系与相关关系相关关系的种类相关关系的种类相关系数及其计算方法相关系数及其计算方法2024/7/313联系与相互影响是普遍的现象受教育的水平工作后的收入预防疾病支出疾病的发病率对事物相互间关系的分析即是对两变量或多变量间的数量关系的分析,也就是进行相关分析和回归分析。2024/7/314出租汽车费用与行驶里程:出租汽车费用与行驶里程: 总费用总费用

2、=行驶里程行驶里程 每公里单价每公里单价确定性关系确定性关系函数关系函数关系第一节 相关分析一、函数关系与相关关系 2024/7/315当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,那么这种关系就称为确定性的函数关系。2024/7/316家庭收入与恩格尔系数之间的关系:家庭收入与恩格尔系数之间的关系: 家庭收入高,则恩格尔系数低。家庭收入高,则恩格尔系数低。非确定性关系非确定性关系相关关系相关关系当一个或几个相互联系的变量取一定数值时,与之相对应的另一个变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。那么变量间的这种相互关系,就称为具有不确定性的相关关系。例如:收入与消费

3、的关系,小麦与施肥量和灌溉量的关系等。变量的变动只是部分地受制于其他变量,除此之外它还受到各种随机性偶然因素的影响。变量间的函数关系和相关关系在一定条件下是可以互相转化的。(一)散点图散点图(Scatter diagram):在平面直角坐标系上将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。用途:在进行定量分析之前,可以先利用它对现象之间的相关关系的方向、形式和密切程度作大致的判断。二、相关关系的种类 2024/7/317(X,Y)2024/7/318XY散点图矩阵2024/7/319三维散点图2024/7/3110相关关系的种类完全相关函数关系不相关不完全

4、相关线性相关非线性相关正相关负相关单相关复相关偏相关(二)相关关系的种类2024/7/3111完全相关完全相关2024/7/3112XY无(不)相关2024/7/3113XY线性正相关2024/7/3114XY线性负相关非线性相关2024/7/3115XY三、相关表 将某一变量按其数值的大小顺序排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。2024/7/3116例71:对某公司11年来销售收入和年广告费进行调查,得到的资料表所示。 解:将广告费按从小到大的顺序排列,可编制相关表如下。可以看出,两变量间存在明显的正相关关系。广告费(万元)4058336580805630

5、339072年销售收入(百万元)1314122026261412123022广告费(万元)3033334056586572808090年销售收入(百万元)12121213141420222626302024/7/3117根据上表资料绘制散点图如下:2024/7/3118相关系数(correlation coefficient):是协方差与两变量标准差乘积的比值,是没有量纲的、标准化的协方差。总体相关系数样本相关系数常数一致估计量2024/7/3119四、相关系数(二)样本相关系数的计算计算样本相关系数的公式:2024/7/3120例7-2:有关15个地区某种食物需求量和地区人口增加量的资料。2

6、024/7/3121解:将数据代入相关系数计算的公式中,可得:2024/7/3122(三)相关系数的特点2024/7/3123相关关系的测度-1.0+1.00-0.5+0.5完全负相关完全负相关无线性相关无线性相关完全正相关完全正相关负相关程度增加负相关程度增加负相关程度增加负相关程度增加r正相关程度增加正相关程度增加2024/7/3124经验认为:2024/7/3125(四)使用相关系数时应注意的问题相关关系不等于因果关系;如果一件事的发生在其他事件之后,那么第二个事件一定是由第一个事件引起的。这种因果关系成立的前提是:该事件是一个独立行动的结果,不受其后发生的事件的影响。弗里德曼研究发现,

7、货币供应增长率总是先于产出的下降。因此,倡导自由主义。2024/7/3126正确吗?迄今为止,这21家银行总计获得了超过2110亿美元的联邦资金救助,显然这些钱并没有达到美国政府重启信贷市场进而刺激经济的目的。约翰卡特认为,银行不愿放贷的直接后果就是企业和消费者缩紧开支,从而有可能延长并加深美国经济的衰退。但与此同时,美财政部在报告中又将信贷下降的原因归结为整体经济疲软,包括消费者信心低迷、高失业率以及出口下降等。当月贷款规模下降最大的摩根大通也表示,其企业贷款大幅缩水的原因是美国整体经济不景,称企业需求下降和因风险加大而导致的贷款利率上升是限制信贷发放的主要原因。银行放贷与经济复苏之间似乎是

8、“鸡生蛋、蛋生鸡”的问题,破解不易。http:/ 在X 与Y 都服从正态分布,并且又有=0 的条件下,可以采用t检验来确定变量之间相关关系的显著性。步骤为:首先,计算相关系数的检验统计量的值:其次,根据给定的显著性水平和自由度(n-2) 查找t 分布表中相应的临界值 。 若 ,表明r 在统计上是显著的。 若 ,表明r 在统计上是不显著的。2024/7/3132对前例计算的相关系数进行显著性检(0.05)提出假设:H0: ;H1: 0计算检验的统计量根据显著性水平根据显著性水平 0.050.05,查,查t t分布表得分布表得t t( (n n-2)=2.160-2)=2.160由于由于 t t

9、=48.385=48.385t t(15-2)=2.160(15-2)=2.160,拒绝,拒绝H H0 0,该,该种食物需求量和地区人口增加量之间的相关关系显著。之间的相关关系显著。2024/7/3133一元线性回归模型预测一元线性回归模型预测51234第二节 简单线性回归分析相关分析与回归分析的关系相关分析与回归分析的关系一元线性回归模型一元线性回归模型模型参数的估计模型参数的估计一元线性回归模型的检验一元线性回归模型的检验2024/7/31341877年 弗朗西斯高尔顿爵士 在遗传学研究过程中测量了1078个父亲及成年儿子的身高,它们之间的数量关系如图1:2024/7/3135“回归”一词

10、的由来:多数点子位于角平分斜线的两侧椭圆形面积之内,落在斜线上的点子极少,即儿子与父亲身高完全相同的极少。由点子落在斜线周围还说明,高个子的父亲有着较高身材的儿子,而矮个子父亲的儿子身材也比较矮。同时,我们也看到一些远离斜线的点子,这些点子反映的是父亲的身高与儿子的身高相差甚远的情况。比如高个子的父亲有矮儿子的情况,或者矮父亲有高个儿子的情况。45线作相关分析知道,父亲身高和儿子身高的相关系数为0.501,表明高个子的父亲会有较高的儿子,而低个子父亲的儿子也比较低,但这种相关关系并不明显。那么,父子身高之间有什么规律呢?经过对1078对父子身高数据的计算,得到:父亲的平均身高 =67.6英寸6

11、8英寸儿子的平均身高 =68.7英寸69英寸儿子的平均身高比父亲高一英寸,表明下一代的平均身高比上一代要高?这样,我们会自然地猜测72英寸的父亲平均会有73英寸的儿子;64英寸的父亲平均会有65英寸的儿子。2024/7/3136图2中斜虚线是从父子身高推测的关系,即58英寸父亲有59英寸的儿子,59英寸的父亲有60英寸的儿子等等。图2中的实线是回归线。对于每一身高父亲与所对应的虚线柱内若干儿子的平均身高之间的关系。2024/7/3137在父亲身高64英寸和72英寸处的两个条形虚线,表明64英寸高父亲和72英寸高父亲的儿子们身高的分布情况回归regression平均身高图2表明64英寸高父亲的儿

12、子们的身高多数高于65英寸,即较矮父亲的儿子们多少比父亲身材要高。而72英寸高父亲的儿子们身高多数低于73英寸,甚至多数低于与父亲同样高度的72英寸,即较高父亲的儿子们多数比父亲身材要矮。这种现象称为“回归效应”即回归到一般高度的效应。2024/7/3138回归分析(regression):是关于一个称为“因变量(被解释变量)”的变量对另一个或多个叫做“自变量(解释变量)”的变量的依赖关系的分析。目的是通过后者(在抽样中)的已知或设定值,去估计和预测前者的(总体)均值。相关分析就是用一个指标来表明现象间相互依存关系的密切程度。2024/7/3139广义的相关分析包括相关关系的分析(狭义的相关分

13、析)和回归分析。 相关分析回归分析区别 不必确定自变量和因变量必须事先确定哪个为自变量,哪个为因变量不能指出变量间相互关系的具体形式能确切的指出变量之间相互关系的具体形式变量一般都是随机变量因变量是随机的,自变量则作为研究时给定的非随机变量联系 相关分析是回归分析的基础和前提;回归分析是相关分析的深入和继续。2024/7/3140二、标准的一元线性回归模型 当变量之间存在显著的相关关系时,可以利用一定的数学模型对其进行回归分析。其内容是:从一组样本数据出发,确定变量之间的数学关系式。对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著。利用

14、所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。2024/7/3141回归模型的类型回归模型回归模型多元回归多元回归一元回归一元回归线性线性回归回归非线性非线性回归回归线性线性回归回归非线性非线性回归回归在回归分析中,最简单的模型是只有一个因变量和一个自变量的线性回归模型,即一元线性回归模型2024/7/3142一个自变量一个自变量两个及两个以上自变量两个及两个以上自变量(一)总体回归模型Y X80100120140160180200220240260每周家庭消费支出Y55657980102110120135137150607084931

15、071151361371451526574909511012014014015517570809410311613014415216517875859810811813514515717518088113125140160189185115162191共计32546244570767875068510439661211条件期望657789101113125137149161173X :每周家庭收入(美元)下表是一个村子全部60户家庭的每周家庭消费支出与每周可支配收入的数据2024/7/3143XY每周消费支出(美元)每周收入(美元)总体回归线80120160140180200220240260

16、在几何意义上,总体回归线就是当自变量取给定值时因变量的期望值的轨迹。2024/7/3144XY2024/7/3145总体回归方程XY(二)样本回归模型2024/7/3146样本回归方程下表是从总体中抽取的两个样本的数据。2024/7/3147根据两个不同样本的回归线2024/7/3148样本回归函数与总体回归函数的区别2024/7/3149样本与总体回归线SRF过低估价了PRF过高估计需要寻找一种尽可能“接近”的近似!2024/7/3150(三)误差项的基本标准假定这一假定是说,凡是模型不显含的并因而归属于ui的因素,对Y的均值都没有系统的影响,或者说它们对Y的平均影响为零。2024/7/31

17、51同方差异方差2024/7/3152富有家庭平均比贫穷家庭消费更多,但前者的消费支出也有更大的变异。这个假定的解释如下:如果各误差项存在序列相关,那么Yi不仅依赖于Xi,而且依赖于ui-1,因为ui-1在一定程度上决定了ui。因此,有此假定就只考虑Xi对Yi的系统性影响,而不去担心由于u之间的相关而造成的其他可能作用于Y的影响。2024/7/3153无序列相关或无自相关如果假定X是非随机的,并且误差项的均值为零,那么自变量与随机误差项一定线性无关。因为,2024/7/3154作此假定的理由是:在表述总体回归函数时,就假定了X 和u对Y 有各自的(并且可加的)影响。如果X 和u是相关的,当二者

18、是正相关时, u增大(减小) X 会相应的增大(减小),此时就不可能评估它们各自对Y的影响。作此假定的理由是:如果误差项服从正态分布,那么Y 就服从正态分布,此时1就服从正态分布,那么在作回归系数显著性检验时构造的统计量就服从正态分布。2024/7/3155xy(Xn , Yn)(X1 , Y1)(X2 , Y2)(Xi , Yi)三、一元线性模型的估计(一)回归系数的点估计OLS法要使得样本回归函数尽可能的靠近实际的Y,就就要使残差平要使残差平方和尽可能方和尽可能的小。的小。2024/7/3156希望Y的估计值从整体上来看尽可能地接近其实际观测值。正规方程式组2024/7/31572024/

19、7/3158代表直线的起点值,在数学上称为直线的纵轴截距表示自变量X每变动一个计量单位时因变量Y的平均变动值,数学上称为直线的斜率,也称回归斜率系数。2024/7/3159例:现以前例的资料拟合回归直线:2024/7/31602024/7/3161上式中 表示人口增加量每增加(或减少)1千人,该种食品的年需求量平均来说增加(或减少)0.5301(十吨),即5.301吨。2024/7/3162(二)总体方差的估计2024/7/3163总体随机误差项的方差除了两个回归系数外,一元线性回归模型还包括了另一个未知参数,即总体随机误差项的方差 。由于随机误差项本身是不能直接观察的,因此,需要用样本回归函

20、数的残差平方和 与其自由度之比来代替。即:为什么是n-2?为什么自由度是n-2?因为变量需要满足以下两个条件,所以能够自由取值的变量的个数是n-2个。2024/7/31642024/7/3165 能够衡量因变量的实际值与其估计值离差的一般水平。它越小表明回归线越有代表性。要和“抽样标准误”区别2024/7/3166证明:由最小二乘法得到例:仍用前例计算回归估计标准差2024/7/3167用简化式计算的结果为:2024/7/3168 的抽样分布2024/7/3169(三)回归系数的区间估计总体随机误差项的方差在总体随机误差项的方差未知的情况下,(n 0,则F值0。当我们设1 = 0 时,则较大的

21、F值将推翻这一假设。故拒绝原假设,接受备择假设,即认为回归方程是显著的。2024/7/3185报告回归分析的结果2024/7/3186回归系数的估计标准误自由度3.8128=24.445/6.413887五、一元线性回归模型预测回归模型的预测是指:根据自变量X的取值预测因变量Y的取值,预测的类型有:点预测和区间预测2024/7/31点预测就是对于给定的 X 值,求出 Y 平均值的一个估计值。点预测2024/7/3188若 X0 = 169,则:线性回归分析在EXCEL中的实现在“统计函数”中:INTERCEPT截距;SLOPE 斜率;RSQ 回归直线的判定系数;STEYX 回归估计的标准误;F

22、ORECAST 一元线性预测。工具数据分析分析工具回归。2024/7/3189练习:1. 相关关系与函数关系之间的联系体现在()A. 相关关系普遍存在,函数关系是相关关系的特例B. 函数关系普遍存在,相关关系是函数关系的特例C. 相关关系与函数关系是两种完全独立的现象D. 相关关系与函数关系没有区别正确答案: A 2024/7/31902. 当一个现象的数量由小变大,而另一个现象的数量相反地由大变小时,这种相关关系称为()。A. 线性相关B. 非线性相关C. 正相关D. 负相关正确答案: D 2024/7/31913. 配合回归直线方程对资料的要求是()。A. 因变量是给定的数值,自变量是随机

23、的B. 自变量是给定的数值,因变量是随机的C. 自变量和因变量都是随机的D. 自变量和因变量都不是随机的正确答案: B 2024/7/31924. 在回归直线方程(见图1)中,b表示()A. 当x增加一个单位时,y增加a的数量B. 当y增加一个单位时,x增加b的数量C. 当x增加一个单位时,y的平均增加量D. 当y增加一个单位时,x的平均增加量正确答案: C 2024/7/31935. 回归估计的估计标准误差的计量单位与() A. 自变量相同 B. 因变量相同 C. 自变量及因变量相同 D. 相关系数相同 正确答案: B 2024/7/31946. 已知变量X与Y之间存在着负相关,指出下列回归

24、方程中哪一个肯定是错误的() A. B. C. D. 2024/7/3195正确答案: C 多选题1. 相关关系与函数关系各有不同的特点,主要体现在:A. 函数关系是一种不严格的相互依存关系B. 函数关系可以用一个数学表达式精确表达C. 函数关系中各变量均为确定性的D. 现象相关为关系时,是有随机因素影响的依存关系E. 相关关系中现象之间仍然可以通过大量观察法来寻求其变化规律正确答案: B,C,D,E, 2024/7/31962. 估计标准误差是反映()A. 回归方程代表性的指标B. 自变量离散程度的指标C. 因变量数列离散程度的指标D. 因变量估计值可靠程度的指标E. 自变量可靠程度的大小正

25、确答案: A,D, 2024/7/31973. 可决系数的作用在于()。 A. 说明因变量的变异程度 B. 说明因变量Y的总变异中受自变量X变异影响部分所占比重 C. 说明两变量的相关程度 D. 判断估计标准误的大小 E. 计算相关系数 正确答案: B,D,E,2024/7/3198判断题:1.不具有因果关系的两个变量的相关关系为0。2.当所有观察值Y都落在回归直线上,则X与Y之间的相关系数为1。3.若两变量完全相关,则估计标准误为1。4. 已知两变量直线回归方程,则可断定这两个变量之间一定存在什么样的线性相关关系。5. 在其他条件不变的情况下,相关系数越大,估计标准误差就越大;反之,估计标准误差就越小。可见估计标准误差的大小与相关系数的大小是一致的。答案:F T F T F 2024/7/31992024/7/31100

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号