单击此处编辑母版标题样式单击此处编辑母版副标题样式*1第八章 相关与回归分析第一节 相关分析 一、事物之间的关系 因果关系 共变关系 相关关系 例:商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系相关关系(Correlation): 指变量之间存在的不确定的依存关系按涉及变量的多少分为相关关系的种类相关关系的种类按照表现形式不同分为按照变化方向不同分为一元相关多元相关直线相关曲线相关负相关正相关三、相关系数 用r表示样本相关系数,用 表示总体相关系数 r 的取值范围: 0 |r| 1 r0 为正相关,r 0 为负相关; |r|=0 表示不存性线性关系;|r|1 表示完全线性线性相关;0|r|10|r|1表示存在表示存在不同程度线性相关不同程度线性相关: |r| 0.05 ,不相关;P=0.05,显著相关计算机操作 1)作散点图,找相关趋势,若为线性用简单线性相关法 2)AnalyzeCorrelateBivariate(双变量) 选取Pearson相关 3)读取结果: P0.05时,表示相关不显著*SPSS结果实例r=0.54 p=0.000单击此处编辑母版标题样式单击此处编辑母版副标题样式*15(二)双变量等级相关(Spearman斯皮尔曼相关) Spearman 等级相关适用数据 1、双变量,按定序尺度测量的品质变量之间 的相关性。
2、双数值型变量,分布未知,或样本较小 计算公式 1、等级差数法 N为等级个数 D两列成对变量的等级差数 2、原始等级序数法 RX ,RY为两列变量各自排列的等级序数(计算机编程公式)计算机操作 SPSS软件 AnalyzeCorrelateBivariate 选取Spearman相关 结果读取同Pearson相关法上 第二节第二节 回归分析回归分析一、 回归分析的基本概念 将存在有相关性相关性的两个变量,一个作为自变量自变量,另一个作为因变量因变量,建立数学数学方程式方程式,用该方程自变量的值来估计、预测因变量的估计值,这一过程称为回回归分析归分析 回归分析的种类一元回归一元回归(简单回归)(简单回归)多元回归多元回归(复回归复回归)线性回归线性回归非线性回归非线性回归一 元线性回归按自变量的 个数分按回归曲线的形态分相关分析与回归分析的关系(一)区别(一)区别 1、相关分析的任务是确定两个变量之间相关的方向和密切程度,用相关系数来表示回归分析的任务是寻找自变量因自变量影响关系的数学表达式用数学模型来表示 2、相关分析不必确定两变量中哪个是自变量,哪个是因变量,是两个变量之间的双向关系,没有主从之分;而回归关系是两个变量之间的单向关系,是自变量对因变量的影响关系。
回归分析中必须区分因变量与自变量 3、相关分析中两变量是对等的,改变两者的地位,并不影响相关系数的数值,只有一个相关系数而在回归分析中,互为因果关系的两个变量可以编制两个独立的回归方程 4、相关分析中两变量可以都是随机的,而回归分析中因变量是随机的,自变量不是随机的二)联系 1、相关分析是回归分析的基础和前提只有在相关分析确定了变量之间存在一定相关关系的基础上建立的回归方程才有意义 2、回归分析是相关分析的继续和深化只有建立了回归方程才能表明变量之间的依赖关系,并进一步进行预测二、一元线性回归分析(一)一元线性回归的概念 线性回归:自变量与因变量之间呈线性关系的回归关系 一元一元线性回归是指只有一个自变量一个自变量的线性回归 一元线性回归又称为简单线性回归二)分析指标 1、回归方程的建立 2、回归系数及方程的有效性检验(三)线性回归的基本假设 1两变量呈线性关系,且显著相关 2因变量的分布为正态 (四)一元线性回归方程的通式式中: 为直线的截距; 为回归系数(也是回归直线的斜率) (五)一元线性回归方程的建立建立回归方程的步骤一般包括建立回归方程的步骤一般包括:1、根据数据资料作散点图,判断直线关系;2、选定计算回归系数的方法计算与 *P265 公式8.20 8.21(计算机计算的第一类重要指标 )3、将与代入直线方程的通式,得到回归方程。
4、回归系数及方程的有效性检验 一般原理:最小二乘法x xy y( (x xn n , , y yn n) )( (x x1 1 , , y y1 1) )( (x x2 2 , , y y2 2) )( (x xi i , , y yi i) )e ei i = = y yi i- -y yi i(六)一元线性回归方程的检验1、一元线性回归方程的检验的意义 根据样本数据计算出的回归方程可能有一定的抽样误差为了考查这两个变量在总体内是否存性关系,以及回归方程对估计预测因变量的有效性如何,在回归方程应用之前,首先应进行显著性检验 2、一元线性回归方程显著性检验的方法 有三种等效的方法 对两个变量的相关系数相关系数进行总体零相关的显著性检验 (拟合优度检验)对回归系数回归系数进行显著性检验 对回归方程整体回归方程整体进行方差分析(1)拟合优度测量(计算机分析的第二个重要指标)指测量各个散点是否紧密的分布在回归线两边,即在多条回归线中,散点紧密的分布在回归线两边的线是最好的 用可决系数或测定系数 r2进行度量 回归偏差 r2= (P268 公式8.26 8.27) 总偏差*总偏差:指样本中个体实际观察的因变量yi值偏离因变量Y平均值的状况; *回归偏差:指用样本中个体的实际自变量xi的值代入回归方程时,计算出的Y回归值偏离因变量Y平均值的状况。
0 r21(2)回归系数显著性检验(计算机计算的第三个重要指标) 用t检验法: P2690 公式8.28 结果判定方法: (1)与临界比较法 (2)用P值法 P0.05时有效 (3)回归方程的显著性检验(计算机计算的第四个重要指标) 在多元回归分析中,回归方程显著性检验的是当用多个自变量共同预测因变量Y时,预测是否准确用F检验法: 回归偏差 F= (P281 公式8.52 ) 残差*残差:指总偏差中除去回归偏差后仍然对回归值与实际观察的Y值不能解释的部分,即由随机因素造成的差异结果判定方法:(1)与临界值比较法 (2)用P值法 P0.05时有效 回归方程的方差分析表变异来源平方和自由度方差F 值概率回归SSRdfRMSRP残差SSEdfEMSE总变异SSTdfT回归方程方差分析表(七)一元线性回归的计算机软件操作 SPSS软件 AnalyzeRegressionLiner 在Dependent窗口中输入因变量 在Independent窗口中输入自变量 数据读取 (1)找出a、b值,写出方程 output第3表,找coefficient列 aConstant bX Variable (2)依据判定系数值进行拟合优度判断 output第1表,找R square,用经验法。
(3)依据回归系数检验值进行回归系数的有效性判断 output第3表,找t、 P-value列分别找出ta、tb 依据P值判断 (4)依据回归方程F检验值进行回归的有效性判断 output第2表,找F值与 P-value 依据P值判断 实例分析1实例分析2 P272 图8.8 用国内生产总值(X)对地方预算内财政收入(Y)的预测分析.三多元线性回归分析 研究用多个自变量预测一个因变量Y的值 (一) 方程形式及操作方法 y=a+b1x1+b2x2+bKxK 分析指标与过程同一元线性 (二)计算机操作 过程与命令同一元线性回归多元线性回归一般采用逐步回归方法表 Stepwise *依据结果: (1)在多个自变量中,排除无效变量,保留有效变量 (2)建立有效的方程 多元线性回归实例分析: P277 图8.10 用国内生产总值(X1)、第一产业就业比重(X2)对财政收入(Y)的预测分析 因变量财政收入 自变量国内生产总值、第一产业就业比重上机实践操作6:相关与回归分析演示:(1)EXCELL软件 (2)SPSS中的相关与回归分析方法作业:P290第3题,用SPSS进行相关与回归分析 本章小结: 本章应重点掌握: (1)Pearson、Spearman相关分析各自适用的资料。
(2)相关分析的分析指标及计算机操作; (3)回归分析的分析指标、过程学会用EXCEL、SPSS软件进行回归分析操作以及数据读取。