第四章相关分析与回归分析

上传人:汽*** 文档编号:568557342 上传时间:2024-07-25 格式:PPT 页数:170 大小:4.90MB
返回 下载 相关 举报
第四章相关分析与回归分析_第1页
第1页 / 共170页
第四章相关分析与回归分析_第2页
第2页 / 共170页
第四章相关分析与回归分析_第3页
第3页 / 共170页
第四章相关分析与回归分析_第4页
第4页 / 共170页
第四章相关分析与回归分析_第5页
第5页 / 共170页
点击查看更多>>
资源描述

《第四章相关分析与回归分析》由会员分享,可在线阅读,更多相关《第四章相关分析与回归分析(170页珍藏版)》请在金锄头文库上搜索。

1、STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程第四章 相关分析与回归分析n4.1 简单相关分析简单相关分析n4.2 回归分析回归分析n4.3 非线性回归非线性回归STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n4.1 4.1 简单相关分析简单相关分析n4.1.1 相关分析的基本概念相关分析的基本概念n4.1.2 用用INSIGHT模块作相关分析模块作相关分析n4.1.3 用用“分析家分析家”作相关分析作相关分析STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.1.1 相关分析的基本概念相关分析

2、的基本概念1. 1. 散点图散点图 散散点点图图是是描描述述变变量量之之间间关关系系的的一一种种直直观观方方法法。我我们们用用坐坐标标的的横横轴轴代代表表自自变变量量X,纵纵轴轴代代表表因因变变量量Y,每每组组数数据据(xi,yi)在在坐坐标标系系中中用用一一个个点点表表示示,由由这这些些点点形形成成的的散散点点图图描描述述了了两两个个变变量量之之间间的的大大致致关关系系,从从中中可可以以直直观观地地看看出出变变量量之间的关系形态及关系强度。之间的关系形态及关系强度。 STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图图4-1就是不同形态的散点图。就是不同形态的

3、散点图。 (a) (b) (c) (d) 就就两两个个变变量量而而言言,如如果果变变量量之之间间的的关关系系近近似似地地表表现现为为一一条条直直线线,则则称称为为线线性性相相关关,如如图图4-1(a)和和(b);如如果果变变量量之之间间的的关关系系近近似似地地表表现现为为一一条条曲曲线线,则则称称为为非非线线性性相相关关或或曲曲线线相相关关;如如图图4-1(c);如如果果两两个个变变量量的的观观测测点点很很分分散散,无无任任何何规规律律,则则表表示示变变量量之之间间没没有有相相关关关关系系,如如图图4-l(d)。 STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程

4、2. 2. 相关系数相关系数 相相关关系系数数是是对对变变量量之之间间关关系系密密切切程程度度的的度度量量。若若相相关关系系数数是是根根据据总总体体全全部部数数据据计计算算的的,称称为为总总体体相相关关系系数数,记为记为;总体相关系数的计算公式为:总体相关系数的计算公式为:其其中中COV(X,Y)为为变变量量X和和Y的的协协方方差差,D(X)和和D(Y)分分别别为为X和和Y的方差。的方差。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 若若相相关关系系数数是是根根据据样样本本数数据据计计算算的的,则则称称为为样样本本相相关关系系数数(简简称称为为相相关关系系数

5、数),记记为为r。样样本本相相关关系系数数的的计计算公式为:算公式为: 一一般般情情况况下下,总总体体相相关关系系数数是是未未知知的的,我我们们通通常常是是将样本相关系数将样本相关系数r作为作为的近似估计值。的近似估计值。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 相关系数相关系数r有如下性质:有如下性质: 相相关关系系数数的的取取值值范范围围:1 r 1,若若0 r 1,表表明明X与与Y之之间间存存在在正正线线性性相相关关关关系系,若若1 r 0,表表明明X与与Y之间存在负线性相关关系。之间存在负线性相关关系。 若若r = 1,表表明明X与与Y之之间间为

6、为完完全全正正线线性性相相关关关关系系;若若r = 1,表表明明X与与Y之之间间为为完完全全负负线线性性相相关关关关系系;若若r = 0,说明二者之间不存在线性相关关系。说明二者之间不存在线性相关关系。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 相关系数相关系数r有如下性质:有如下性质: 当当1 r 1时时,为为说说明明两两个个变变量量之之间间的的线线性性关关系系的的密密切切程程度度,通通常常将将相相关关程程度度分分为为以以下下几几种种情情况况:当当| r | 0.8时时,可可视视为为高高度度相相关关;0.5 | r | 0.8时时,可可视视为为中中度度相

7、相关关;0.3 | r | 0.5时时,视视为为低低度度相相关关;当当| r | 0.3时时,说说明明两两个个变变量量之之间间的的相相关关程程度度极极弱弱,可可视视为为不不相相关关。但但这这种种解解释释必必须须建建立立在在对对相相关关系系数数进进行行显显著著性性检检验验的基础之上。的基础之上。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3. 3. 相关系数的显著性检验相关系数的显著性检验 相相关关系系数数的的显显著著性性检检验验也也就就是是检检验验总总体体相相关关系系数数是是否否显显著著为为0,通通常常采采用用费费歇歇尔尔(Fisher)提提出出的的t分分布

8、布检检验验,该该检检验验可可以以用用于于小小样样本本,也也可可以以用用于于大大样样本本。检检验验的的具具体步骤如下:体步骤如下: 1) 提提出出假假设设:假假设设样样本本是是从从一一个个不不相相关关的的总总体体中中抽抽出出的,即的,即H0: = 0;H1: 0STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 1) 提提出出假假设设:假假设设样样本本是是从从一一个个不不相相关关的的总总体体中中抽抽出出的,即的,即H0: = 0;H1: 0 2) 由样本观测值计算检验统计量:由样本观测值计算检验统计量:的观测值的观测值t0和衡量观测结果极端性的和衡量观测结果极端性的

9、p值:值:p = P| t | | t0 | = 2Pt |t0| 3) 进进行行决决策策:比比较较p和和检检验验水水平平 作作判判断断:p ,拒拒绝原假设绝原假设H0;p ,不能拒绝原假设不能拒绝原假设H0。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4. 4. 置信椭圆置信椭圆 可以生成两类置信椭圆:可以生成两类置信椭圆: 均值置信椭圆:预测两变量均值的置信区域;均值置信椭圆:预测两变量均值的置信区域; 预预测测值值置置信信椭椭圆圆:预预测测两两变变量量分分布布个个别别观观测测值值的的置置信信区区域。域。 关于预测值置信椭圆的两点说明:关于预测值置信椭圆

10、的两点说明: 1) 作作为为置置信信曲曲线线,表表示示数数据据以以设设定定的的百百分分率率(置置信信水水平平)落入的椭圆区域;落入的椭圆区域; 2) 作作为为相相关关性性指指标标。若若两两个个变变量量不不相相关关,椭椭圆圆应应该该为为圆圆;两两个个相相关关的的变变量量有有拉拉长长的的椭椭圆圆,可可以以用用椭椭圆圆长长短短轴轴之之比比来来衡衡量相关的程度。量相关的程度。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.1.2 用用INSIGHT模块作相关分析模块作相关分析【例例4-1】一一家家大大型型商商业业银银行行在在多多个个地地区区设设有有分分行行,其其业业

11、务务主主要要是是进进行行基基础础设设施施建建设设、国国家家重重点点项项目目建建设设、固固定定资资产产投投资资等等项项目目的的贷贷款款。近近年年来来,该该银银行行的的贷贷款款额额平平稳稳增增长长,但但不不良良贷贷款款额额也也有有较较大大比比例例的的提提高高,这这给给银银行行业业务务的的发发展展带带来来较较大大压压力力。为为弄弄清清楚楚不不良良贷贷款款形形成成的的原原因因,希希望望利利用用银银行行业业务务的的为为弄弄清清楚楚不不良良贷贷款款形形成成的的原原因因,希希望望利利用用银银行行业业务务的的有有关关数数据据做做些些定定量量分分析析,以以便便找找出出控控制制不不良良贷贷款款的的办办法法。表表4

12、-1就是该银行所属的就是该银行所属的25家分行家分行2002年的有关业务数据。年的有关业务数据。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程表4-1 某商业银行2002年的主要业务数据银银行行想想知知道道,不不良良贷贷款款是是否否与与贷贷款款余余额额、应应收收贷贷款款、贷贷款款项项目目的的多多少少、固固定定资资产产投投资资等等因因素素有有关关?如如果果有有,是是一种什么样的关系一种什么样的关系?关系强度如何关系强度如何?分行编号不良贷款(亿元)x1各项贷款余额(亿元)x2本年累计应收贷款(亿元)x3贷款项目个数(个)x4本年固定资产投资额(亿元)x510.9

13、67.36.8551.921.1111.319.81690.934.8173.07.71773.743.280.87.21014.557.8199.716.51963.2206.8139.47.22864.32111.6368.216.832163.9221.695.73.81044.5231.2109.610.31467.9247.2196.215.81639.7253.2102.212.01097.1STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 设表设表4-1中数据已经存放在数据集中数据已经存放在数据集Mylib.bldk中。中。1. 1. 制作散点图制

14、作散点图 首首先先制制作作变变量量之之间间的的散散点点图图,以以便便判判断断变变量量之之间间的的相相关关性性。步骤如下:步骤如下: 1) 在在INSIGHT模块中,打开数据集模块中,打开数据集Mylib.bldk; 2) 选选择择菜菜单单“Analyze(分分析析)”“Scatter Plot (Y X)(散点图)散点图)”; 3) 在在打打开开的的“Scatter Plot (Y X)”对对话话框框中中选选定定Y变变量量:Y;选定选定X变量:变量:x1、x2、x3、x4; 4) 单击单击“OK”按钮,得到变量的分析结果。按钮,得到变量的分析结果。STATSTATSTATSTATSASSAS软

15、件与统计应用教程软件与统计应用教程 从从各各散散点点图图中中可可以以看看出出,不不良良贷贷款款(Y)与与贷贷款款余余额额(x1)、应应收收贷贷款款(x2)、贷贷款款项项目目多多少少(x3)、固固定定资资产产投投资资额额(x4)之之间间都都具具有有一一定定的的线线性性关关系系。但但从从各各散散点点的的分分布布情情况况看看,与与贷贷款款余余额额(x1)的的线线性性关关系系比比较较密密切切,而而与与固固定定资资产产投投资资额额(x4)之间的关系最不密切。之间的关系最不密切。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. 2. 相关系数计算相关系数计算 1) 在在

16、INSIGHT模块中,打开数据集模块中,打开数据集Mylib.bldk; 2) 选选择择菜菜单单“Analyze(分分析析)”“Multivariate (Y X)(多变量)多变量)”; 3) 在在打打开开的的“Multivariate (Y X)”对对话话框框中中选选定定Y变变量:量:Y;选定选定X变量:变量:x1、x2、x3、x4; 4) 单击单击“OK”按钮,得到分析结果。按钮,得到分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程结结果果显显示示各各变变量量的的统统计计量量和和相相关关(系系数数)矩矩阵阵,从从相相关关矩矩阵阵中中可可以以看看出出

17、,在在不不良良贷贷款款Y与与其其他他几几个个变变量量的的关关系系中中,与与贷贷款款余余额额(x1)的的相相关关系系数数最最大大,而而与与固固定定资资产产投投资资额额(x4)的的相相关系数最小。关系数最小。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 5) 为为了了检检验验各各总总体体变变量量的的相相关关系系数数是是否否为为零零,选选择择菜菜单单:“Tables”“CORR p-values”,得得到到相相关关系系数数为为零零的原假设的的原假设的p值,如图值,如图4-6所示。所示。 基基于于这这些些p值值,拒拒绝绝原原假假设设,即即不不良良贷贷款款与与其其他他

18、几几个个变量之间均存在着显著的正相关关系。变量之间均存在着显著的正相关关系。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3. 3. 置信椭圆置信椭圆 继续上述步骤。继续上述步骤。 6) 选选 择择 菜菜 单单 : “Curves”“Scatter Plot Cont Ellipse”“Prediction:95”,得得到到不不良良贷贷款款与与其其他他几几个个变量的散点图及预测值的置信椭圆,如图所示。变量的散点图及预测值的置信椭圆,如图所示。变变量量Y和和x1间间散散点点图图上上的的这这个个椭椭圆圆被被拉拉得得很很长长,表表明明变变量量Y和和x1之间有很强的相

19、关性。之间有很强的相关性。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.1.3 用用“分析家分析家”作相关分析作相关分析【例例4-2】通通常常用用来来评评价价商商业业中中心心经经营营好好坏坏的的一一个个综综合合指指标标是是单单位位面面积积的的营营业业额额,它它是是单单位位时时间间内内(通通常常为为一一年年)的的营营业业额额与与经经营营面面积积的的比比值值。对对单单位位面面积积营营业业额额的的影影响响因因素素的的指指标标有有单单位位小小时时车车流流量量、日日人人流流量量、居居民民年年平平均均消消费费额额、消消费费者者对对商商场场的的环环境境、设设施施及及商商

20、品品的的丰丰富富程程度度的的满满意意度度评评分分。这这几几个个指指标标中中车车流流量量和和人人流流量量是是通通过过同同时时对对几几个个商商业业中中心心进进行行实实地地观观测测而而得得到到的的。而而居居民民年年平平均均消消费费额额、消消费费者者对对商商场场的的环环境境、设设施施及及商商品品的的丰丰富富程程度度的的满满意意度度评评分分是是通通过过随随机机采采访访顾顾客客而而得得到到的的平平均均值值数数据据。表表4-2为为从从某某市市随随机机抽抽取取的的20个个商商业中心有关指标的数据,试据此说明变量间的相关程度。业中心有关指标的数据,试据此说明变量间的相关程度。STATSTATSTATSTATSA

21、SSAS软件与统计应用教程软件与统计应用教程表4-2 20个商业中心有关指标的数据设表设表4-2数据已保存在数据集数据已保存在数据集Mylib.jyzk中。中。商业中心编号单位面积年营业额(万元/平方米)Y每小时机动车流量(万辆)x1日人流量 (万人)x2居民年消费额(万元)x3对商场环境满意度x4对商场设施满意度x5对商场商品丰富程度满意度x612.50.513.901.9479623.20.264.242.8674632.50.724.541.6388743.41.236.981.926101051.80.694.210.7184760.90.362.910.62565152.61.045

22、.531.301079162.71.185.981.28879171.40.611.271.48671183.21.055.772.167109192.91.065.711.74699202.50.584.111.85796STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1. 1. 相关分析的设置相关分析的设置 在在“分析家分析家”中作相关分析的步骤如下:中作相关分析的步骤如下: 1) 在在“分析家分析家”中打开数据集中打开数据集Mylib.jyzk; 2) 选选择择主主菜菜单单“Statistics”“Descriptive(描描述述性性统统计计)”“Corr

23、elations(相相关关)”,打打开开“Correlations”对对话话框框,按按图图4-8 设设置置分分析析变变量量及及内内容。容。 STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. 2. 结果分析结果分析 显显示示结结果果首首先先给给出出各各个个变变量量的的描描述述性性统统计计量量,包包括括观观测测总总数数、各各变变量量的的均均值值及及标标准准差差等等。然然后后给给出出变变量量的的相相关关系系数数矩矩阵阵(分分析析变变量量中中任任两两者者之之间间的的相相关关系系数数),以以及及原原假假设设为为H0:Rho = 0(即即H0: = 0)的的检检验验结结

24、果果(仅仅给给出出p值值),如如图图4-9所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 从从相相关关系系数数的的取取值值来来看看,单单位位面面积积营营业业额额(Y)与与居居民民年年消消费费额额(x3)、日日人人流流量量(x2)接接近近高高度度相相关关;单单位位面面积积营营业业额额(Y)与与每每小小时时机机动动车车流流量量(x1)、对对商商场场环环境境的的满满意意度度(x4)、对对商商场场设设施施的的满满意意度度(x5)为为低低度度相相关关;单单位位面面积积营营业业额额(Y)与与商商场场商商品品丰丰富富程程度度满满意意度度(x6)则则属属于于中中度

25、相关。度相关。 从从相相关关系系数数的的假假设设检检验验结结果果来来看看,单单位位面面积积营营业业额额(Y)与与居居民民年年消消费费额额(x3)、日日人人流流量量(x2)、商商场场商商品品的的丰丰富富程程度度满满意意度度(x6)、对对商商场场设设施施的的满满意意度度(x5)的的相相关关系系数数显显著著不不为为0(p = 0.05,表表示示模模型型还还有有改改进进的的余余地地,可可以以考考虑虑拟拟合合截截距距为为0的的回回归归直直线线。斜斜率率的的t检检验验p值值 .150.05,应接受原假设,认为残差为正态性分布。,应接受原假设,认为残差为正态性分布。所所以以,模模型型 是是合合适适的的,用用

26、其其对对不不良良贷贷款款进进行预测会更符合实际。行预测会更符合实际。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. 2. 多元线性回归多元线性回归【例例4-4】引引入入数数据据集集Mylib.BLDK中中的的所所有有4个个自自变变量量对不良贷款建立多元线性回归。对不良贷款建立多元线性回归。 (1) 分析步骤分析步骤 在在INSIGHT模块中打开数据集模块中打开数据集Mylib.BLDK。 1) 选选择择菜菜单单“Analyze”“Fit(Y X)(拟拟合合)”,打开打开“Fit(Y X)”对话框;对话框; 2) 在在“Fit(Y X)”对对话话框框中中,选

27、选择择变变量量Y,单单击击“Y”按按钮钮,将将Y设设为为响响应应变变量量;选选择择变变量量x1、x2、x3、x4,单单击击“X”按钮,将按钮,将x1、x2、x3、x4设为自变量;设为自变量; 3) 单击单击“OK”按钮,得到分析结果。按钮,得到分析结果。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 在在显显示示的的结结果果中中可可以以看看到到,多多元元回回归归分分析析的的输输出出类类似似于一元线性回归的输出,同样分为七张表:于一元线性回归的输出,同样分为七张表: 第一张表提供关于拟合模型的一般信息;第一张表提供关于拟合模型的一般信息; 第二张表给出模型方程第

28、二张表给出模型方程(即回归方程即回归方程),如图,如图4-26。 可知回归方程可知回归方程STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 第第三三张张模模型型拟拟合合汇汇总总表表(图图4-27)表表明明R-Square为为0.9117,比比一一元元线线性性回回归归模模型型有有一一定定提提高高,但但不不足足以以说说明明模模型型优优于于一元回归模型,因为在模型中增加自变量总能提高一元回归模型,因为在模型中增加自变量总能提高R-Square。Adj R-Sq(修修正正R2)考考虑虑了了加加入入模模型型的的变变量量数数,在在比比较较不不同同多多元元模模型型时时用用Ad

29、j R-Sq更更合合适适。如如在在这这里里它它为为0. 8410,而而在在简简单单模模型型中中为为0.6991,说说明明这这一一模模型型比比一一元元线线性性模模型型更更多多地地说明变量说明变量Y的变化。的变化。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 第第四四张张方方差差分分析析表表中中(下下图图左左),看看到到p值值=0.0076,拒拒绝绝原原假假设设并并可可作作出出至至少少有有一一个个回回归归系系数数不不为为零零的的结结论论,说说明明所所建模型的线性关系是显著的。建模型的线性关系是显著的。III型型检检验验表表(上上图图右右)与与参参数数估估计计表表

30、(下下图图)给给出出各各个个自自变变量量的的回回归归系系数数为为零零的的假假设设检检验验,各各自自变变量量的的回回归归系系数数的的F检检验与验与t检验在这里是一致的。检验在这里是一致的。参参数数估估计计表表(上上图图右右)包包括括截截距距的的显显著著性性检检验验,还还给给出出了了容容差(差(Tolerance)和方差膨胀因子(和方差膨胀因子(VIF)。)。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程两两表表中中自自变变量量x1、x2、x4的的回回归归系系数数假假设设检检验验的的p值值较较大大,说说明明这这些些自自变变量量对对Y的的影影响响不不显显著著,这这种

31、种情情况况可可能能是是这这些些变变量量对对预预测测Y值值作作用用不不大大,也也可可能能是是由由于于这这些些变变量量之之间间的的高高度度相相关关性性所所引引起起的的共共线线问问题题。如如果果自自变变量量之之间间具具有有高高度度的的共共线线关关系系,则则它它们们所所提提供供的的预预测测信信息息就就是是重重复复的的,在在参参数数(回回归归系系数数)检检验验中中这这些些变变量量的的显显著著性性就就可可能能被被隐隐蔽蔽起起来来,故故应应考考虑虑剔剔除除一一些些自自变变量量,重重新新拟拟合合回回归归方方程程。(本本例例中中x1的的方方差差膨膨胀系数较大,说明胀系数较大,说明x1与其余自变量有一定的线性关系

32、)与其余自变量有一定的线性关系)STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2) 剔除自变量剔除自变量考考虑虑剔剔除除变变量量(例例如如x3) ,对对此此只只需需在在刚刚才才已已打打开开的的拟拟合合窗窗的的任任一一处处选选中中变变量量x3,如如图图4-31所所示示,再再在在主主菜菜单单中中选选择择“Edit”“Delete”所所有有的的结结果果就就会会修修改改为为不不含含x3的拟合结果。的拟合结果。类类似似地地剔剔除除作作用用不不显显著著的的自自变变量量x2,得得到到拟拟合合结结果果如如图图4-32所示。所示。STATSTATSTATSTATSASSAS软

33、件与统计应用教程软件与统计应用教程从从图图4-32所所示示的的拟拟合合结结果果可可以以看看到到,回回归归方方程程的的显显著著性性检检验验以以及及x1、x4的的显显著著性性检检验验都都已已通通过过。但但是是方方程程的的判判定定系系数数R2还还不不如如前前述述一一元元回回归归方方程程 的的判判定定系系数数大大。因因此此,考考虑虑进进一一步步优优化化模模型型,拟拟合合不不含含常常数数项项而而仅仅含含x1、x4的回归方程。的回归方程。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 拟合结果如图拟合结果如图4-33所示。所示。结果显示,回归方程为:结果显示,回归方程为:

34、 结结果果还还可可以以看看到到,回回归归方方程程的的显显著著性性检检验验以以及及x1、x4的的显显著著性性检检验验都都已已通通过过,方方程程的的修修正正判判定定系系数数Adj R2也也比比前前述述所所有有回回归归方方程程的的Adj R2大大,因因此此采采用用该该回回归归模模型型更为合适。更为合适。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.2.3 用用“分析家分析家”作回归分析作回归分析【例例4-5】根根据据例例4-2中中的的数数据据集集Mylib.jyzk,建建立立单单位位面面积营业额的预测公式。积营业额的预测公式。 在在“分析家分析家”中打开数据集中

35、打开数据集Mylib.jyzk。(这里的数据或许有误,请按自己计算大的结果分析)(这里的数据或许有误,请按自己计算大的结果分析)STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1. 1. 一元线性回归一元线性回归 (1) 分析步骤分析步骤 选选择择主主菜菜单单“Statistics(统统计计)”“Regression(回回归归)”“Linear(线线性性)”,打打开开“Linear Regression(线性回归)线性回归)”对话框,按图对话框,按图4-34设置分析变量,设置分析变量,STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教

36、程 在在显显示示的的输输出出结结果果中中, p=0.0019 = 0.05,所所以以模模型型的作用是显著的。的作用是显著的。 参参数数估估计计部部分分列列举举了了回回归归方方程程中中两两个个参参数数的的值值以以及及有有关的显著性检验的结果。拟合的回归方程为:关的显著性检验的结果。拟合的回归方程为:t检验的结果表明检验的结果表明x2的系数显著不为的系数显著不为0。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2) 制作散点图制作散点图 在在上上述述操操作作打打开开的的“Linear Regression”对对话话框框中中,单单击击“Plots”按按钮钮。在在打

37、打开开的的“Linear Regression:Plots”对对话话框框中中,选选择择“Predicted”选选项项卡卡,选选中中“Plot observed vs independent”复复选选框框。单单击击“OK”按按钮钮,得得到到分分析析结结果果,包包含响应变量含响应变量Y与解释变量与解释变量x2的散点图,如图的散点图,如图4-36右所示。右所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(3) 拟合不含常数项的回归拟合不含常数项的回归 在在“Linear Regression”对对话话框框中中单单击击“Model”按按钮钮,在在打打开开的的“Li

38、near Regression:Model”对对话话框框中中选选中中“Do not include an intercept”复选框,如图复选框,如图4-37;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 在在显显示示的的输输出出结结果果中中, p值值 .0001 = 0.05,所所以以模模型型的的作作用用是是显显著著的的。在在汇汇总总的的信信息息中中,显显示示了了R2和和校校正正R2分分别别为为0.9650和和0.9618,远远远远高高于于含含有有常常数数项的回归模型。项的回归模型。 参数估计部分表明参数估计部分表明t检验的结果检验的结果x2的系数显著不为

39、的系数显著不为0,拟合的回归方程为:,拟合的回归方程为:STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. 2. 多元线性回归多元线性回归【例例4-6】引引入入数数据据集集Mylib.jyzk中中所所有有6个个自自变变量量对对因因变变量量单位面积营业额单位面积营业额Y建立多元线性回归。建立多元线性回归。(请按自己数据分析)(请按自己数据分析)(1) 分析步骤分析步骤 1) 选选 择择 主主 菜菜 单单 “Statistics” “Regression” “Linear”,打打开开“Linear Regression(线线性性回回归归)”对对话话框框,按下图所示

40、进行多元线性回归分析;按下图所示进行多元线性回归分析;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 显显示示的的分分析析结结果果表表明明模模型型的的作作用用是是显显著著的的(F统统计量的值为计量的值为268.30,p值值0.00010.05 = )。)。 参参数数估估计计部部分分表表明明拟拟合合的回归方程为:的回归方程为:y = 0.26044 + 0.16644x1 + 0.33987x2 + 0.73354x3 + 0.03201x4 0.00471x5 0.04752x6 参参数数显显著著性性检检验验表表明明,进进入入回回归归的的6个个自自变变量量,其

41、其作作用用在在其其它它变变量量进进入入回回归归的的前前提提下下并并不不都都是是显显著著的的。例例如如x1、x4、x5、x6的作用就不显著。的作用就不显著。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程(2) 逐步回归逐步回归 “分分析析家家”中中选选择择变变量量的的方方法法很很多多,在在上上述述步步骤骤的的“Linear Regression”对对话话框框中中,单单击击“Model”按按钮钮,打打开开“Linear Regression:Model”对话框。对话框。 在在“Method”选选项项卡卡中中包包含含多多种种变变量量的的选选择择方方法法,选选择择其其

42、中中一一种种,例例如如选选择择“Backward elimination(逐逐步步剔剔除除法法)”,如图,如图4-41所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程继继续续剔剔除除进进入入回回归归的的变变量量中中最最不不显显著著的的自自变变量量x6,直直到到所有的参数显著不为所有的参数显著不为0。结果如图。结果如图4-42所示。所示。 参数估计部分表明拟合的回归方程为:参数估计部分表明拟合的回归方程为: 模模型型的的R2为为0.9902,C(p)值值较较小小(仅仅为为3.8425);方方差差分分析中模型的作用也是显著的(析中模型的作用也是显著的(F

43、统计量的值为统计量的值为540.98,p值值0.00010.05 = )。)。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.2.4 使用使用REG过程作回归分析过程作回归分析1. REG1. REG过程的语法格式过程的语法格式 REG过程的基本用法为:过程的基本用法为:PROC REG DATA ; VAR ; MODEL = /; PRINT ; PLOT = /;RUN;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 说明:说明: MODEL语语句句用用以以指指定定所所要要拟拟合合的的回回归归模模型型,其其后后的的选项

44、与选项与REG语句的选项类似。语句的选项类似。 PLOT语语句句用用以以对对两两个个变变量量绘绘制制散散点点图图,表表达达式式中中位位置置在在前前(在在乘乘号号“*”之之前前)的的变变量量作作为为散散点点图图的的y轴轴,位位置置在在后后的的变变量量作作为为散散点点图图的的x轴轴。等等号号后后的的符符号号为为散散点点图图中中表表示示点点的的图图形形符符号号,此此项项内内容容可可省省略略,SAS会会用用默默认认方方式式显显示示图图形形,但但如如需需指指定定,符符号号要要用用单单引引号号括括起起来。对于同一个模型可以指定多个来。对于同一个模型可以指定多个plot语句。语句。 PRINT语语句句用用于

45、于交交互互地地显显示示MODEL语语句句中中的的有有关关选选项,可以将拟合模型的有关统计量显示在结果中。项,可以将拟合模型的有关统计量显示在结果中。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. 2. 多元回归多元回归【例例4-7】使使用用REG过过程程对对数数据据集集Mylib.jyzk中中所所有有6个个自变量与因变量单位面积营业额自变量与因变量单位面积营业额Y建立多元线性回归。建立多元线性回归。 调调用用如如下下的的REG过过程程就就可可以以在在输输出出窗窗口口产产生生如如图图4-43所示的结果:所示的结果:proc reg data = Mylib.

46、jyzk; var y x1 x6; model y = x1 x6;run;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3. 3. 逐步回归逐步回归 我我们们发发现现有有些些变变量量的的作作用用不不显显著著,所所以以使使用用REG提提供供的自动选择最优自变量子集的选项。的自动选择最优自变量子集的选项。 在在MODBL语语句句中中加加上上“SELECTION = 选选择择方方法法”的的选选项项就就可可以以自自动动挑挑选选自自变变量量,选选择择方方法法有有NONE(全全用用,这这是是缺缺省省),FORWARD(向向前前逐逐步步引引入入法法),BACKWARD(

47、向向后后逐逐步步剔剔除除法法),STEPWISE(逐逐步步筛筛选选法法),MAXR(最最大大R2增增量量法法),MINR(最最小小R2增增量量法法),RSQUARE(R2选选择择法法),ADJRSQ(修修正正R2选择法)选择法),CP(Mallows的的Cp统计量法)。统计量法)。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 比如,我们用如下程序:比如,我们用如下程序:model y = x1 x6 / selection=stepwise;run; 可得到逐步筛选法的分析结果,如图可得到逐步筛选法的分析结果,如图4-444-47所示。所示。STATSTAT

48、STATSTATSASSAS软件与统计应用教程软件与统计应用教程图4-45 逐步筛选法第2步STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图4-46 逐步筛选法第3步STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图4-47 最终结果模型 最最后后结结果果表表明明,只只有有变变量量x2、x3、x4进进入入了了模模型型,而而其它变量则不能进入模型。其它变量则不能进入模型。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4. 4. 预测预测 REG过过程程给给出出的的缺缺省省结结果果比比较较少少。用用

49、PRINT语语句句和和PLOT语语句句可可以以显显示示额额外外的的结结果果。为为了了显显示示模模型型的的预预测测值值(拟合值拟合值)和预测值的和预测值的95%置信区间,使用语句:置信区间,使用语句: print cli;run; 得到如图得到如图4-48所示的结果。所示的结果。 用用print cli列列出出的的是是预预测测值值的的置置信信区区间间,使使用用如如下下语语句还可以列出模型均值的置信区间:句还可以列出模型均值的置信区间: print clm;run;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程图4-48 预测值和95%置信区间STATSTATST

50、ATSTATSASSAS软件与统计应用教程软件与统计应用教程5. 5. 散点图散点图 对对于于自自变变量量是是一一元元的的情情况况,可可以以在在自自变变量量和和因因变变量量的的散点图上附加回归直线和均值置信界限。比如,散点图上附加回归直线和均值置信界限。比如, plot y*x2/conf95;run;可可以以产产生生图图4-49,在在图图的的上上方方列列出出了了回回归归方方程程,右右方方还还给出了观测个数、给出了观测个数、R2、修正的修正的R2、根均方误差。根均方误差。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n4.3 4.3 非线性回归非线性回归n4.

51、3.1 多项式回归多项式回归n4.3.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4.3.1 多项式回归多项式回归1. 1. 问题问题【例例4-8】某某大大型型牙牙膏膏制制造造企企业业为为了了更更好好地地拓拓展展产产品品市市场场,有有效效地地管管理理库库存存,公公司司董董事事会会要要求求销销售售部部门门根根据据市市场场调调查查,找找出出公公司司生生产产的的牙牙膏膏销销售售量量与与销销售售价价格格、广广告告投投入入等等之之间间的的关关系系,从从而而预预测测出出在在不不同同价价格格和和广广告告费费用

52、用下下的的销销售售量量。为为此此,销销售售部部的的研研究究人人员员收收集集了了过过去去30个个销销售售周周期期(每每个个销销售售周周期期为为4周周)公公司司生生产产的的牙牙膏膏的的销销售售量量、销销售售价价格格、投投入入的的广广告告费费用用,以以及及同同期期其其它它厂厂家家生生产的同类牙膏的市场平均销售价格,见表产的同类牙膏的市场平均销售价格,见表4-3。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程表4-3 牙膏销售量与销售价格、广告费用等数据其中价格差指其它厂家平均价格与公司销售价格之差。其中价格差指其它厂家平均价格与公司销售价格之差。 表表中中数数据据已

53、已存存放放在在数数据据表表Mylib.yagao中中,试试根根据据这这些些数数据据建建立立一一个个数数学学模模型型,分分析析牙牙膏膏销销售售量量与与其其它它因因素素的的关系,为制订价格策略和广告投入策略提供数量依据。关系,为制订价格策略和广告投入策略提供数量依据。销售周期公司销售价格(元)其它厂家平均价格(元)广告费用(百万元)价格差(元)销售量(百万支)13.853.805.50-0.057.3823.754.006.750.258.5133.704.307.250.609.5243.703.705.5007.50273.703.656.50-0.058.27283.753.755.7507

54、.67293.803.855.800.057.93303.704.256.800.559.26STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2. 2. 分析与假设分析与假设 由由于于牙牙膏膏是是生生活活必必需需品品,对对大大多多数数顾顾客客来来说说,在在购购买买同同类类产产品品的的牙牙膏膏时时更更多多地地会会在在意意不不同同品品牌牌之之间间的的价价格格差差异异,而而不不是是它它们们的的价价格格本本身身。因因此此,在在研研究究各各个个因因素素对对销销售售量量的的影影响响时时,用用价价格格差差代代替替公公司司销销售售价价格格和和其其它它厂厂家平均价格更为合适。家平

55、均价格更为合适。 记记牙牙膏膏销销售售量量为为y,其其它它厂厂家家平平均均价价格格与与公公司司销销售售价价格格之之差差(价价格格差差)为为x1,公公司司投投入入的的广广告告费费用用为为x2,其其它它厂厂家家平平均均价价格格和和公公司司销销售售价价格格分分别别为为x3和和x4,x1 = x3 x4。基基于于上上面面的的分分析析,我我们们仅仅利利用用x1和和x2来来建建立立y的的预预测测模型。模型。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3. 3. 基本模型基本模型 为为了了大大致致地地分分析析y与与x1和和x2的的关关系系,首首先先利利用用表表4-3的的数

56、据分别作出数据分别作出y对对x1和和x2的散点图,代码如下:的散点图,代码如下:data yagao; set Mylib.yagao;proc gplot data = yagao; plot y*x1=1 y*x2=2; symbol1 v=star i=rl cv=orange ci=blue w=1; symbol2 v=star i=rq cv=orange ci=blue w=1;run;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 从从左左图图可可以以发发现现,随随着着x1的的增增加加,y的的值值有有比比较较明明显显的的线性增长趋势,图中的直线

57、是用线性模型线性增长趋势,图中的直线是用线性模型 (1)拟拟合合的的(其其中中 是是随随机机误误差差);而而在在右右图图中中,当当x2增增大大时时,y有有向向上上弯弯曲曲增增加加的的趋趋势势,图图中中的的曲曲线线是是用用二二次次函函数数模模型型 (2)拟拟合合的的。综综合合上上面面的的分分析析,结结合合模模型型(1)和和(2)建建立立如如下下的回归模型的回归模型 (3)STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程4. 4. 模型求解模型求解 使用如下过程代码:使用如下过程代码:data yagao; set Mylib.yagao; x2x2=x2*x2;p

58、roc reg data = yagao; var y x1 x2 x2x2; model y = x1 x2 x2x2; print cli;run; 代代码码执执行行结结果果分分为为三三个个部部分分,如如图图所所示示为为前前两两个个部部分分:方差分析和参数估计。方差分析和参数估计。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程5. 5. 结果分析结果分析 1) 方方差差分分析析的的结结果果显显示示,R2 = 0.9054表表明明因因变变量量y(销销售售量量)的的90.54可可由由模模型型确确定定,F值值远远远远超超过过F检检验验的的临临界界值值,p值值 ,

59、 故回归方程有意义故回归方程有意义. 当当检检验验认认为为回回归归方方程程确确有有意意义义. 则则可可用用来来进进行行予予测测或或控控制制, 这这也也是是建建立立回回归归方方程程的的重要目的重要目的. 对对给给定定的的x值值,由由回回归归方方程程 就就可得可得 的值的值. 3 3预测预测当已知最大积雪深度为当已知最大积雪深度为9.2米时米时, 就可以预就可以预测灌溉面积:测灌溉面积: =142+3649.2=3489(公顷公顷).由灌溉面积由灌溉面积y对最大积雪深度对最大积雪深度x的回归方程的回归方程 例如例如,实实际际的的y与与预预测测的的 不不一一定定相相等等,重重要要的的是是它们的偏差有

60、多大它们的偏差有多大.即即事实上我们无法确切定出事实上我们无法确切定出 y- 的值的值, 只能估只能估计计 的范围的范围. 通常可假定通常可假定通过对通过对的估计的估计, 就知道就知道 的取值范的取值范围围. 已知有已知有所以所以 根根据据建建立立回回归归方方程程时时算算得得的的 ,可可以以算算得得 .于是可以用于是可以用 去估计标准差去估计标准差,记它为记它为 ,即即(15)用用3倍标准差准则倍标准差准则, 就有就有(16)(17)这样估计这样估计y的值落在区间的值落在区间 内内或或 内内, 相应的概率分别为相应的概率分别为0.99和和0.95. . 可见可见, 利用回归方程利用回归方程 预

61、测预测y, 可归结可归结为,对给定的为,对给定的x,以一定的置信水平预测对以一定的置信水平预测对应的应的y的观察值的取值范围,即所谓预测区的观察值的取值范围,即所谓预测区间间. 比如比如, 某一年测得最大积雪深度为某一年测得最大积雪深度为9.2米米, 以以99%的置信水平预测灌溉面积在的置信水平预测灌溉面积在3199公顷公顷与与3779公顷之间公顷之间.根据根据上面的方法中,由于上面的方法中,由于 是估计值,上面两式只是估计值,上面两式只是近似式,在一些要求不高的问题中,这是是近似式,在一些要求不高的问题中,这是可行的可行的.如要求出更为精确的值,可进一步查阅回如要求出更为精确的值,可进一步查

62、阅回归分析的书归分析的书. 在许多实际问题中,两个变量之间在许多实际问题中,两个变量之间并不一定是线性关系,而是某种曲线关并不一定是线性关系,而是某种曲线关系,应该用曲线来拟合系,应该用曲线来拟合.在有些情况下,可以进行适当的变量代在有些情况下,可以进行适当的变量代换,把它线性化,这样就把一个非线性换,把它线性化,这样就把一个非线性回归问题化为线性回归问题而得以解决回归问题化为线性回归问题而得以解决.非线性回归问题非线性回归问题 非线性回归模型非线性回归模型当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归模型。例如:模型。例如: 双曲

63、线:双曲线:a0 b0a0 b0xxyy指数曲线:指数曲线:y=aebxb0 b0xxyyy幂函数曲线:幂函数曲线:y=axba0 b0xyb1曲线模型的判别方法:曲线模型的判别方法:理论和经验判断;理论和经验判断;观察散点图观察散点图 曲线模型的确定方法:曲线模型的确定方法: 通常用变量代换法将曲线转换为直线。按线性模型求解参数,通常用变量代换法将曲线转换为直线。按线性模型求解参数,而后再变换为曲线模型。而后再变换为曲线模型。 线性回归线性回归多元线性回归模型多元线性回归模型1多元线性回归模型的性质多元线性回归模型的性质与模型的确定与模型的确定二元线性回归模型二元线性回归模型:总体多元线性回

64、归模型的一般形式总体多元线性回归模型的一般形式Y的数学期望的数学期望E(Y)随机误差随机误差表明自变量表明自变量共同变动引起的共同变动引起的Y 的平均变动。也称总体的二元线性回归方差。的平均变动。也称总体的二元线性回归方差。常数项,常数项,和和Y构成的平面与构成的平面与Y轴的截距轴的截距偏回归系数,表示在偏回归系数,表示在 固定时固定时 每变化一个单位引起的每变化一个单位引起的Y的平均变动;的平均变动;案例案例偏回归系数,表示在偏回归系数,表示在 固定时固定时 每变化一个单位引每变化一个单位引起的起的Y的平均变动;的平均变动;随机误差,其理论假定与一元线性回归模型中的随机误差,其理论假定与一元

65、线性回归模型中的 一样。一样。在多元回归模型中,还要求各自变量之间不存在显著相在多元回归模型中,还要求各自变量之间不存在显著相关,或高度相关也即不得存在多重共线性。关,或高度相关也即不得存在多重共线性。样本多元线性回归模型的一般形式样本多元线性回归模型的一般形式二元线性回归模型为:二元线性回归模型为:其数学期望其数学期望也称样本(或估计的)二元线性回归方程。也称样本(或估计的)二元线性回归方程。二元线性回归方程的确定二元线性回归方程的确定根据实际资料,用最小平方法,即使根据实际资料,用最小平方法,即使 ,分别对,分别对a、b1、b2求编导并令其为零,求得三个标准方程:求编导并令其为零,求得三个

66、标准方程:解此联立方程便可得到解此联立方程便可得到a、b1、b2。2多元线性回归模型的判定系数和估计标准误多元线性回归模型的判定系数和估计标准误判定系数判定系数 0r21修正的判定余数:修正的判定余数:估计标准误(估计标准误(Sy(x1、x2) r2和和Sy(x1、x2)都是对回归模型拟合优度的评价指标。都是对回归模型拟合优度的评价指标。 Sy(x1、x2)也是用自变量对因变量进行区间估计的抽样误差。也是用自变量对因变量进行区间估计的抽样误差。3多元回归模型的显著性检验多元回归模型的显著性检验对偏回归系数的对偏回归系数的t检验检验 H0: 1=0 , H1: 10;H0: 2=0,H1: 20

67、。检验统计量:检验统计量:按显著性水平按显著性水平和自由度和自由度 (n-3)查)查t表可得到临界值表可得到临界值t0模型整体的模型整体的F检验检验检验统计量:检验统计量:(k自变量个数)自变量个数)或或 按给定的按给定的和自由度(和自由度(2)和()和(n-3)查)查F表可表可得到临界值得到临界值F4多元回归中的相关分析多元回归中的相关分析 复相关:指一个因变量同多个自变量的相关关系。复相关:指一个因变量同多个自变量的相关关系。复相关系数恒取正值。复相关系数恒取正值。偏相关(净相关)指各个自变量在其他自变量固定不变时,单个偏相关(净相关)指各个自变量在其他自变量固定不变时,单个变量同因变量的

68、相关关系。变量同因变量的相关关系。 计算偏相关系数需借助相关系数矩阵表的资料。计算偏相关系数需借助相关系数矩阵表的资料。二元回归中的相关系数矩阵表二元回归中的相关系数矩阵表yyx1x1x2x2ry1ry2r121.001.001.00 x1与与y的偏相关系数:的偏相关系数: x2与与y的偏相关系数:的偏相关系数:案例案例5应用多元回归方程进行区间估计应用多元回归方程进行区间估计Y的平均值的区间估计的平均值的区间估计Y的特点值的区间估计的特点值的区间估计式中,式中,是是即区间估计的抽样误差。即区间估计的抽样误差。的抽样分布的标准差,的抽样分布的标准差,式中,式中,是是的抽样分布的标准差,的抽样分布的标准差,即区间估计的抽样误差。即区间估计的抽样误差。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号