多元线性回归与曲线拟合

资源描述

《多元线性回归与曲线拟合》由会员分享，可在线阅读，更多相关《多元线性回归与曲线拟合（12页珍藏版）》请在金锄头文库上搜索。

1、第十章：多元线性回归与曲线拟合Regression菜单详解（上）回归分析是处理两个及两个以上变量间线性依存关系的统计方法。在医学领域中，此类问题很普遍，如人头发中某种金属元素的含量与血液中该元素的含量有关系，人的体表面积与身高、体重有关系；等等。回归分析就是用于说明这种依存变化的数学关系。10.1Linear过程10.1.1 简单操作入门调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中，用户还可根据需要，选用不同筛选自变量的方法（如：逐步法、向前法、向后法，等）。例10.1：请分析在数据集Fat surfactant.sav中变量fat对变量spovl的大小有无影响？显然，在这里

2、spovl是连续性变量，而fat是分类变量，我们可用用单因素方差分析来解决这个问题。但此处我们要采用和方差分析等价的分析方法-回归分析来解决它。回归分析和方差分析都可以被归入广义线性模型中，因此他们在模型的定义、计算方法等许多方面都非常近似，下面大家很快就会看到。这里spovl是模型中的因变量，根据回归模型的要求，它必须是正态分布的变量才可以，我们可以用直方图来大致看一下，可以看到基本服从正态，因此不再检验其正态性，继续往下做。10.1.1.1 界面详解在菜单中选择Regression=liner，系统弹出线性回归对话框如下：除了大家熟悉的内容以外，里面还出现了一些特色菜，让我们来一一品尝。【

3、Dependent框】用于选入回归分析的应变量。【Block按钮组】由Previous和Next两个按钮组成，用于将下面Independent框中选入的自变量分组。由于多元回归分析中自变量的选入方式有前进、后退、逐步等方法，如果对不同的自变量选入的方法不同，则用该按钮组将自变量分组选入即可。下面的例子会讲解其用法。【Independent框】用于选入回归分析的自变量。【Method下拉列表】用于选择对自变量的选入方法，有Enter（强行进入法）、Stepwise（逐步法）、Remove（强制剔除法）、Backward（向后法）、Forward（向前法）五种。该选项对当前Independent框

4、中的所有变量均有效。【Selection Variable框】选入一个筛选变量，并利用右侧的Rules钮建立一个选择条件，这样，只有满足该条件的记录才会进入回归分析。【Case Labels框】选择一个变量，他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。【WLS钮】可利用该按钮进行权重最小二乘法的回归分析。单击该按钮会扩展当前对话框，出现WLS Weight框，在该框内选入权重变量即可。【Statistics钮】弹出Statistics对话框，用于选择所需要的描述统计量。有如下选项： o Regression Coefficients复选框组：定义回归系数的输出情况，选中E

5、stimates可输出回归系数B及其标准误，t值和p值，还有标准化的回归系数beta；选中Confidence intervals则输出每个回归系数的95%可信区间；选中covariance matrix则会输出各个自变量的相关矩阵和方差、协方差矩阵。以上选项默认只选中Estimates。 o Residuals复选框组：用于选择输出残差诊断的信息，可选的有Durbin-Watson残差序列相关性检验、超出规定的n倍标准误的残差列表。 o Model fit复选框：模型拟合过程中进入、退出的变量的列表，以及一些有关拟合优度的检验：，R，R2和调整的R2, 标准误及方差分析表。 o R squa

6、red change复选框：显示模型拟合过程中R2、F值和p值的改变情况。 o Descriptives复选框：提供一些变量描述，如有效例数、均数、标准差等，同时还给出一个自变量间的相关矩阵。 o Part and partial correlations复选框：显示自变量间的相关、部分相关和偏相关系数。 o Collinearity diagnostics复选框：给出一些用于共线性诊断的统计量，如特征根（Eigenvalues）、方差膨胀因子(VIF)等。以上各项在默认情况下只有Estimates和Model fit复选框被选中。【Plot钮】弹出Plot对话框，用于选择需要绘制的回归分析诊

7、断或预测图。可绘制的有标准化残差的直方图和正态分布图，应变量、预测值和各自变量残差间两两的散点图等。【Save钮】许多时候我们需要将回归分析的结果存储起来，然后用得到的残差、预测值等做进一步的分析，Save钮就是用来存储中间结果的。可以存储的有：预测值系列、残差系列、距离（Distances）系列、预测值可信区间系列、波动统计量系列。下方的按钮可以让我们选择将这些新变量存储到一个新的SPSS数据文件或XML中。【Options钮】设置回归分析的一些选项，有： o Stepping Method Criteria单选钮组：设置纳入和排除标准，可按P值或F值来设置。o Include consta

8、nt in equation复选框：用于决定是否在模型中包括常数项，默认选中。o Missing Values单选钮组：用于选择对缺失值的处理方式，可以是不分析任一选入的变量有缺失值的记录（Exclude cases listwise）而无论该缺失变量最终是否进入模型；不分析具体进入某变量时有缺失值的记录（Exclude cases pairwise）；将缺失值用该变量的均数代替（Replace with mean）。10.1.1.2 输出结果解释根据题目的要求，我们只需要在Dependent框中选入spovl，Independent框中选入fat即可，其他的选项一律不管。单击OK后，系统很快

9、给出如下结果：Regression这里的表格是拟合过程中变量进入/退出模型的情况记录，由于我们只引入了一个自变量，所以只出现了一个模型1（在多元回归中就会依次出现多个回归模型），该模型中fat为进入的变量，没有移出的变量，具体的进入/退出方法为enter。上表为所拟合模型的情况简报，显示在模型1中相关系数R为0.578，而决定系数R2为0.334，校正的决定系数为0.307。这是所用模型的检验结果，可以看到这就是一个标准的方差分析表！有兴趣的读者可以自己用方差分析模型做一下，就会发现出了最左侧的一列名字不太一样外，其他的各个参数值都是相同的。从上表可见所用的回归模型F值为12.059，P值为0

10、.002，因此我们用的这个回归模型是有统计学意义的，可以继续看下面系数分别检验的结果。由于这里我们所用的回归模型只有一个自变量，因此模型的检验就等价与系数的检验，在多元回归中这两者是不同的。上表给出了包括常数项在内的所有系数的检验结果，用的是t检验，同时还会给出标化/未标化系数。可见常数项和fat都是有统计学意义的，上表的内容如果翻译成中文则如下所示：未标准化系数标准化系数模型系数b系数标准误系数t值P值1常数5.0970.42711.9230.000fat0.7000.2020.5783.4730.00210.1.2 复杂实例操作10.1.2.1 分析实例例10.2：请分析在数据集plast

11、ic.sav中变量extrusn、additive、gloss和opacity对变量tear_res的大小有无影响？已知extrusn对tear_res的大小有影响。显然，这里是一个多元回归，由于除了extrusn确有影响以外，我们不知道另三个变量有无影响，因此这里我们将extrusn放在第一个block，进入方法为enter（我们有把握extrusn一定有统计学意义）；另三个变量放在第二个block，进入方法为stepwise（让软件自动选择判断），操作如下：1. Analyze=Regression=Liner2. Dependent框：选入tear_res3. Independent框：

12、选入extrusn；单击next钮4. Independent框：选入additive、gloss和opacity；Method列表框：选择stepwise5. 单击OK钮10.1.2.2 结果解释最终的结果如下：Regression上面的表格依次列出了模型的筛选过程，模型1用进入法引入了extrusn，然后模型2用stepwise法引入了additive，另两个变量因没有达到进入标准，最终没有进入。上面的表格翻译出来如下：模型进入的变量移出的变量变量筛选方法1extrusn进入法2additivestepwise法（标准：进入概率小于0.05，移出概率大于0.1）上表是两个模型变异系数的改变

13、情况，从调整的R2可见，从上到下随着新变量的引入，模型可解释的变异占总变异的比例越来越大。上表是所用两个模型的检验结果，用的方法是方差分析，可见二个模型都有统计学意义。上表仍然为三个模型中各个系数的检验结果，用的是t检验，可见在模型2中所有的系数都有统计学意义，上表的内容翻译如下：未标化的系数标化的系数模型B标准误Betat值P值1(常数)5.900.26522.278.000extrusion.590.167.6393.522.0002(常数)5.315.31416.926.000extrusion.590.144.6394.905.000additive.390.144.4222.707.

14、000这是新出现的一个表格，反映的是没有进入模型的各个变量的检验结果，可见在模型1中，未引入模型的候选变量additive还有统计学意义，可能需要引入，而模型2中没有引入的两个变量其P值均大于0.05，无需再进行分析了。10.2 Curve Estimation过程Curve Estimation过程可以用与拟合各种各样的曲线，原则上只要两个变量间存在某种可以被它所描述的数量关系，就可以用该过程来分析。但这里我们要指出，由于曲线拟合非常的复杂，而该模块的功能十分有限，因此最好采用将曲线相关关系通过变量变换的方式转化为直线回归的形式来分析，或者采用其他专用的模块分析。10.2.1 界面详解Cur

15、ve Estimation过程中有特色的对话框界面内容如下：下面我们分别解释一下它们的具体功能。【Dependent框】用于选入曲线拟和中的应变量，可选入多个，如果这样，则对各个应变量分别拟合模型。【Independent单选框组】用于选入曲线拟和中的自变量，有两种选择，可以选入普通的自变量，也可以选择时间作为自变量，如果这样做，则所用的数据应为时间序列数据格式。【Models复选框组】是该对话框的重点，用于选择所用的曲线模型，可用的有： Linear：拟合直线方程，实际上与Linear过程的二元直线回归相同； Quadratic：拟合二次方程Y = b0+b1X+b2X2； Compound：拟合复合曲线模型Y = b0b1X； Growth：拟合等比级数曲线模型Y = e(b0+b1X)； Logarithmic：拟合对数方程Y = b0+b1lnX； Cubic：

展开阅读全文