实验四直线回归与相关1

资源描述

《实验四直线回归与相关1》由会员分享，可在线阅读，更多相关《实验四直线回归与相关1（14页珍藏版）》请在金锄头文库上搜索。

1、试验四一元线性相关与回归分析试验目的：1. 了解相关与回归的概念。2. 熟悉散点图的绘制并判断两变量间的线性趋势、直线相关分析。3. 掌握简单线性回归分析。基本要求：掌握建立直线回归方程的方法。基本原理：根据直线回归方程，将依变量y的总变异分解为由x变异引起的变异和误差所引起的变异两部分，分别计算各变异的平方和与自由度。试验内容：1. 两个变量间的相关分析2. 多个变量间的相关分析3. 一元线性回归分析重点：本章重点是掌握建立一元线性回归方程的方法，理解方差分析与t检验对方程及回归系数进行假设检验的基本思想。难点：本章难点是直线相关的概念、相关系数的意义，相关系数的计算。1相关分析的基本原理

2、一般来说现象之间的相互关系可以分为两种，一种是函数关系，另一种是相关关系。函数关系是指变量之间存在的相互依存的关系，它们之间的关系值是确定的。相关关系是两个现象数值变化不完全确定的依存关系。两变量间的相关分析就是研究两变量间线性相关程度并用适当的统计指标表示出来的一种常用统计方法。按相关的程度分，有完全相关、不完全相关和不相关；按相关的性质分，有正相关和负相关。测定变量之间线性相关程度和相关方向的统计指标是相关系数,同时要对相关系数的显著性检验。2SPSS实现过程例12-10 为研究某种化肥对农作物产量的影响，选取了10块条件基本相同的地块进行试验得到施肥量与农作物的亩产量，试求农作物亩产量对

3、施肥量的回归直线方程。数据（如表12-6所示）。表12-6地块编号12345678910施肥量245881011131415亩产量253294298360348366410401443437（1）把“亩产量”设为因变量y，“施肥量”设为自变量x。在Analyze（分析）菜单中选择Correlate（相关分析）中的Bivariate（两个变量相关分析）命令。弹出Bivariate Correlations（两个变量相关）对话框（如图12-56所示）。图12-56（2）选择进行相关分析的变量。现欲分析亩产量与施肥量的相关关系，故在Bivariate Correlations（两个变量相关）对话

4、框左侧的变量列表中选“亩产量”和“施肥量”，使之进入Variables（变量）框。1) 设定相关系数的类型。Correlation Coefficient（相关系数）复选框组包含了3个复选框，对应3种相关系数的类型。 Pearson(皮尔逊)复选框：此项为默认设置。本例中的亩产量与施肥量两个变量为等距变量，其数据可进行加减运算，因此采用该设置，计算相关系数; Kendallstua-b(肯德尔)复选框：等级相关系数，是一个用反映分类变量一致性的指标，只能在两个变量均属于有序分类时使用; Spearman(斯皮尔曼)复选框：是最常用的无参数相关分析。2）确定双尾检验还是单尾检验。在Test of

5、 Significance（显著性检验）框中，选择单选钮Tow-tailed（双侧）表示选择双尾检验，选择单选钮One-tailed（单侧）表示选择单尾检验。默认设置将对相关显著性进行双尾检验，本例采用默认设置。3）是否突出显示相关是否显著。选择复选框Flag significant correlations（标识显著相关），在输出结果中将用“*”号标记有统计学意义的相关系数，P0.05的系数值旁会标记一个星号，PO.01的则标记两个星号。默认设置选中该项，本例采用默认设置。（3）指定输出内容和缺失值处理方法。单击Bivariate Correlations（两个变量相关）对话框中的Optio

6、ns（选项）按钮，弹出Bivariate Correlations Options（两个变量相关选项）对话框。1) Statistics（统计）复选框组：选择要输出的统计量。 Means and standard deviations（平均值和标准差）;Cross-product deviations and covariances（产品交叉离差和协方差）复选框：输出各对变量的离均差平方和以及协方差阵。2) Missing Values（缺失值）单选框组：指定对缺失值的处理方法。本例采用默认设置。Excludes casespairwise（排除因变量和自变量均有缺失值观测量）单选钮：在分析过

7、程中遇到缺失值时将缺失值排除在数据分析之外;Excludescaseslistwise（排除因变量或自变量有缺失值观测量）单选钮：只要相关变量有缺失值，则在所有分析中都将该记录去除（如图12-57所示）。图12-573) 最后单击Continue（继续）按钮，返回Bivariate Correlations（两个变量相关）对话框。（4）所有设置确认无误后，单击OK按钮，得到输出结果。4结果解读SPSS的两变量间的相关分析(Bivariate)的结果比较简单，输出结果中只有一个描述性统计量表和一个各变量间的相关关系表。如果进行相关分析的变量是两个以上，输出时会分别显示两两变量间的相关关系（如图

8、12-58所示）。图12-58（1）输出结果文件中的第一个表格：描述性统计量表。从表中可知，参与分析的两个变量的样本数都为10，亩产量的均值为361(kg)，标准差为63.96；施肥量的均值为9(kg)，标准差为4.397。（2）输出结果文件中的第二个表格：相关系数及显著性检验结果表。从表中可知，亩产量和施肥量的相关系数r=0.982显著性水平为0000 (Sig(2-tailed)，因此在相关系数旁以两个“*”号进行标识，亩产量和施肥量的相关性十分显著。SPSS回归实例讲解例12-12 以例12-10为例，为研究某种化肥对农作物产量的影响，选取了10块条件基本相同的地块进行试验得到施肥量与农

9、作物的亩产量，试求农作物亩产量对施肥量的回归直线方程。数据（如表12-8所示）。表12-8 某种化肥对农作物产量影响表地块编号12345678910施肥量245881011131415亩产量253294298360348366410401443437（1）在Analyze（分析）菜单中选择Regression（回归分析）中的Linear（线性）命令（如图12-62所示）。图12-62（2）在弹出的linear Regression（线性回归）对话框中，从对话框左侧的变量列表中选择“亩产量”,单击“”按钮使之添加到Dependent（因变量）框中，表示该变量是因变量y；选择“施肥量”，单击“”

10、按钮使之添加到Independent(s)（自变量）框中，表示其为自变量X。1) SPSS一般默认在回归分析中只有一组可进入回归方程的自变量和相应的筛选方法。当有多组自变量和与其相对应的多种不同的变量筛选方法时，可以通过使用Previous（先前的）和Next（下一步）按钮将它们放置在不同的 Block (块)中。具体操作执行的步骤如下：SPSS从当前Block (块)(默认为1)开始，提取自变量和相应的变量筛选方法对回归方程进行拟合；自动提取下一块中的自变量组和相应的变量筛选方法，在上一个回归方程的基础上再次进行拟合，直到结束。在Method（方法）框中可以选择多元线性回归分析的自变量筛选方

11、法选项如下（如图12-63所示）。图12-63 Enter选项：强行进入法，表示所选自变量全部进入回归模型，该选项是SPSS默认的方式。 Stepwise选项：逐步进入法，表示向前选择变量法和向后剔除变量法的结合。根据在Option对话框中所设定的判据，首先根据方差分析结果选择符合判据的自变量且与因变量相关程度最高的进入回归方程。根据向前选择变量法选入自变量，然后根据向后剔除法，将模型中F值最小的且符合剔除判据的变量剔除出模型，重复进行直到回归方程中的自变量均符合进入模型的判据，模型外的自变量都不符合进入模型的判据为止。 Remove选项：消去法，表示建立回归方程时，根据设定的条件从回归方程中

12、剔除部分自变量。 Backward选项：向后剔除法，根据在Option（选项）对话框中所设定的判据，先建立全模型，然后根据设置的判据，每次剔除一个使方差分析中的F值最小的自变量，直到回归方程中不再含有不符合判据的自变量为止。 Forward选项：向前选择法，根据在Option（选项）对话框中所设定的判据，从无自变量开始，在拟合过程中，对被选择的自变量进行方差分析，每次加入一个F值最大的变量，直至所有符合判据的变量都进入模型为止(第一个引入模型的自变量应该与因变量间相关系数的绝对值最大)。2）Selection Variable（选择变量）框用来对样本数据进行筛选，挑选满足一定条件的样本数据进行

13、线性回归分析。3）Case Labels（观测量标签）框用来表示作图时，以哪个变量作各样本数据点标志变量。4）WSL Weight(加权)选项是存在异方差时，利用加权最小二乘法替代普通最小二乘法估计回归模型参数。通过WSL可以选定一个变量作为权重变量。在实际问题中，如果无法自行确定权重变量，可以用SPSS的权重估计来实现。（3）单击Statistics（统计）按钮将打开Linear Regression（线性回归）：Statistics（统计）对话框，用来选择输出哪些统计量。选项（如图12-64所示）。图12-641) Regression Coefficients（回归系数）：Estimat

14、es（估计）输出与回归系数相关统计量。如回归系数、回归系数的标准误差、标准回归系数、t统计量和相应的相伴概率值(Sig)、各自变量的容忍度等；Confidence intervals（信赖区间）输出每一个非标准化回归系数95的可信区间；Covariance matrix（协方差矩阵）输出方程中各自变量间相关系数矩阵和各变量协方差矩阵；Model fit（模型拟合）：输出判定系数、调整的判定系数、回归方程的标准误差，F检验的ANOVA方差分析表。该选项为默认选项；R squared change：（R平方变化）表示当回归方程中引入或剔除一个自变量后R2、F值产生的变化量；Descriptives

15、（描述）输出自变量和因变量的均值、标准差、相关系数矩阵及单侧检验概率；Part and partial correlation（部分和偏相关）输出方程中各自变量与因变量之间的简单相关系数、偏相关系数与部分相关系数；Collinearity diagnostics（共线形诊断）多重共线形分析，输出各自变量的容限度、方差膨胀因子、最小容忍度、特征值、条件指标、方差比例等。据统计分析与SPSS应用2) Residuals（残差）栏是有关残差分析的选择项：Durbin-Watson：输出Durbin-Watson检验值；Casewise diagnostics(诊断)：输出标准化残差绝对值3(SPSS默认值)的样本数据点的相关信息，包括：标准化残差、观测值、预测值、残差。另外，还输出最小预测值、最小残差、最大预测值、最大残差、最小标准化预测值、最小标准化残差、最大标准化预测值、最大标准化残差以及关于预测值、残差、标准预测值、标准残差的均值和标准差。其中：Outliers outside standard devistion（

展开阅读全文