多元统计分析案例具体操作多元回归分析高磷钢的效率(Y)与高磷钢的出钢量(X1)及高 磷钢中的FeO^量(X2)有关,所测数据如下表,请 用线性回归模型拟合上述数据试验序号出钢量X1FeO^ 量 X2效率Y187.913.2822101.413.5843109.82080493.014.288.6588.016.481.56115.314.283.5756.914.9738103.41388910114.991.41080.312.9811196.514.67812110.615.386.513102.918.283.4利用SPS觥计软件,其解答过程如下:拟建立回归方程:Y=b0+b1*X1+b2*XZ步骤如 下:(D操作过程在数据输入之后,依次单击“分析”一一“回 归”一一“线性”,在弹出的“线性回归”对话框 中,将出钢量X1和Fe常量*皴为自变量,效率设为 因变量,回归方法设为“进入”如下图:F片中出£L,题图1.1(2)输出结果如下:输入/移去的变量模型输入的变量移去的变量方法1FeO^量 X2,出钢量X1a.输入模型汇总模型RR方调整R方标准估计的误差Durbin-Watson1.689 a.475.3693.846481.858a.预测变量:(常量),FeO含量X2,出钢量XI。
b.因变量:效率丫Anovab模型平方和df均方FSig.1 回归133.598266.7994.515.040 a残差147.9541014.795总计281.55212a.预测变量:(常量),FeO含量X2,出钢量XIb.因变量:效率丫系数a模型非标准化系数标准系数B标准误差试用版tSig.1(常量)75.1449.4887.920.000出钢量X1.215.075.6852.889.016Fe* 量 X2-.843.548-.365-1.538.155输入/移去的变量模型输入的变量移去的变量方法1FeO^量 X2,出 钢量Xia.输入模型汇总模型RR方调整R方标准估计的误差Durbin-Watson1.689 a.475.3693.846481.858a.预测变量:(常量),FeO含量X2,出钢量XIa.因变量:效率Y系数相关性模型零阶偏部分1 FeO^ 量 X2出钢量X1-.189.592-.437.675-.352.662a.因变量:效率丫残差统计量极小值极大值均值标准偏差N预测值74.841188.015683.14623.3366413残差-5.627217.05607.000003.5113413标准预测值-2.4891.459.0001.00013标准残差-1.4631.834.000.91313a.因变量:效率丫(3)结果分析回归方程的回归系数:b0=75.144 , b1=0.215 , b2=-0.843拟合回归方程:Y=0.215*X1-0.843*X2+75.1441)回归方程的显著性检验(F检验):检验假设:Ho: 口i =P2 = 1=Pm=0)Hi:各 P j(j=12 …,m)不全为0): =0.05SS=SS+SS戋,其中 F〜F(m, n-m-1)S& /m MS回F = SSU(n-m-i) MS 残根据方差分析表(Anova) , MSI =66.799, MS 残= 14.759,从而 F=4.515, F>R.05 (2,10)(Sig<0.05), 可知在显著性水平 民=0.05 ,拒绝原假设自变量 和因变量之间存在显著性的线性关系。
2)回归方程拟合优度检验:2 s矗 S%R 二 二 1 一55、 ss、R2=0.475,说明高磷钢的效率变异的47.5%可由 其出钢量和FeO勺含量的变化来解释3)对各自变量指明方程中的每一个自变量对 Y的影响(即方差分析和决定系数检验整体)A、10幅系数的显著性检验(t检验): t j 二 Sbj bj为偏回归系数的估计值,Sbj是bj的标准误检验假设:H): 3 =L服从自由度为v=n-m-1的t分布如 果|tj|表2,i)则在支=0.05水平上拒绝H)接受H)说 明Xj与丫有线性回归关系非标准化系数b1=0.215, b2=-0.843 ,对于bl, t1=2.889 ,|t1|>t 0.05/2 (10),拒绝原假设,说明在 给定的显著水平a =0.05下,X1对Y有显著的影响; 对于 b2, t2=-1.538 ,t 0.05/2 (10) >|t2|> t 0.1/2 ( 10)) 说明在给定的显著水平a =0.05下,接受原假设,X2 对Y没有显著的影响而在给定的显著水平 a =0.1下,拒绝原假设,X2对Y有显著的影响说明X1对方程的贡献显著,X2的贡献不显著B、偏回归平方和检验回归方程中某一自变量X的偏回归平方和表示 模型中含有其他m-1个自变量的条件下自变量对Y的 回归贡献,相当于从回归方程中提出X后所引起的回 归平方和的减少量,或在m-1个自变量的基础上新增 加X引起的回归平方和的增加量。
匚 SS (Xj)/1F jSSI / (n -m-1)SS(Xj)表示偏回归平方和,其值愈大说明相应的自 变量愈重要一般情况下, ml个自变量对Y的回归平方和由重新建立的新方程得到,而不是简单地把 EX」从有m^自变量的方程中剔出后算得 b Anova模型平方和df均方FSig.1 回归98.622198.6225.930a.033残差182.9301116.630总计281.55212a.预测变量:(常量),出钢量XIb.因变量:效率丫bAnova模型平方和df均方FSig.1 回归10.078110.078.408.536 a残差271.4741124.679总计281.55212a.预测变量:(常量),FeO含量X2b.因变量:效率丫Anovab模型平方和df均方FSig.1 回归98.622198.6225.930.033 a残差182.9301116.630总计281.55212a.预测变量:(常量),出钢量XIS& (X1) =SS (X1,X2) -SS回(X2) = 133.598-10.078=123.52SS (X2) =SS (X1,X2) -SS回(X1) =133.598-98.622=34.976Fi = 123.52/ (147.954/10 )=8.3485, F2=34.976/ (147.954/10 ) =2.335Fi>F2,同样说明X1对方程的贡献大于X24)标准化回归系数变量标准化是将原始数据减去相应变量的均 数,然后再除以该变量的标准差。
标准化回归系数 无单位,用来比较各自变量对应变量的影响大小, |Bi|越大,Xi对Y的影响越大此处,标准回归系数B1=0.685,B2 =-0.365 , 旧1|>|B2],说明X1对Y的影响要比X2XtY的影响显5)偏相关系数偏相关系数是在排除了其他变量的影响下计 算变量间的相关系数假设我们需要计算X和Y之间 的相关性,Z代表其他所有的变量,X和Y的偏相关 系数可以认为是 期口 Z线性回归得到的残差 RXt/口Z线性回归得到的残差 Ry之间的简单相关系数,即 pearson相关系数P 1,2 = 0.675P 2,1 =-0.437(4)预测值试验序号观测值预测值预测值-观测 值(预测值-观测值)/观测值*100%18282.91490.91491.11573170728485.56451.56451.862538081.8911.8912.36375488.6183.1684-5.4316-6.130474041581.580.2388-1.2612-1.547484663683.5187.96294.46295.34479041977374.81681.81682.488767123888 186.416-1.584-1.8991.484.2983-7.1017-7.7699124731081 ]81.53380.53380.659012346117883.58375.58377.1585897441286.5 :86.0251-0.4749-0.5490173411383.481.9249-1.4751-1.7687050362、 聚类分析下表是2003年我国省会城市和计划单列市的主 要经济指标:人均GDPX1无)、人均工业产值X2(元)、 客运总量X3(万人)、货运总量X4 (万吨)、地方财 政预算内收入X5 (亿元)、固定资产投资总额X6 (亿 元)、在岗职工占总人口比例 X7 (%、在岗职工人 均工资额X8(元)、城乡居民年底储蓄余额X9(亿元)。
试通过统计分析软件进行系统聚类分析,并比较何 种方法与人们观察到的实际情况较接近城市X1X2X3X4X5X6X7X8X9北 京31886331683052030671593200037.8253126441天 津264334373235073467920593418.8186481825石家庄15134131591184310008494169.5123061044太 原15752158312975152483319722.812679660呼和浩特1899111257350841552118213.514116255沈阳23268154466612146368155714.8149611423大连2914527615110012108111140714.7175601310长春。