第5章 自变量选择与逐渐回归思考与练习参照答案5.1 自变量选择对回归参数的估计有何影响?答: 回归自变量的选择是建立回归模型得一种极为重要的问题如果模型中丢掉了重要的自变量, 浮现模型的设定偏误,这样模型容易浮现异方差或自有关性 ,影响回归的效果;如果模型中增长了不必要的自变量, 或者数据质量很差的自变量, 不仅使得建模计算量增大, 自变量之间信息有重叠,并且得到的模型稳定性较差,影响回归模型的应用5.2自变量选择对回归预测有何影响?答:当全模型(m元)对的采用选模型(p元)时,我们舍弃了m-p个自变量,回归系数的最小二乘估计是全模型相应参数的有偏估计,使得用选模型的预测是有偏的,但由于选模型的参数估计、预测残差和预测均方误差具有较小的方差,因此全模型对的而误用选模型有利有弊 当选模型(p元)对的采用全模型(m元)时,全模型回归系数的最小二乘估计是相应参数的有偏估计,使得用模型的预测是有偏的,并且全模型的参数估计、预测残差和预测均方误差的方差都比选模型的大,因此回归自变量的选择应少而精5.3 如果所建模型重要用于预测,应当用哪个准则来衡量回归方程的优劣?答:如果所建模型重要用于预测,则应使用记录量达到最小的准则来衡量回归方程的优劣。
5.4 试述迈进法的思想措施答:迈进法的基本思想措施是:一方面因变量Y对所有的自变量x1,x2,...,xm建立m个一元线性回归方程, 并计算F检查值,选择偏回归平方和明显的变量(F值最大且不小于临界值)进入回归方程每一步只引入一种变量,同步建立m-1个二元线性回归方程,计算它们的F检查值,选择偏回归平方和明显的两变量变量(F值最大且不小于临界值)进入回归方程在拟定引入的两个自变量后来,再引入一种变量,建立m-2个三元线性回归方程,计算它们的F检查值,选择偏回归平方和明显的三个变量(F值最大)进入回归方程不断反复这一过程,直到无法再引入新的自变量时,即所有未被引入的自变量的F检查值均不不小于F检查临界值Fα(1,n-p-1),回归过程结束5.5 试述后退法的思想措施答:后退法的基本思想是:一方面因变量Y对所有的自变量x1,x2,...,xm建立一种m元线性回归方程, 并计算t检查值和F检查值,选择最不明显(P值最大且不小于临界值)的偏回归系数的自变量剔除出回归方程每一步只剔除一种变量,再建立m-1元线性回归方程,计算t检查值和F检查值,剔除偏回归系数的t检查值最小(P值最大)的自变量,再建立新的回归方程。
不断反复这一过程,直到无法剔除自变量时,即所有剩余p个自变量的F检查值均不小于F检查临界值Fα(1,n-p-1),回归过程结束5.6迈进法、后退法各有哪些优缺陷?答:迈进法的长处是可以将对因变量有影响的自变量按明显性一一选入,计算量小迈进法的缺陷是不能反映引进新变量后的变化,并且选入的变量就算不明显也不能删除后退法的长处是是可以将对因变量没有明显影响的自变量按不明显性一一剔除,保存的自变量都是明显的后退法的缺陷是开始计算量大,当减少一种自变量时,它再也没机会进入了如果遇到自变量间有有关关系时,迈进法和后退法所作的回归方程均会浮现不同限度的问题5.7 试述逐渐回归法的思想措施答:逐渐回归的基本思想是有进有出具体做法是将变量一种一种的引入,当每引入一种自变量后,对已选入的变量要进行逐个检查,当原引入变量由于背面变量的应纳入而变得不再明显时,要将其剔除引入一种变量或从回归防方程中剔除一种变量,为逐渐回归的一步,每一步都要进行F检查,以保证每次引入新的变量之前回归方程中只涉及明显的变量这个过程反复进行,直到无明显变量引入回归方程,也无不明显变量从回归方程中剔除为止这样就避免了迈进法和后退法各自的缺陷,保证了最后得到的回归子集是最优回归子集。
5.8 在运用逐渐回归法时,α进和α出的赋值原则是什么?如果但愿回归方程中多保存某些自变量,α进应如何赋值?答:原则是规定引入自变量的明显水平α进不不小于剔除自变量的明显性水平α出,否则也许浮现死循环;若想回归方程多保存自变量,可以增大α进的值,使得更多自变量的P值在α进的范畴内,但要注意,α进的值不得超过α出的值5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、公司收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其她收入等为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增长值(亿元),x2为工业增长值(亿元),x3为建筑业增长值(亿元),x4为人口数(万人),x5为社会消费总额(亿元),x6为受灾面积(万公顷)据《中国记录年鉴》获得1978—1998年共21个年份的记录数据,见表5.4(P167)由定性分析知,所有自变量都与y有较强的有关性,分别用后退法和逐渐回归法作自变量选元解:后退法SPSS输出成果:逐渐回归法两者成果相似,回归方程为:y=865.929—0.601x1-0.361x2+0.639x5但是回归系数的解释不合理。
5.10 表5.5的数据是1968-1983年期间与线制造有关的数据,各变量的含义如下:x1——年份;x2——国民生产总值(10亿美元);x3——新居动工数(单位:1000);x4——失业率(%);x5——滞后6个月的最惠利率;x6——顾客用线增量(%);y——年销量(百万尺双线)1)建立y对x2~x6的线性回归方程SPSS输出成果如下:回归方程为:=5922.827+4.864+2.374-817.901+14.539-846.867其中x2、 x5的系数未通过检查2)用后退法选择自变量后退法剔除P值最大的剔除x5,模型的参数均通过明显性检查明显性水平α=0.05),得回归方程为:=6007.320+5.068+2.308-824.261-862.699模型表来年销量(y)与国民生产总值、新居动工数、失业率、顾客用线增量有明显的线性关系3)用逐渐回归法选择自变量逐渐回归法引入x3,x5,x4进入回归模型,没有剔除变量,保存x3,x5,x4作为最后模型回归方程为:y=1412.807+3.440x3—415.136x4+348.729x5模型表来年销量(y)与新居动工费、失业率、滞后6个月的最惠利率 有明显的线性关系。
4)根据以上计算成果分析后退法和逐渐回归法的差别答:两个措施得到的最后模型是不同的,后退法一方面剔除了x5,而逐渐回归法在第二步引入了x5,阐明两种措施对自变量选用的措施是不同的,这与自变量之间的有关性有关相比之下,后退法一方面做全模型的回归,每个自变量均有机会展示自己的作用,所得成果更值得信服从本例看,x5是滞后6个月的最惠利率,对因变量的影响似乎不大。