多元统计分析简答题

资源描述

《多元统计分析简答题》由会员分享，可在线阅读，更多相关《多元统计分析简答题（22页珍藏版）》请在金锄头文库上搜索。

1、1、简述多元统计分析中协差阵检验的步骤第一，提出待检验的假设 H0和H1;第二，给出检验的统计量及其服从的分布；第三，给定检验水平，查统计量的分布表，确定相应的临界值，从而得到否定域；第四，根据样本观测值计算出统计量的值，看是否落入否定域中，以便对待判假设做出决策(拒绝或接受)。协差阵的检验检验艺=艺0Ho：艺二 I p&=exp2-亠 S,S12 JI* I =Ho：艺=艺0 式I ph=exp一二trS j S/“np/2n/2 e.n盯n* n/2np/2检验厶=艺2“ 2k H 0：=艺2“n /2kn/2pnj/2ii mi占k 统计量2咔=nnp/2门Si y2.针对一个总体

2、均值向量的检验而言，在协差阵已知和未知的两种情形下，如何分别构造的统计量？在协差阵未知时*构造如下统汁星：”严丁+ 】TFg-p,其中 r=(W- 1)V(X-liJS-CX-ji0)J (”一l)p3. 作多元线性回归分析时，自变量与因变量之间的影响关系一定是线性形式的吗？多元线性回归分析中的线性关系是指什么变量之间存在线性关系？答:作多元线性回归分析时，自变量与因变量之间的影响关系不一定是线性形式。当自变量与因变量是非线性关系时可以通过某种变量代换，将其变为线性关系，然后再做回归分析。多元线性回归分析的线性关系指的是随机变量间的关系，因变量y与回归系数B i间存在线性关系。多元线

3、性回归的条件是：(1) 各自变量间不存在多重共线性；(2) 各自变量与残差独立；(3) 各残差间相互独立并服从正态分布；(4) 丫与每一自变量X有线性关系。4. 回归分析的基本思想与步骤基本思想：所谓回归分析，是在掌握大量观察数据的基础上，利用数理统计方法建立因变量与自变量之间的回归关系函数表达式（称回归方程式）。回归分析中，当研究的因果关系只涉及因变量和一个自变量时，叫做一元回归分析；当研究的因果关系涉及因变量和两个或两个以上自变量时，叫做多元回归分析。此外，回归分析中，又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的，分为线性回归分析和非线性回

4、归分析。通常线性回归分析法是最基本的分析方法，遇到非线性回归问题可以借助数学手段化为线性回归问题处理。步骤：1）确定回归方程中的解释变量和被解释变量。2）确定回归模型根据函数拟合方式，通过观察散点图确定应通过哪种数学模型来描述回归线。如果被解释变量和解释变量之间存在线性关系，则应进行线性回归分析，建立线性回归模型；如果被解释变量和解释变量之间存在非线性关系，则应进行非线性回归分析，建立非线性回归模型。3）建立回归方程根据收集到的样本数据以及前步所确定的回归模型，在一定的统计拟合准则下估计出模型中的各个参数，得到一个确定的回归方程。4）对回归方程进行各种检验由于回归方程是

5、在样本数据基础上得到的，回归方程是否真实地反映了事物总体间的统计关系，以及回归方程能否用于预测等都需要进行检验。5）利用回归方程进行预测5. 多重共线性问题、不良后果、解决方法多重共线性是指线性回归模型中的自变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。常见的是近似的多重共线性关系，即存在不全为 0 的 p 个常数 Ci,C2, ,Cp 使得 CiXii+C2Xi2 +CpXip 0,i=1,2, , n不良后果：模型存在完全的多重共线性，则资料阵X的秩p+1，从而无法得到回归参数的估计量。对于近似多重共线性情况，虽有r（X）=p+1，但|XTX|0,从

6、而矩阵（XTX） -1的主对角线上的元素很大，使得估计的参数向量的协方差阵的对角线上的元素也很大，导致普通最小二乘参数估计量并非有效。检验方法：方差扩大因子（ VIF ）法和特征根判定法方差扩大因子表达式为：VIFi=1心-Ri2），其中Ri为自变量xi对其余自变量作回归分析的复相关系数。当VIFi很大时，表明自变量间存在多重共线性。解决方法：当发现自变量存在严重的多重共线性时，可以通过剔除一些不重要的自变量、增大样本容量、对回归系数做有偏估计（如采用岭回归法、主成分法、偏最小二乘法等）等方法来克服多重共线性。6. 为什么要进行回归方程的显著性检验？答：对于任意给定的一组观测数据（

7、xi1,xi2,.,xip;yi），（i=1,2,.,n），我们都可以建立回归方程。但实际问题很可能 y 与自变量 x1,x2,.,xp 之间根本不存在线性关系，这时建立起来的回归方程的效果一定很差，即回归值 yi 实际上不能拟合真实的值 yi 。即使整个回归方程的效果是显著的，在多元的情况下，是否每个变量都起着显著的作用呢？因此还需要对各个回归系数进行显著性检验，对于回归效果不显著的自变量，我们可以从回归方程中剔除，而只保留起重要作用的自变量，这样可以使回归方程更简练。7. 统计性的依据是什么？给出一个回归方程如何做显著性检验？统计性的依据是方差分析。对于多元线性回

8、归方程作显著性检验就是要看自变量x1,x2,.xp 从整体上对随机变量y是否有明显的影响，即检验假设 H0: B仁B 2=.= B p=0 H1:至少有某个 B i 工0, 1=i=p如果H0被接受，则表明y与x1,x2,.xp之间不存在线性关系，为了说明如何进行检验，我们首先要建立方差分析表。在进行显著性检验中，我们可以用 F 统计量来检验回归方程的显著性，也可以用 P 值法做检验。F 统计量是：F=MSR/MSE=SSR/p/SSE/(n-p-1)当H0为真时，FF(p,n-p-1)。给定显著性水平a,查F分布表得临界值F1-a (p,n-p-1)，计算F的观测值，若F0F0)，定

9、显著性水平a，若pta /2( n-p-1)时，拒绝H0。反之，则接受H0。数据的中心化和标准化目的:解决利用回归方程分析实际问题时遇到的诸多自变量量纲不一致的问题。数据中心化处理的几何意义: 相当于将坐标原点移至样本中心，而坐标系的平移并不改变直线的斜率，只改变了截距。通过对残差进行分析，可以在一定程度上回答下列问题:1) 回归函数线性假定的可行性；2) 误差项的等方差假设的合理性；3) 误差项独立性假设的合理性；4) 误差项是否符合正态分布；5) 观测值中是否存在异常值；6) 是否在模型中遗漏了某些重要的自变量。8. 标准化回归方程与非标准化回归方程有何不同？在怎样的情况下需要将变

10、量标准化？标准化回归方程就是将自变量因变量都标准化后的方程。在SPSS输出的回归系数中有一列是标准化的回归系数，由于都标准化了，因此标准化方程中没有常数项了。对数据标准化，即将原始数据减去相应变量的均数后再除以该变量的标准差，计算得到的回归方程称为标准化回归方程，相应的回归系数为标准化回归系数。一般情况下的回归，并不必须标准化，直接回归即可。在做主成分分析包括因子分析时，则必须标准化。9. 回归分析和相关分析的区别和联系相关分析和回归分析都是对客观事物数量依存关系的分析，均有一兀和多兀，线性与非线性之分，在应用中相互结合渗透，但仍有差别，主要是：(1) 相关分析主要刻画两类变量

11、间线性相关的密切程度，而回归分析则是揭示一个变量如何与其他变量相联系，并可由回归方程进行控制和预测(2) 在相关分析中，变量y与x处于平等的地位，在回归分析中，因变量 y处于被解释的特殊地位(3) 在相关分析中所涉及的变量 y与x完全是随机变量；而在回归分析中因变量y是随机变量，自变量可以是随机变量也可以是非随机变量。一般来说，只有存在相关关系才可以进行回归分析，相关程度越高，回归分析的结果就越可靠。10. 回归方程的基本假定？(1) 回归函数的线性假设(2) 误差项的等方差假设(3) 误差项的独立性假设(4) 误差项的正态分布假设11运用回归分析解决问题时，回归变量的选择理论依据的什么？

12、选择回归变量时应注意哪些问题？(1) 从拟合角度考虑，可以采用修正的复相关系数达到最大的准则准则1：修正的复相关系数Ra2达到最大。因为：Ra2=1-MSE/(SST/(n-1)从这个关系式容易看出，Ra2达到最大时，MSE达到最小。(2) 从预测的角度考虑，可以采用预测平方和达到最小的准则及Cp准则准则2:预测平方和PRESSP达到最小准则3: (Cp准则)(3) 从极大似然估计角度考虑，可以采用赤池信息量化准则( AIC准则) 准则4:赤池信息量达到最小AIC=nln(SSEp)+2p选择AIC值最小的回归方程为最优回归方程自变量的选择问题可以看成是应该采用全模型还是选模型的问题全

13、模型正确误用选模型：全模型相应参数为有偏估计，选模型预测也是有偏的。选模型的参数估计和预测残差以及均方差都有较小的方差。选模型正确误用全模型，全模型参数估计和预测是有偏估计，而全模型预测值的方差和均方差大于选模型相应的方差。上述结论说明丢掉那些对应变量影响不大的，或虽有影响，但难于观测的自变量是有利的。12. 逐步回归方法的基本思想与步骤基本思想：有进有出。具体做法是将变量一个一个引入，引入变量的条件是通过了偏F统计量的检验，同时，每引入一个新变量后，对已入选方程的老变量进行检测，将经检验认为不显著的变量剔除，此过程经过若干步，直到既不能引入新变量又不能剔除老变量为止。基

14、本步骤：(1) 对于每个自变量Xi(1w i m),拟合m个一元线性回归模型，若 RFe,则所选择含有自变量 xi1 的回归模型为当前模型，否则，没有变量引入模型，选择过程结束，即认为所有自变量对 y 的影响均不显著。(2) 在第一步的基础上，再将其余的m-1个自变量分别加入此模型中，得到m-1 个二元回归方程，若若FiiFe则将自变量Xi2引入模型，进一步考察Xi2引入模型后，Xii对y的影响是否仍显著，若Fl Fd,贝捌除Xi。(3) 在第二步的基础上再将其余的 m-2个自变量分别加入此模型中，拟合各个模型并计算偏F统计量值，与Fe比较决定是否又新变量引入，如果有新的变量引入，还需要检验原模型中的老变量是否因为这个新变量的引入而不再显著，那样就应该被剔除。重复以上步骤，直到没有新的变量进入模型，同时在模型中的老变量都不能被剔除，则结束选择过程。13. 在作判别分析时，如何检验判别效果的优良性？当一个判别准则提出以后，还要研究其优良性，即要考察误判概率。一般使用以训练样本为基础的回代估计法与交叉确认估计法。( 1 )误判率回代估计法回判过程中，用n12表示将本属于G1的样本误判为G2的个数，

展开阅读全文