多元统计分析思考题

资源描述

《多元统计分析思考题》由会员分享，可在线阅读，更多相关《多元统计分析思考题（8页珍藏版）》请在金锄头文库上搜索。

1、多元统计分析思考题第一章回归分析1、回归分析是怎样的一种统计方法，用来解决什么问题？回归分析是基于观测数据建立变量之间的某种依赖关系，分析数据的内在规律，并可用于预报、控制等方面。2、线性回归模型中线性关系指的是什么变量之间的关系？自变量与因变量之间一定是线性关系形式才能做线性回归吗？为什么？线性关系指的是自变量与因变量之间的关系。不一定，3、实际应用中，如何设定回归方程的形式？4、多元线性回归理论模型中，每个系数（偏回归系数）的含义是什么？回归系数是在回归方程中表示自变量x对因变量y影响大小的参数。回归系数越大表示x 对y影响越大，正回归系数表示y随x增大而增大，负回归系数表示y随x增大

2、而减小。5、经验回归模型中，参数是如何确定的？有哪些评判参数估计的统计标准？最小二乘估计两有哪些统计性质？要想获得理想的参数估计值，需要注意一些什么问题？参数的确定：评判参数估计的标准:最小二乘估计的统计性质:（1）（2）（3）（4）（5）（6）获得理想参数应注意：6、理论回归模型中的随机误差项的实际意义是什么？为什么要在回归模型中加入随机误差项？建立回归模型时，对随机误差项作了哪些假定？这些假定的实际意义是什么？7、建立自变量与因变量的回归模型，是否意味着他们之间存在因果关系？为什么？不是。8、回归分析中，为什么要作假设检验？检验依据的统计原理是什么？检验的过程是怎样的? 为了检验所确

3、定的线性回归方程是否有意义。原理：显著性检验步骤：（1）提出统计假设H；（2）选取适当的统计量U，并在假设H成立的条件下确定该统计量的分布；（3）按问题的要求选取一个显著水平a （一般为0.05、0.10、0.01），并根据统计量的分布查表，求出能使PIUIu0u0，则拒绝假设H，如果IuI %），表示第一、第二自由度分别为p、（n-p-1）的F变量大于的概率（即接受H0、线性关系不显著的概率）方程：用F统计量或者P值法检验回归方程的显著性，F _ MSR _ SSR / p_ MSE _ SSE/(n- p-1)系数：SSE10、回归分析中的R2有何意义？它能用来衡量模型优劣吗？回归平

4、方和与总离差平方和之比：R 2 二滂 =1-碧作为评判一个模型拟合优度的标准， SSI SSI成为样本决定系数。模型拟合优度并不是评判模型质量的唯一标准，R方越大，代表y接受变化的能力越强，不确定性和模型复杂程度较小，并不足以表明模型的真是可靠性，不能说明模型接近真实情况的程度，还要考虑真实情况的不确定性和复杂程度，不确定性和复杂程度较大的时候，R方小范儿更有意义。有时为了追求模型的实际意义，可以在一定程度上房款对拟合优度的要求。11、如何确定回归分析中变量之间的交互作用？存在交互作用时，偏回归系数的意义与不存在交互作用的情形下是否相同？为什么？12、有哪些确定最优回归模型的准则？

5、如何选择回归变量？（P55）自变量选择准则：（拟合）修正的复相关系数R2达到最大，等价于：均方残差MSE达到最小；aMSER 2 =1-STan 1 预测平方和PRESS?达到最小（偏差平方和） Cp准则C SSEp （n 2p 2）p MSE（x ,x，x ）12 m其中SSE是包含p个自变量的回归方程的残差平方和，MSE（x ,x，,x ）表示含有所有 p12mm个自变量的回归方程的均方残差。该准则要求选择。最小，且I Cp I小的回归方程。（极大似然估计）ACI准则，赤池信息量达到最小13、在怎样的情况下需要建立标准化的回归模型？标准化回归模型与非标准化模型有何关系？形式有否不同？

6、（P42）在多元线性回归分析中，所涉及到的诸多自变量往往量纲不同，甚至差别很大，这时就需要对变量进行中心化或标准化，数据的中心化处理相当于将坐标原点移至样本中心，而坐标系的平移不改变斜率，只改变了截距；标准化处理后建立的回归方程相比非标准化的回归方程少了一个常数项，系数之间的关系为：14、利用回归方法解决实际问题的大致步骤是怎样的?15、你能够利用哪些软件实现进行回归分析？能否解释全部的软件输出结果?第二章判别分析1、判别分析的目的是什么？在自然科学和社会科学的研究中，研究对象用某种方法已划分为若干类型，当得到的一个新的样品数据，要确定该样品属于已知类型中的哪一类，这就是判别分析的目的

7、。2、有哪些常用的判别分析方法？这些方法的基本原理或步骤是怎样的？它们各有什么特点或优劣之处？判别方法基本原理特点距离判别法根据已知分类的数据，分别计算各类的重心，即分类的均值；判别准则是：对任意一个样品，若它与第 i类的重心距离最近，就认为它来自第i类。优：对各类（或总体）的分布并无特定的要求；Fisher判别法基本思想是投影，将k组m兀数据投影到某一个方向，使得投影后组与组之间尽可能分开，其中利用了一元方差分析的思想导出判别函数（可以是线性的也可以是非线性的）优：该方法对总体的分布并未提出特定要求，是处理概率分布未知的一种方法；Bayes判别法假设对所研究的对象（总

8、体）在抽样前已有一定的认识，常用先验概率分布来描述这种认识，然后基于抽取的样本再对先验认识做修正，得到后验概率分布，再基于后验概率分布做各种统计推断。该判别考虑了总体的先验概率分布和误判损失逐步判别法逐步引入一个“最重要”的变量进入判别式，同时对先引入判别式的一些变量进行检验，如果他们的判别能力随着引入新变量而变得不显著了，则将它从判别式中剔除，直至没有新变量能够进入，依然没有旧变量需要剔除为止。3、判别分析与回归分析有何异同之处?同：异：4、判别分析对变量与样本规模有何要求?5、如何度量判别效果？有哪些影响判别效果的因素？通过评价判别准则来度量判别效果，方法有（1）误

9、判率回代估计法；（2）误判率的交叉确认估计；（P75）影响因素：6、逐步判别是如何选择判别变量的？基本思想或步骤是什么？在判别分析中，并非观测变量越多越好，而应该选取主要变量进行判别分析，因为每一个变量在判别式中所起的作用一般来说不相同，有的起重要作用，有的起低微作用，如果将判别能力低微的变量保留在判别式中，不仅会增加计算量，还会产生干扰，影响判别效果；同样的，如果主要变量被忽略了，产生的判别效果也不会好。基本思想（步骤）：与“逐步回归”相似，采用“有进有出”的算法，即逐步引入一个“最重要”的变量进入判别式，同时对先引入判别式的一些变量进行检验，如果他们的判别能力随着引入新变量而变得

10、不显著了，则将它从判别式中剔除，直至没有新变量能够进入，依然没有旧变量需要剔除为止。步骤：7、判别分析有哪些现实应用？举例说明。第三章聚类分析1、聚类分析的目的是什么？与判别分析有何异同？这种方法有哪些局限或欠缺？目的：把某些方面相似的东西归成类，以便从中发现规律性，进而达到认识和改变世界的目的；异：是否事先已知研究对象分类；同：都是分类（分组）的问题；局限：2、有哪些常用的聚类统计量？Q型聚类统计量，用“距离”度量样品之间的接近程度；距离小表示共同点多；R型聚类统计量，用“相似系数”描述变量之间的近似程度；“相似系数”绝对值接近1 表示关系密切；3、系统（谱系）聚类法的基本思想是怎样的？

11、它包含哪些具体方法？基本思想：先将待聚类的n个样品各自看成一类，共有n类；然后按照事先选定的方法计算每两类之间的聚类统计量，即某种距离（或相似系数）将关系最密切的两类并为一类，其余不变，即得n-1类；在按照前面的计算方法计算新类与其他类之间的距离（或相似系数），再将关系最密切的两类并为一类，其余不变，即得n-2类；如此继续下去，每次重复都少一类，直到最后所有样品（变量）都归为一类为止。方法：最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法；4、聚类分析对变量与样本规模有何要求？有哪些因素影响分类效果？要想减少不利因素的影响，可以采取哪些改进方法？要求：要求样本规模较大

12、，变量之间不要有太强的相关性，变量个数应该样本量，5、实际应用问题，如何确定分类数目？（1）根据经验和相关学科专业知识确定分类数目；（2）根据聚类统计量参考确定；（3）使用误判定理具体分析；6、快速聚类法（K均值法）的基本思想或步骤是怎样的？基本思想：在待聚类的样品比较多时，先给出一个大致的初始分类，然后用某种原则进行修改，知道分类结果比较合理为止。步骤：7、有序样品的最优分割法的基本思想或步骤是怎样的?8、应用聚类分析解决实际问题的基本步骤是怎样的？应该注意哪些方面的问题？步骤：1-6（P104）应注意问题：无论选择哪种方法计算类与类之间距离（变量之间的相似系数）都是将距离（相似系数）

13、中最小的两类合并成一个新类第四章主成分分析与典型相关分析1、主成分分析的基本思想是什么？在低维情况下，如何利用几何图形解释主成分的意义？基本思想：构造原始变量的适当的线性组合，以产生一系列互不相关的新变量，从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息，从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。几何解释：2、什么是主成分的贡献率与累计贡献率？实际应用时，如何确定主成分的个数？描述第k个主成分提取的信息占原来变量总信息量的比重，称为第k个主成分Yk 的贡献率；称为前m个主成分Y1、Y2、Ym的累计贡献率，表示前m个主成分提取X1，X2，Xp的总信息量的比重。在实际应用中，通常选取mp，使前m个主成分的累计贡献率达到一定的比例（80%-90%）3、主成分有哪些基本性质？（1）每一主成分都是原始变量的线性组合；（2）主成分的数目大大少于原始变量的数目；（3）主成分保留了原始变量所包含的绝大部分信息；（4）各主成分之间互不相关；4、对于任何情形的多个变量，都可以采取主成分方法降维吗？为什么？5、怎样的情况下需要计算标准化的主成分？在实际问题中，不同的变量往往有不同的量纲，由于不同的量纲会引起各变量取值的分

展开阅读全文