多元统计思考题及问题详解

资源描述

《多元统计思考题及问题详解》由会员分享，可在线阅读，更多相关《多元统计思考题及问题详解（12页珍藏版）》请在金锄头文库上搜索。

1、word多元统计分析思考题第一章回归分析1、回归分析是怎样的一种统计方法，用来解决什么问题？答：回归分析作为统计学的一个重要分支，基于观测数据建立变量之间的某种依赖关系，用来分析数据的内在规律，解决预报、控制方面的问题。2、线性回归模型中线性关系指的是什么变量之间的关系？自变量与因变量之间一定是线性关系形式才能做线性回归吗？为什么？答：线性关系是用来描述自变量x与因变量y的关系；但是反过来如果自变量与因变量不一定要满足线性关系才能做回归，原因是回归方程只是一种拟合方法，如果自变量和因变量存在近似线性关系也可以做线性回归分析。3、实际应用中，如何设定回归方程的形式？答：通常分为一元线性回归和多

2、元线性回归，随机变量y受到p个非随机因素x1、x2、x3xp和随机因素的影响，形式为：是p+1个未知参数，是随机误差，这就是回归方程的设定形式。4、多元线性回归理论模型中，每个系数偏回归系数的含义是什么？答：偏回归系数是p+1个未知参数，反映的是各个自变量对随机变量的影响程度。5、经验回归模型中，参数是如何确定的？有哪些评判参数估计的统计标准？最小二乘估计法有哪些统计性质？要想获得理想的参数估计值，需要注意一些什么问题？答：经验回归方程中参数是由最小二乘法来来估计的；评判标准有：普通最小二乘法、岭回归、主成分分析、偏最小二乘法等；最小二乘法估计的统计性质:其选择参数满足正规方程组， 1选择参

3、数分别是模型参数的无偏估计，期望等于模型参数； 2选择参数是随机变量y的线性函数要想获得理想的参数估计，必须注意由于方差的大小表示随机变量取值的波动性大小，因此自变量的波动性能够影响回归系数的波动性，要想使参数估计稳定性好，必须尽量分散地取自变量并使样本个数尽可能大。6、理论回归模型中的随机误差项的实际意义是什么？为什么要在回归模型中参加随机误差项？建立回归模型时，对随机误差项作了哪些假定？这些假定的实际意义是什么？答：随机误差项的引入使得变量之间的关系描述为一个随机方程，由于因变量y很难用有限个因素进展准确描述说明，故其代表了人们的认识局限而没有考虑到的偶然因素。7、建立自变量与因变量的回

4、归模型，是否意味着他们之间存在因果关系？为什么？答：不是，因果关系是由变量之间的内在联系决定的，回归模型的建立只是一种定量分析手段，无法判断变量之间的内在联系，更不能判断变量之间的因果关系。8、回归分析中，为什么要作假设检验？检验依据的统计原理是什么？检验的过程是怎样的？答：因为即使我们已经建立起了模型，但是尚且不知这个回归方程是否能够比拟好地反映所描述的变量之间的影响关系，必须进展统计学上的假设检验；假设性检验原理可以用小概率原理解释，通常认为小概率事件在一次试验中几乎不可能发生的，即对总体的某个假设是真实的，那么不支持这一个假设事件在一次试验中是几乎不可能发生的，要是这个事件发生了，我们

5、就有理由怀疑这一假设的真实性，拒绝原假设；检验过程：1提出统计假设H0和H1；2构造一个与H0相关的统计量，称其为检验统计量；3根据其显著性水平的值，确定一个拒绝域；4作出统计决断；9、回归诊断可以大致确定哪些问题？回归分析有哪些根本假定？如果实际应用中不满足这些假定，将可能引起怎样的后果？如何检验实际应用问题是否满足这些假定？对于各种不满足假定的情形，分别采用哪些改良方法？答：回归诊断解决： 1回归方程的线性假定； 2是否存在多重共线性； 3误差项的正态性假定； 4误差项的独立性假设； 5误差项同方差假定； 6是否存在数据异常；原根本假定H： 1假设回归方程不显著； 2假设回归系数不显著

6、；引起后果：与模型误差相比，自变量对因变量的影响是不重要的模型误差太大、自变量对y的影响确实太小。如何检验：用F统计量或者P值法来检验方程的显著性；改良方法： 1对于模型的误差太大，我们要想方法缩小误差，检查是否漏掉了重要的自变量，或检查自变量与y的非线性关系； 2对于自变量对y影响较小，此时应该放弃回归分析方法。10、回归分析中的R2有何意义？它能用来衡量模型优劣吗？答：R2是回归平方和与总离差平方和之比，作为评判一个模型拟合度的标准，称为样本决定系数，其值越接近1，意味着模型的拟合优度越高。但是其不是衡量模型优劣唯一标准，增加自变量会使得自由度减少，因此需要引入自由度修正的复相关系数

7、。这些都需要视具体的情况而定。11、如何确定回归分析中变量之间的交互作用？存在交互作用时，偏回归系数的意义与不存在交互作用的情形下是否一样？为什么？答：交互作用是指因素之间联合搭配对试验指标的影响作用，存在交互作用是，偏回归系数肯定与不存在是的系数不同，毕竟变量之间有相互影响的关系。12、有哪些确定最优回归模型的准如此？如何选择回归变量？答：1修正的复相关系数达到最大； 2预测平方和达到最小； 3定义Cp统计量值小，选择小的回归方程； 4赤池信息量达到最小；按照以上准如此进展回归变量的选择。13、在怎样的情况下需要建立标准化的回归模型？标准化回归模型与非标准化模型有何关系？形式有否不同？答：

8、在多元线性回归分析中，由于涉与到的变量量纲不同，差异很大，需要对变量进展中心化和标准化，数据中心化处理相当于将坐标原点移至样本中心坐标系的平移不改变直线的斜率；标准化处理后建立的回归方程模型比非标准化的回归方程少一个常数项，系数存在关系。14、利用回归方法解决实际问题的大致步骤是怎样的？答：1根据预测目标，确定自变量和因变量； 2建立回归预测模型； 3进展相关分析； 4检验回归预测模型，计算预测误差； 5计算并确定预测值。15、你能够利用哪些软件实现进展回归分析？能否解释全部的软件输出结果？答：目前会用的软件是SPSS和matlab，关于地球物理的软件如grapher也可以进展回归分析。对于S

9、PSS的一些输出结果，还是不太理解。第二章判别分析1、判别分析的目的是什么？答：在自然科学和社会科学研究中，研究对象用某种方法已经划分为假如干类别，当得到一个新的样本数据时，要确定该样本属于的哪一类。2、有哪些常用的判别分析方法？这些方法的根本原理或步骤是怎样的？它们各有什么特点或优劣之处？答：1距离判别法：根据分类数据，分别计算各类的重心，即是分类的均值；判别方法是对于任意一个样品，假如它与第i类的重心距离最近，就认为它来自第i类；特点是对各类数据分布并无特定的要求 2Fisher判别法：其根本思想是投影，将k组m元数据投影到某一个方向，使得投影后组与组之间尽可能分开，其中利用了一元方差分

10、析的思想导出判别函数；其特点是对总体的分布没有特殊要求，是处理概率分布未知的一种方法。 3逐步判别法：逐步引入一个“最重要的变量进入判别式，同时对先引入判别式的一些变量进展检验，如果判别能力随着引入新变量而变得不显著，如此将它从判别式中剔除，直到没有新的变量能够进入，依然没有旧变量需要剔除为止。3、判别分析与回归分析有何异同之处？答：1一样点：这两种方法都有关于数据预测的功能；不同点：这个估计太多了，一般来讲判别分析功能是将样品归类，回归分析是探究样品对因变量的变动影响。4、判别分析对变量与样本规模有何要求？答：判别分析对总体分布没有要求，但是判别分析的假设之一是要求每一个变量不能是其他判别

11、变量的线性组合，即不能存在多重共线性。5、如何度量判别效果？有哪些影响判别效果的因素？答：通过评价判别准如此来度量判别效果，常用方法： 1误判率回代法； 2误判率交叉确认估计；影响因素是个总体之间的差异程度，各个总体之间差异越大，就越有可能建立有效的判别准如此，如果差异太小，如此判别分析的意义不大；当各个总体服从多元正态分布，我们可以根据各总体的均值向量是否相等进展统计检验。当然也可以检验各总体的协方差矩阵是否相等来采用判别函数。6、逐步判别是如何选择判别变量的？根本思想或步骤是什么？答：在判别分析中，并不是观测变量越多越好，而是选择主要变量进展判别分析，将各个变量在分析中起的不同作用，将影

12、响力比拟低的变量保存在判别式中，会增加干扰，影响效果。因此选择显著判别力的变量来建立判别式就是逐步判别法。根本思想：其与逐步回归法类似，都是采用“有进有出的算法，即逐步引入一个“最重要的变量进入判别式，同时对先引入的判别式进展检验，如果其判别能力随着新引入的变量显著性降低，如此该因素应该被剔除，直到变量全部进入为止。7、判别分析有哪些现实应用？举例说明。答：判别分析在实际中的应用无处不在。例如我们根据各种经济指标把各个国家分为兴旺国家和开展中国家，通过这些指标成功的判定了一个国家的经济开展水平。第三章聚类分析1、聚类分析的目的是什么？与判别分析有何异同？这种方法有哪些局限或欠缺？答：把

13、某些方面相似的东西进展归类，以便从中发现规律性，达到认识客观事物规律的目的。其与判别分析一样的地方是都是研究分组的问题；不同的是各自对于预先分组对象不一样，聚类分析是未知类别，判别分析是类别。2、有哪些常用的聚类统计量？答：1Q型统计量：对样本进展聚类，用“距离来描述样本之间的接近程度； R型统计量：对变量进展聚类，用“相似系数来度量变量之间的近视程度。3、系统谱系聚类法的根本思想是怎样的？它包含哪些具体方法？答：先将待聚类的n个样品或变量各自看成一类，共有n类，然后按照事先选定的聚类方法计算每两类之间的聚类统计量，即某种距离或者相似系数，将关系最密切的两类并为一类，其余不变，即的n-1

14、类，再按照前面的计算方法计算新类与其他类之间的距离或者相似系数，再将关系最密切的两类归为一类，其余不变，即得n-2类，继续下去，每次重复都减少一类，直到所有样品或者变量都归于一类。4、聚类分析对变量与样本规模有何要求?有哪些因素影响分类效果？要想减少不利因素的影响，可以采取哪些改良方法？答：聚类分析要求其样本规模较大，需要变量之间相关性较弱，变量个数小于样本数。5、实际应用问题，如何确定分类数目？答：按理来说聚类分析的分类数目是事先不知道的，但是在实际应用中，应该根据相关专业知识确定分类数目，结合聚类统计量参考确定，并使用误判定理具体分析。6、快速聚类法K均值法的根本思想或步骤是怎样的？

15、答：如果待分类样品比拟多，应先给出一个大概的分类，然后不断对其进展修正，一直到分类结果比拟合理为止。7、有序样品的最优分别法的根本思想或步骤是怎样的？答：将n个样品看成一类，然后根据分类的误差函数逐渐增加分类，寻求最优分割，用分段的方法找出使组内离差平方和最小的分割点。8、应用聚类分析解决实际问题的根本步骤是怎样的？应该注意哪些方面的问题？答：1n个变量样品各自成一类，一共有n类，计算两两之间的距离，构成一个对称矩阵； 2选择这个对称矩阵中主对角元素以外的上或者下三角局部中的最小元素，合成的新类，并计算其与其他类之间的距离； 3划去与新类有关的行和列，将新类与其余类别的距离组成新的n-1阶对称矩阵； 4再

展开阅读全文