多元统计分析思考题

上传人:博****1 文档编号:560780169 上传时间:2023-06-16 格式:DOCX 页数:8 大小:23.72KB
返回 下载 相关 举报
多元统计分析思考题_第1页
第1页 / 共8页
多元统计分析思考题_第2页
第2页 / 共8页
多元统计分析思考题_第3页
第3页 / 共8页
多元统计分析思考题_第4页
第4页 / 共8页
多元统计分析思考题_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《多元统计分析思考题》由会员分享,可在线阅读,更多相关《多元统计分析思考题(8页珍藏版)》请在金锄头文库上搜索。

1、多元统计分析思考题第一章回归分析1、回归分析是怎样的一种统计方法,用来解决什么问题?回归分析是基于观测数据建立变量之间的某种依赖关系,分析数据的内在规律,并可用于预 报、控制等方面。2、线性回归模型中线性关系指的是什么变量之间的关系?自变量与因变量之间一定是线性 关系形式才能做线性回归吗?为什么?线性关系指的是自变量与因变量之间的关系。不一定,3、实际应用中,如何设定回归方程的形式?4、多元线性回归理论模型中,每个系数(偏回归系数)的含义是什么?回归系数是在回归方程中表示自变量x对因变量y影响大小的参数。回归系数越大表示x 对y影响越大,正回归系数表示y随x增大而增大,负回归系数表示y随x增大

2、而减小。5、经验回归模型中,参数是如何确定的?有哪些评判参数估计的统计标准?最小二乘估计 两有哪些统计性质?要想获得理想的参数估计值,需要注意一些什么问题?参数的确定:评判参数估计的标准:最小二乘估计的统计性质:(1)(2)(3)(4)(5)(6)获得理想参数应注意:6、理论回归模型中的随机误差项的实际意义是什么?为什么要在回归模型中加入随机误差 项?建立回归模型时,对随机误差项作了哪些假定?这些假定的实际意义是什么?7、建立自变量与因变量的回归模型,是否意味着他们之间存在因果关系?为什么? 不是。8、回归分析中,为什么要作假设检验?检验依据的统计原理是什么?检验的过程是怎样的? 为了检验所确

3、定的线性回归方程是否有意义。原理: 显著性检验步骤:(1)提出统计假设H;(2)选取适当的统计量U,并在假设H成立的条件下确定该统计量的分布;(3)按问题的要求选取一个显著水平a (一般为0.05、0.10、0.01),并根据统计量的分布查表,求出能使PIUIu0u0,则拒绝 假设H,如果IuI %),表示第一、第二自由度分别为p、(n-p-1)的F变量大于的概率(即 接受H0、线性关系不显著的概率)方程:用F统计量或者P值法检验回归方程的显著性,F _ MSR _ SSR / p_ MSE _ SSE/(n- p-1)系数:SSE10、回归分析中的R2有何意义?它能用来衡量模型优劣吗?回归平

4、方和与总离差平方和之比:R 2 二 滂 =1-碧作为评判一个模型拟合优度的标准, SSI SSI成为样本决定系数。模型拟合优度并不是评判模型质量的唯一标准,R方越大,代表y接受 变化的能力越强,不确定性和模型复杂程度较小,并不足以表明模型的真是可靠性,不能说 明模型接近真实情况的程度,还要考虑真实情况的不确定性和复杂程度,不确定性和复杂程 度较大的时候,R方小范儿更有意义。有时为了追求模型的实际意义,可以在一定程度上房 款对拟合优度的要求。11、如何确定回归分析中变量之间的交互作用?存在交互作用时,偏回归系数的意义与不 存在交互作用的情形下是否相同?为什么?12、有哪些确定最优回归模型的准则?

5、如何选择回归变量?(P55)自变量选择准则: (拟合)修正的复相关系数R2达到最大,等价于:均方残差MSE达到最小;aMSER 2 =1-STan 1 预测平方和PRESS?达到最小(偏差平方和) Cp准则C SSEp (n 2p 2)p MSE(x ,x,x )12 m其中SSE是包含p个自变量的回归方程的残差平方和,MSE(x ,x,,x )表示含有所有 p12mm个自变量的回归方程的均方残差。该准则要求选择。最小,且I Cp I小的回归方程。 (极大似然估计)ACI准则,赤池信息量达到最小13、在怎样的情况下需要建立标准化的回归模型?标准化回归模型与非标准化模型有何关 系?形式有否不同?

6、(P42)在多元线性回归分析中,所涉及到的诸多自变量往往量纲不同,甚至差别很大,这时就需要 对变量进行中心化或标准化,数据的中心化处理相当于将坐标原点移至样本中心,而坐标系 的平移不改变斜率,只改变了截距;标准化处理后建立的回归方程相比非标准化的回归方程 少了一个常数项,系数之间的关系为:14、利用回归方法解决实际问题的大致步骤是怎样的?15、你能够利用哪些软件实现进行回归分析?能否解释全部的软件输出结果?第二章判别分析1、判别分析的目的是什么?在自然科学和社会科学的研究中,研究对象用某种方法已划分为若干类型,当得到的一个新 的样品数据,要确定该样品属于已知类型中的哪一类,这就是判别分析的目的

7、。2、有哪些常用的判别分析方法?这些方法的基本原理或步骤是怎样的?它们各有什么特点 或优劣之处?判别方法基本原理特点距离判别法根据已知分类的数据,分别计算各 类的重心,即分类的均值;判别准 则是:对任意一个样品,若它与第 i类的重心距离最近,就认为它来自 第i类。优:对各类(或总体)的分布并无特 定的要求;Fisher判别法基本思想是投影,将k组m兀数据 投影到某一个方向,使得投影后组 与组之间尽可能分开,其中利用了 一元方差分析的思想导出判别函数 (可以是线性的也可以是非线性 的)优:该方法对总体的分布并未提出特 定要求,是处理概率分布未知的一种 方法;Bayes判别法假设对所研究的对象(总

8、体)在抽 样前已有一定的认识,常用先验概 率分布来描述这种认识,然后基于 抽取的样本再对先验认识做修正, 得到后验概率分布,再基于后验概 率分布做各种统计推断。该判别考虑了总体的先验概率分布和 误判损失逐步判别法逐步引入一个“最重要”的变量进 入判别式,同时对先引入判别式的 一些变量进行检验,如果他们的判 别能力随着引入新变量而变得不显 著了,则将它从判别式中剔除,直 至没有新变量能够进入,依然没有 旧变量需要剔除为止。3、判别分析与回归分析有何异同之处?同:异:4、判别分析对变量与样本规模有何要求?5、如何度量判别效果?有哪些影响判别效果的因素?通过评价判别准则来度量判别效果,方法有(1)误

9、判率回代估计法;(2)误判率的交叉确认估计;(P75)影响因素:6、逐步判别是如何选择判别变量的?基本思想或步骤是什么?在判别分析中,并非观测变量越多越好,而应该选取主要变量进行判别分析,因为每一个变 量在判别式中所起的作用一般来说不相同,有的起重要作用,有的起低微作用,如果将判 别能力低微的变量保留在判别式中,不仅会增加计算量,还会产生干扰,影响判别效果;同 样的,如果主要变量被忽略了,产生的判别效果也不会好。基本思想(步骤):与“逐步回归”相似,采用“有进有出”的算法,即逐步引入一个“最 重要”的变量进入判别式,同时对先引入判别式的一些变量进行检验,如果他们的判别能力 随着引入新变量而变得

10、不显著了,则将它从判别式中剔除,直至没有新变量能够进入,依然 没有旧变量需要剔除为止。步骤:7、判别分析有哪些现实应用?举例说明。第三章聚类分析1、聚类分析的目的是什么?与判别分析有何异同?这种方法有哪些局限或欠缺?目的:把某些方面相似的东西归成类,以便从中发现规律性,进而达到认识和改变世界 的目的;异:是否事先已知研究对象分类;同:都是分类(分组)的问题;局限:2、有哪些常用的聚类统计量?Q型聚类统计量,用“距离”度量样品之间的接近程度;距离小表示共同点多;R型聚类统计量,用“相似系数”描述变量之间的近似程度;“相似系数”绝对值接近1 表示关系密切;3、系统(谱系)聚类法的基本思想是怎样的?

11、它包含哪些具体方法?基本思想:先将待聚类的n个样品各自看成一类,共有n类;然后按照事先选定的方法 计算每两类之间的聚类统计量,即某种距离(或相似系数)将关系最密切的两类并为一 类,其余不变,即得n-1类;在按照前面的计算方法计算新类与其他类之间的距离(或 相似系数),再将关系最密切的两类并为一类,其余不变,即得n-2类;如此继续下去, 每次重复都少一类,直到最后所有样品(变量)都归为一类为止。方法:最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法;4、聚类分析对变量与样本规模有何要求?有哪些因素影响分类效果?要想减少不利因素的影响,可以采取哪些改进方法?要求:要求样本规模较大

12、,变量之间不要有太强的相关性,变量个数应该样本量,5、实际应用问题,如何确定分类数目?(1)根据经验和相关学科专业知识确定分类数目;(2)根据聚类统计量参考确定;(3) 使用误判定理具体分析;6、快速聚类法(K均值法)的基本思想或步骤是怎样的?基本思想:在待聚类的样品比较多时,先给出一个大致的初始分类,然后用某种原则进 行修改,知道分类结果比较合理为止。步骤:7、有序样品的最优分割法的基本思想或步骤是怎样的?8、应用聚类分析解决实际问题的基本步骤是怎样的?应该注意哪些方面的问题?步骤:1-6(P104)应注意问题:无论选择哪种方法计算类与类之间距离(变量之间的相似系数)都是将距 离(相似系数)

13、中最小的两类合并成一个新类第四章主成分分析与典型相关分析1、主成分分析的基本思想是什么?在低维情况下,如何利用几何图形解释主成分的意 义?基本思想:构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选 出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变 量代替原始变量分析问题和解决问题成为可能。几何解释:2、什么是主成分的贡献率与累计贡献率?实际应用时,如何确定主成分的个数?描述第k个主成分提取的信息占原来变量总信息量的比重,称为第k个主成分Yk 的贡献率;称为前m个主成分Y1、Y2、Ym的累计贡献率,表示前m个主成分提取X1,X2,Xp的总信息量的比重。在实际应用中,通常选取mp,使前m个主成分的累计贡献率达到一定的比例(80%-90%)3、主成分有哪些基本性质?(1)每一主成分都是原始变量的线性组合;(2)主成分的数目大大少于原始变量的数目;(3)主成分保留了原始变量所包含的绝大部分信息;(4)各主成分之间互不相关;4、对于任何情形的多个变量,都可以采取主成分方法降维吗?为什么?5、怎样的情况下需要计算标准化的主成分?在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号