多元统计综合练习2016

上传人:灯火****19 文档编号:142981442 上传时间:2020-08-25 格式:PDF 页数:12 大小:337.43KB
返回 下载 相关 举报
多元统计综合练习2016_第1页
第1页 / 共12页
多元统计综合练习2016_第2页
第2页 / 共12页
多元统计综合练习2016_第3页
第3页 / 共12页
多元统计综合练习2016_第4页
第4页 / 共12页
多元统计综合练习2016_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《多元统计综合练习2016》由会员分享,可在线阅读,更多相关《多元统计综合练习2016(12页珍藏版)》请在金锄头文库上搜索。

1、 1 多元统计分析练习 多元统计分析练习 一、一、 填空 填空 1. 人们通过各种实践,发现变量之间的相互关系可以分成确定性关系和随机关 系两种类型。 2. 多元正态分布是最常见的一种多元概率分布。 此外, 还有多元对数正态分布、 多项式分布、多元超几何分布、多元分布、多元2分布、多元指数分布等。 3. 两个随机变量X和Y独立当且仅当 其中 。 4. 设随机变量X和Y,当 A,B 为常数矩阵时,则 E(AX)=AE(X)=A, E(AXB)=AE(X)B,D(AX)=AD(X)A = AA , COV(AX,BY)=ACOV(X,Y)B ,E(X AX)=tr(A)+ A,其中=E(X), =

2、D(X)。 5. 相关系数与协方差的关系为 )()( ),cov( ji ji ij XDXD YX r=。 6. 设几何平面上的点 p 的坐标 P=(x1, x2,xn),则它到原点 O=(0,0, , 0)的欧氏距离为. . 7. 总离差平方和可以分解为回归平方和和误差平方和_两个部分,各自的自由 度为自变量数目和_样本数减 1 再减自变量数_,其中回归平方和在总离差 平方和中所占比重越大,则线性回归效果越显著。 8. 回归方程显著性检验时通常采用的统计量是_F 或 R_。 9. 最优回归方程是_多变量利用逐步回归分析确定_的回归方程。 10. Spss 中回归方程的建模方法有_线性_、_

3、曲线_、_多项式_、 _非线性_等。 2 11. 聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的_ 相似性程度_进行科学的分类。 12. Q 型聚类法是按_样本_进行聚类,R 型聚类法是按_变量_进行聚类。 13. Q 型聚类统计量是_距离_,而 R 型聚类统计量通常采用_相关系数 _。 14. 六种 Q 型聚类方法分别为_最长距离_、_最短距离_、_中间距离_、 _类平均_、_重心法_、_离差平方和。 15. 快速聚类在 SPSS 中由_K-均值_过程实现。 16判别分析是要解决在研究对象已_知分类_的情况下,确定新的观测数据 属于已知类别中哪一类的多元统计方法。 17用判

4、别分析方法处理问题时,通常以_距离_作为衡量新样本点与各已知 组别接近程度的指标。 18进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见 的判别准则有_距离最小_、_概率最大_。 19在 p 维空间 Rp中,点与点之间的接近和疏远尺度用_距离_来衡量,最简 单的就是_欧氏距离_或_平方的欧氏距离_。 20类内样本点接近,类间样本点疏远的性质,可以通过_类内方差_ 与_类间方差_的大小差异表现出来,而两者的比值能把不同的类区别开来。这 个比值越大,说明类与类间的差异越_小_,分类效果越_不好_。 21Fisher 判别法就是要找一个由 p 个变量组成的_线性判别函数_,使得各自

5、组内点的_距离_尽可能接近,而不同组间点的尽可能疏远。 22 主成分分析是通过适当的变量替换, 使新变量成为原变量的_线性组合_, 3 并寻求_降维_的一种方法。 23主成分分析的基本思想是将原来众多具有一定相关性的指标重新组合成一 组新的相互无关的综合指标来代替原来指标。 24主成分的协方差矩阵为_对称 矩阵。 25主成分表达式的系数向量是_相关矩阵特征值_的特征向量。 27原始变量协方差矩阵的特征根的统计含义是_主成分的方差 。 28原始数据经过标准化处理,转化为均值为_0_,方差为_1_的标准值, 且其_协方差_矩阵与相关系数矩阵相等。 29因子载荷量的统计含义是_第 K 个样本主成分与

6、第 j 个变量样本之间的相 关系数 kjku 30样本主成分的总方差等于_1_。 31在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为_累 计方差贡献率_。 32SPSS 中主成分分析采用_因子分析_命令过程。 33因子分析是把每个原始变量分解为两部分因素,一部分是_公共因子_, 另一部分为_特殊因子_。 34变量共同度是指因子载荷矩阵中_变量所在行元素的平方和_。 35公共因子方差与特殊因子方差之和为_1_。 二、 简答题 1简述系统聚类法的基本思想及主要步骤。 系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远 4 的后聚成类,过程一直进行下去,每个样品(或变量)

7、总能聚到合适的类中。 系统聚类过程是:假设总共有n个样品(或变量) ,第一步将每个样品(或 变量)独自聚成一类,共有n类;第二步根据所确定的样品(或变量)“距离” 公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量) 仍各自聚为一类,共聚成n 1 类;第三步将“距离”最近的两个类进一步聚成一 类,共聚成n 2 类;,以上步骤一直进行下去,最后将所有的样品(或变 量)全聚成一类,也简称聚集法。还有与以上方法相反的称分解法。 步骤:分析所需要研究的问题,确定聚类分析所需要的多元变量;选择对样 品聚类还是对指标聚类;选择合适的聚类方法;选择所需的输出结果。 2简述最长聚类法的聚类步骤

8、。 最长距离法进行聚类分析的步骤如下: (1)定义样品之间距离,计算样品的两两距离,得一距离阵记为D(0) , 开始每个样品自成一类,显然这时Dij = dij。 (2)找出距离最小元素,设为Dpq,则将Gp和Gq合并成一个新类,记 为Gr,即Gr = Gp,Gq 。 (3)按 , max ipjq pqij XGXG Dd = 式计算新类与其它类的距离。 (4)重复(2) 、 (3)两步,直到所有元素。并成一类为止。如果某一步距 离最小的元素不止一个,则对应这些最小元素的类可以同时合并。 3. 简述快速聚类的基本思想及主要步骤。 基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法

9、至少包 括以下三个步骤: (1)将所有的样品分成 K 个初始类; 5 (2)通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失 去样品的类,重新计算中心坐标; (3)重复步骤 2,直到所有的样品都不能再分配时为止。 4判别分析的基本思想。 设有n个样本,对每个样本测得p项指标(变量)的数据,已知每个样本 属于k个类别(或总体)G1,G2, ,Gk中的某一类,且它们的分布函数分 别为F1(x),F2(x), ,Fk(x)。我们利用已知数据,找出一种判别函数,使得 这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来, 并对测得同样p项指标(变量)数据的一个新样本,能判定这

10、个样本归属于哪 一类。 5简述 Fisher 判别规则及具体判别步骤。 Fisher 判别法是 1936 年提出来的, 该方法的主要思想是通过将多维数据投 影到某个方向上,投影的原则是将总体与总体之间尽可能的放开,然后再选择 合适的判别规则,将新的样品进行分类判别。设从k个总体中抽取具有 p 个指 标的样品观测数据,借助方差分析的思想构造一个线性判别函数 1122 () pp Uu Xu Xu X=+=Xu XL 其中系数 ),( 21 = p uuuu 确定的原则是使得总体之间区别最大, 而使每个总体内 部的离差最小。有了线性判别函数后,对于一个新的样品,将它的 p 个指标值代 入线性判别函

11、数式中求出 ( )U X 值,然后根据判别规则,就可以判别新的样品属 于哪个总体。 6列举样本主成分的性质。 (1)协方差阵为对角阵。 6 (2)原变量方差之和等于新的变量的方差之和,即, (3)主成分因子载荷 7提取样本主成分的原则。 简述主成分分析中累积贡献率的具体含义。 答:主成分分析把 p个原始变量 12 , p XXXL的总方差( )tr 分解成了 p个相互独立 的变量 12 , p Y YYL的方差之和 1 p k k = 。主成分分析的目的是减少变量的个数,所以一 般不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差 带来太大的影响。这里我们称 1 p kkk

12、k = = 为第k个主成分 k Y 的贡献率。第一主成 分的贡献率最大, 这表明 11 Y T =X 综合原始变量 12 , p XXXL的能力最强, 而 23 , p Y YYL 的综合能力依次递减。若只取()mp v1 。 相关系数 = 。 = 。 命名依据 用 ( , )式中系数 绝对值大的对应变量对 Fj命 名,有时命名清晰性低。 将 的第 j 列绝对值大的对应 变量归为 Zj一类并由此对 Zj命 名,命名清晰性高(精细)。 回归过程 无。 有,因子得分函数 标准正交 性 是, (判据之一)。 非, , 8 综合评价 函数及方 差 F综 = Fi , Var F综 = ( , 或 +

13、, 通常VarF综 VarZ 综, 即 F综 的取值范围通常比 Z综 大。 Z综 = Zi, vi (判据之 一) Var Z综 = ( (旋转 后因子贡献从 变为 vi,因此 权数应取为 vi/ ), 或 v1 + v2 +vm 。 应用上侧 重 信息贡献影响力综合评价。 成因清晰性的综合评价。 三、计算题 1. 对 4 种不同品种的玉米进行产量对比实验,假定各实验区其它条件都相同, 得数据如下表: 产量 品种 1 2 3 4 5 A1 A2 A3 A4 47.5 45 46.3 46.6 45.2 46 48.5 44.8 47.9 47.1 43.2 47.7 45.4 46.1 45.

14、8 44.1 41.6 38.8 43.2 42.5 问玉米的不同品种的平均产量是否有显著差异?若有显著差异,试进行多重比 较。 9 2. 现 收 集 了92组 合 金 钢 中 的 碳 含 量x及 强 度y , 且 求 得 : 03.29415126.263019. 07989.45,1255. 0= yyxyxx LLLyx (1)求 y 关于 x 的一元线性回归方程; (2)求 y 与 x 的相关系数; (3)列出对方程作显著性检验的方差分析表 (4)在 x=0.1 时,求 y 的点估计。 3. 某地区通过一个样本容量为722的调查数据得到劳动力受教育年数的一个回 归方程为: 10.36

15、0.0940.1310.210 iiii edusibsmedufedu=+ R2=0.214 式中, edu为劳动力受教育年数,sibs为劳动力家庭中兄弟姐妹的个数,medu与fedu 分别为母亲与父亲受到教育的年数。问 (1)sibs 是否具有预期的影响?为什么?若medu与 fedu保持不变,为了使预测 的受教育水平减少一年,需要sibs增加多少? (2)请对medu的系数给予适当的解释。 (3)如果两个劳动力都没有兄弟姐妹,但其中一个的父母受教育的年数均为 12 年,另一个的父母受教育的年数均为 16 年,则两人受教育的年数预期相差 多少年? 4. 下表给出一二元模型的回归结果。 方差来源 平方和(SS) 自由度(d.f.) 来自回归(SSR) 65965 来自残差(SSE) _ 总离差(SST) 66

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号