数据统计模型－金锄头文库

资源描述

《数据统计模型》由会员分享，可在线阅读，更多相关《数据统计模型（8页珍藏版）》请在金锄头文库上搜索。

1、数据统计模型多变量统计分析主要用于数据分类和综合评价。综合评价是区划和规划的基础。从人类认识的角度来看有精确的和模糊的两种类型，因为绝大多数地理现象难以用精确的定量关系划分和表示，因此模糊的模型更为实用，结果也往往更接近实际，模糊评价一般经过四个过程：(1) 评价因子的选择与简化；(2) 多因子重要性指标 ( 权重 ) 的确定；(3) 因子内各类别对评价目标的隶属度确定；(4) 选用某种方法进行多因子综合。1.主成分分析地理问题往往涉及大量相互关联的自然和社会要素，众多的要素常常给模型的构造带来很大困难，为使用户易于理解和解决现有存储容量不足的问题，有必要减少某些数据而保留最必要的信

2、息。主成分分析是通过数理统计分析，求得各要素间线性关系的实质上有意义的表达式，将众多要素的信息压缩表达为若干具有代表性的合成变量，这就克服了变量选择时的冗余和相关，然后选择信息最丰富的少数因子进行各种聚类分析，构造应用模型。设有n个样本，p个变量。将原始数据转换成一组新的特征值一一主成分, 主成分是原变量的线性组合且具有正交特征。即将X , x，x综合成12pm(mVp)个指标z , z，z，即l 2mz=l *x+l *x +.+l *x1 1111221ppz=l *x+l *x +.+l *x2 2112222ppzm=l *x+l *x +.+l *xm1 1 m2 2mp p这

3、样决定的综合指标z，z，z分别称做原指标的第一，第二，第m主成分，且z , z，z在总方差中占的比例依次递减。而实际工作中常挑选前几个方差比例最大的主成分，从而简化指标间的关系，抓住了主要矛盾。从几何上看，找主成分的问题，就是找多维空间中椭球体的主轴问题，从数学上容易得到它们是xl, x2,，xp的相关矩阵中m个较大特征值所对应的特征向量，通常用雅可比(Jaobi)法计算特征值和特征向量。主成分分析这一数据分析技术是把数据减少到易于管理的程度，也是将复杂数据变成简单类别便于存储和管理的有力工具。地理研究和生态研究的 GIS用户常使用上述技术，因而应把这些变换函数作为GIS的组成部分。

4、2层次分析法(AHP)Hierarahy Analysis 是 T.L.Saaty 等在 70 年代提出和广泛应用的,是系统分析的数学工具之一，它把人的思维过程层次化、数量化，并用数学方法为分析、决策、预报或控制提供定量的依据。AHP 方法把相互关联的要素按隶属关系分为若干层次，请有经验的专家对各层次各因素的相对重要性给出定量指标，利用数学方法综合专家意见给出各层次各要素的相对重要性权值，作为综合分析的基础。例如要比较n 个因素y=yl, y2,，yn 对目标Z的影响，确定它们在z中的比重, 每次取两个因素yi和yJ,用aij表示yi与yJ对Z的影响之比，全部比较结果可用矩阵A=(a

5、ij)n*n表示，A叫成对比矩阵，它应满足： aij0,aij=1/aij (i,j=1,2,.n)使上式成立的矩阵称互反阵，必有aij = l。在旅游问题中，假设某人考虑5个因素：费用yl、景色y2,居住条件y3, 饮食条件y4、旅途条件y5。他用成对比较法得到的正互反阵是：巧旳旳127551/2L4331/71/斗41/21/3：.坯1/51/32111/S31在上式中a12 = 2表示yl与景色y2对选择旅游点(目标Z)的重要性之比为2:1； a13 = 7，表示费用yl与居住条件y3之比为7:1； a23 = 4，则表示景色y2与居住条件y3之比为4： 1。如果A不是一致阵(即A1

6、2、A23；不等于A13；),需求正互友阵最大特征值对应的特征向量，作为权向量。3.系统聚类分析60年代末到 70 年代初人们把大量精力集中于发展和应用数字分类法，且将这类方法应用于自然资源、土壤剖面、气候分类、环境生态等数据，形成“数字分类学”学科。目前聚类分析已成为标准的分类技术，在许多大型计算机中都存储了这种分析程序，从 GIS 数据库中将点数据传送到聚类分析程序也不困难。聚类分析的主要依据是把相似的样本归为一类，而把差异大的样本区分开来。在由m个变量组成为m维的空间中可以用多种方法定义样本之间的相似性和差异性统计量。例：用x表示第i个样本第k个指标的数据x表示第j个样本第

7、k个指 ikik标数据；d表示第i个样本和第j个样本之间的距离，根据不同的需要， ij距离可以定义为许多类型，最常见、最直观的距离是欧几里德距离，其定义如下：如=I X仏-兮产f 依次求出任何两个点的距离系数d (i, j = l, 2,，n)以后，则可形成ij一个距离矩阵：它反映了地理单元的差异情况，在此基础上就可以根据最短距离法或最长距离法或中位线法等。进行逐步归类，最后形成一张聚类分析谱系图，如图:i东龙区 ?的乗占段泾城招裁饨昨僅区讥黃七高蒸腥5.F江中尸游区 h.酉末区半甫区 E甘新li q-冒宾氐4-3九太农业宦聚秦分析谱系图4.判别分析判别分析是根据表明事物特点的变量值

8、和它们所属的类求出判别函数，根据判别函数对未知所属类别的事物进行分类的一种分析方法，与聚类分析不同，它需要已知一系列反映事物特性的数值变量值及其变量值。判别分析就是在已知研究对象分为若干类型（组别）并已经取得各种类型的一批已知样品的观测数据基础上，根据某些准则，建立起尽可能把属于不同类型的数据区分开来的判别函数，然后用它们来判别未知类型的样品应该属于哪一类。根据判别的组数，判别分析可以分为两组判别分析和多组判别分析；根据判别函数的形式，判别分析可以分为线性判别和非线性判别；根据判别时处理变量的方法不同，判别分析可以分为逐步判别、序贯判别等；根据判别标准的不同，判别分析有距离判

9、别、Fisher判别、Bayes 判别等。判别分析与聚类分析同属分类问题，所不同的是，判别分析是预先根据理论与实践确定等级序列的因子标准，再将待分析的地理实体安排到序列的合理位置上的方法，对于诸如水土流失评价、土地适宜性评价等有一定理论根据的分类系统定级问题比较适用。判别分析依其判别类型的多少与方法的不同，可分为两类判别：多类判别和逐步判别。判别分析要求根据已知的地理特征值进行线性组合，构成一个线性判别函数 Y ，即V- * i井巧+血*叼亠I %井血=左苔q *冲式中，C(k = l, 2,，m)为判别系数，它可反映各要素或特征值作用方k向、分辨能力和贡献率的大小。只要确定了C，判

10、别函数y也就确定了。kX 为已知各要素(变量)的特征值。k为了使判别函数Y能充分地反映出A、B两种地理类型的差别，就要使两类之间均值差Y(A)Y(B)2尽可能大，而各类内部的离差平方和尽可能小。只有这样，其比值I才能达到最大，从而能将两类清楚地分开。其表达式为：I: r?旳-砂 f判别函数求出以后，还需要计算出判别临界值，然后进行归类。不难看出，经过二级判别所作的分类是符合区内差异小而区际差异大的划区分类原则的。目前在地理信息系统中发展了一种多因素模糊评价模型，相当于模糊评判分析.该方法首先根据标准类别参数的指标空间确定各因素各类别对目标的隶属度，作为判别距离的度量，再结合要素的

11、权重指数，采用适当的模糊算法，计算各地理实体的归属等级类别，作为评价的基础。该方法通过隶属度表达人们对目标与因素之间关系的模糊性认识，用适当的算法将这种认识量化并反映到结果的分类中，对于地理学中的评价与规划问题非常有效。第一章：绪论在经济生活中，受多种指标（随机变量）共同作用和影响的现象大量存在。有两种方法可同时对多个随机变量的观测数据进行有效地分析和研究。一种做法是把多个随机变量分开分析，一次处理一个去分析研究。但是，由于变量多，无法避免地存在变量之间的相关性，如果分开处理不仅会丢失很多信息，往往也不容易取得好的研究结论。另一种做法是同时进行分析研究。即用多元统计分析方法

12、来解决，通过对多个随机变量观测数据的分析，来研究变量之间的相互关系以及揭示变量的内在规律。所以，多元统计分析就是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。多元分析包括的主要内容有：多元正态总体的参数估计和假设检验以及常用的统计方法。这些方法是多元数据图表示法、聚类分析、判别分析、主成分分析因子分析、对应分析、多重多元回归分析、典型相关分析、路径分析、多维标第二章：多元正态分布第三章：多元数据图表示法多元数据的图形表示方法有两种：一类是使高维空间的点与平面上的某种图形对应，以反映高维数据的某些特点或数据间的某些关系；另一类是在尽可能多地保留原数据信息的原则下进

13、行降维，若能使数据维数降至 2 或 1 ，则可在平面上作图。第一类方法有： u 轮廓图u 雷达图u 调和曲线图u 星座图第二类方法有：u 主成分法u 因子分析法第四章：聚类分析聚类分析的目的是把分类对象按一定规则分成若干类，这些类不是事先给定的，而是根据数据的特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似，而在不同类中对象趋向于不相似。聚类分析根据对象不同可分为 Q 型聚类分析（对样本进行聚类）和 R 型聚类（对变量进行聚类）。一、距离和相似系数对样品或变量进行分类时，我们常用距离和相似系数来对样品或变量之间的相似性进行度量。距离常用来度量样品之间的相似性，而相似系数常

14、用来度量变量间的相似性。变量的类型有：n 间隔尺度：指变量用连续的量来表示n 有序尺度：变量度量时没有明确的数量表示，而是划分一些有次序关系的等级n 名义尺度：变量度量时既没有数量表示，也没有次序关系第五章：判别分析判别分析要解决的问题是在已知历史上用某些方法已把研究对象分成若干组的情况下，来判定新的观测样品应归属的组别。距离判别距离判别的基本思想是：首先根据已知分类的数据，分别计算各类的重心即分组（类）的均值，判别准则是对任给的一次观测，若它与第 i 类的重心距离最近，就认为它来自第 i 类。第六章：主成分分析基本思想主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标

15、的统计分析方法。其基本思想是：设法将原来众多具有一定相关性的指标（设为个），重新组合成一组新的相互无关的综合指标来代替原来指标。数学上的处理就是将原来个指标作线性组合，作为新的指标。第一个线性组合，即第一个综合指标记为，为了使该线性组合具有唯一性，要求在所有的线性组合中的方差最大，即越大，那么包含的信息越多。如果第一个主成分不足以代表原来个指标的信息，再考虑选取第二个主成分，并要求已有的信息不出现在中，即。第七章：因子分析因子分析是主成分分析的推广，它也是一种把多个变量化为少数几个综合变量的多元分析方法，其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。第八章：典型相关分析概念及基本思想典型相关分析是研究两组变量之间的相关关系的一种统计分析方法，它能够真正反映两组变量之间的相互线性依赖关系。设两组变量用及表示，采用类似主成分分析的做法，在每一组变量中都选择若干个有代表性的综合指标（变量的线性组合），通过研究两组的综合指标之间的关系来反映两组变量之间的相关关系。其基本思想为

展开阅读全文