农村发展研究方法农村发展研究评价方法PPT精选文档

上传人:ni****g 文档编号:568598061 上传时间:2024-07-25 格式:PPT 页数:192 大小:3.34MB
返回 下载 相关 举报
农村发展研究方法农村发展研究评价方法PPT精选文档_第1页
第1页 / 共192页
农村发展研究方法农村发展研究评价方法PPT精选文档_第2页
第2页 / 共192页
农村发展研究方法农村发展研究评价方法PPT精选文档_第3页
第3页 / 共192页
农村发展研究方法农村发展研究评价方法PPT精选文档_第4页
第4页 / 共192页
农村发展研究方法农村发展研究评价方法PPT精选文档_第5页
第5页 / 共192页
点击查看更多>>
资源描述

《农村发展研究方法农村发展研究评价方法PPT精选文档》由会员分享,可在线阅读,更多相关《农村发展研究方法农村发展研究评价方法PPT精选文档(192页珍藏版)》请在金锄头文库上搜索。

1、第十二章第十二章农村发展研究评价方法农村发展研究评价方法1主要内容主要内容第一节农村发展研究评价的一般过程和分类第二节农村发展研究常用的评价方法2第一节第一节农村发展研究评价的一般过程和分类农村发展研究评价的一般过程和分类一、评价概述二、农村发展研究评价的一般过程三、评价方法分类3一、评价概述一、评价概述评价评价就是参照一定标准对客体的价值或优就是参照一定标准对客体的价值或优劣进行评判比较的一种认知过程,同时也劣进行评判比较的一种认知过程,同时也是一种决策过程。是一种决策过程。评价分评价分综合评价综合评价和和单项评价单项评价单项评价:评价标准单一、明确单项评价:评价标准单一、明确(单指标评价)

2、(单指标评价)综合评价:评价标准复杂、抽象综合评价:评价标准复杂、抽象(多指标评价)(多指标评价)4二、农村发展研究评价的一般过程二、农村发展研究评价的一般过程评价的目的是通过对评价对象属性的定量化测定,实现对评价对象整体水平或功能的量化描述,从而揭示事物的价值或发展规律。5二、农村发展研究评价的一般过程二、农村发展研究评价的一般过程完整的评价可以分为如下几个阶段:(1)确定评价目的,选取评价对象)确定评价目的,选取评价对象(2)建立评价指标体系)建立评价指标体系具体包括评价目标的细分与结构化,指标体系的初步确定,指标体系的整体检验与初步检验,指标体系结构的优化,定性变量的数量化等环节。(3)

3、选择评价方法与模型)选择评价方法与模型具体包括评价方法选择,权数构造,评价指标体系的标准值与评价规则的确定。6二、农村发展研究评价的一般过程二、农村发展研究评价的一般过程完整的评价可以分为如下几个阶段:(4)综合评价实施)综合评价实施包括指标体系数据搜集、数据评估、必要的数据推算模型参数求解等。(5)对评价结果进行评估与检验)对评价结果进行评估与检验,以判别所,以判别所选评价模型、有关标准、有关权值、甚至指标选评价模型、有关标准、有关权值、甚至指标体系合理与否。体系合理与否。若不符合要求,则需要进行一些修改,甚至返回到前述的某一环节。(6)评价结果分析与报告)评价结果分析与报告具体包括评价结果

4、的书面分析,撰写评价报告,提供与发布评价结果,资料的储备与后续开发利用。7三、评价方法分类三、评价方法分类l评价方法可以分为定性评价方法和定量评价方法两类。l按其评价思想不同,可以分为加权评价方法和非加权评价方法两类。l按各评价方法的理论基础不同,可以分为六大类定量评价方法。8三、评价方法分类三、评价方法分类定性评价方法定性评价方法:专家会议法、德尔菲法常规定量评价方法常规定量评价方法:功效系数法、综合指数法多元统计评价方法多元统计评价方法:主成分分析法、因子分析法、聚类分析法、判别分析法、理想点法运筹学评价方法运筹学评价方法:层次分析法、DEA法(数据包络分析)模糊评价方法模糊评价方法:模糊

5、综合评价、模糊聚类、模糊识别、模糊物元、模糊积分9第二节第二节农村发展研究常用的评价方法农村发展研究常用的评价方法一、综合指数法二、功效系数法三、主成分分析四、因子分析五、聚类分析六、判别分析七、层次分析法10一、综合指数法一、综合指数法综合指数法是指在确定一套合理的经济效益指标体系的基础上,对各项经济效益指标个体指数加权平均,计算出经济效益综合值,用以综合评价经济效益的一种方法。即将一组相同或不同指数值通过统计学处理,即将一组相同或不同指数值通过统计学处理,使不同计量单位、性质的指标值标准化,最后使不同计量单位、性质的指标值标准化,最后转化成一个综合指数,以准确地评价工作的综转化成一个综合指

6、数,以准确地评价工作的综合水平。合水平。11一、综合指数法一、综合指数法各项指标的权数是根据其重要程度决定的,体现了各项指标在经济效益综合值中作用的大小。综合指数法的基本思路则是利用层次分析法计算的权重和模糊评判法取得的数值进行累乘,然后相加,最后计算出经济效益指标的综合评价指数。12综合指数法的基本步骤综合指数法的基本步骤(1 1)选择适当的指标选择适当的指标(2 2)确定权重确定权重(3 3)根据实测数据及其规定标准,综合考察各评根据实测数据及其规定标准,综合考察各评价指标,探求综合指数的计算模式。价指标,探求综合指数的计算模式。(4 4)合理划分评价等级合理划分评价等级(5 5)检验评价

7、模式的可靠性检验评价模式的可靠性13应用实例应用实例引用甲、乙两地区2000年农业经济效益资料,说明综合指数法在分析评价农业经济效益方面的具体应用。甲乙两地区2000年农业经济效益相关资料见表1:以农业物耗与产值比表示资金产出率;以亩均产量和亩均收入表示土地生产率;以劳均产值、劳均收入等表示劳动生产率。14在构建指标体系的基础上,通过在构建指标体系的基础上,通过德尔菲德尔菲咨询,进咨询,进行行层次分析层次分析来确定各指标的权数,以初值化消除来确定各指标的权数,以初值化消除量纲,计算农业经济效益综合指数。量纲,计算农业经济效益综合指数。其计算公式为其计算公式为: :15由计算结果可知,由计算结果

8、可知,20002000年两地区经济效益综合指年两地区经济效益综合指数分别为数分别为110.28%110.28%和和115.52%115.52%,均大于,均大于100%100%,说明,说明两地区农业经济效益较好,且乙地区农业经济效两地区农业经济效益较好,且乙地区农业经济效益优于甲地区农业经济效益。益优于甲地区农业经济效益。16二、功效系数法二、功效系数法功效系数法是根据多目标规划原理而建立的一种评价方法。其含义是:在评价某一整体的综合效益时,一般其含义是:在评价某一整体的综合效益时,一般有多种指标,而这些指标的性质和度量单位往往有多种指标,而这些指标的性质和度量单位往往不同,不能直接相加或综合,

9、需要通过一定形式不同,不能直接相加或综合,需要通过一定形式的函数关系将其转化为同度量指标,再将这些同的函数关系将其转化为同度量指标,再将这些同度量指标加权综合,使之形成一个综合指标,称度量指标加权综合,使之形成一个综合指标,称之为总功效系数,以此评价整体的综合效益。之为总功效系数,以此评价整体的综合效益。17在以往功效系数法的应用中在以往功效系数法的应用中, ,最后功效系数值使用最后功效系数值使用加权算术平均的方法确定加权算术平均的方法确定, ,为了更准确地评价整体为了更准确地评价整体效益状况效益状况, ,统计学家设计出统计学家设计出改进功效系数改进功效系数, ,对每一对每一评价指标分别确定一

10、个满意值与不允许值评价指标分别确定一个满意值与不允许值, ,以满意以满意值为标准上限值为标准上限, ,不允许值为标准下限不允许值为标准下限, ,按按线性正相线性正相关的方法将不同的评价指标无量纲化转为相应的关的方法将不同的评价指标无量纲化转为相应的评价分数评价分数, ,经加权几何平均得出综合评价分数经加权几何平均得出综合评价分数, ,对对评价对象的综合状况作出评估评价对象的综合状况作出评估。综合功效系数越大综合功效系数越大, ,表明评价对象综合状况越佳。表明评价对象综合状况越佳。18其数学模型为:19应用实例:应用实例:基于功效系数法的城市土地利用效益评价以武汉市为例城市土地利用可从城市土地利

11、用可从经济效益经济效益、社会效益社会效益、生态生态效益效益三个方面对其进行评价,但其涉及的指标三个方面对其进行评价,但其涉及的指标繁杂,且性质与度量单位也存在较大差异,因繁杂,且性质与度量单位也存在较大差异,因此可以使用功效系数法对其进行评价。此可以使用功效系数法对其进行评价。20212223三、主成分分析三、主成分分析主成分分析(PrincipalComponentAnalysis,PCA)在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们希望变量个

12、数较少而得到的信息较多。当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的这些新变量在反映课题的信息方面尽可能保持原有的信息信息。24主成分分析方法的原理主成分分析方法的原理设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量

13、分析,也是数学上降维处理的一种方法。25主成分分析的具体步骤主成分分析的具体步骤1、确定指标体系在各项具体指标的设置和选择过程中,要注意指标的全面性、代在各项具体指标的设置和选择过程中,要注意指标的全面性、代表性、可得性、简洁性和整合性。表性、可得性、简洁性和整合性。2、建立原始信息矩阵Xnp3、对矩阵X中的数据实行标准化处理,统一指标之间的量纲,使其具有可比性4、求标准化矩阵Z的相关矩阵R,利用标准化后的数据计算P个指标间的相关系数5、求相关矩阵R的特征值和特征向量6、确定主成分的个数k累计贡献率大于等于累计贡献率大于等于85%的的k值值7、给出主成分Yi,i=1,2,p的表达式。8、计算综

14、合评价指标综合评价指标其实就是前综合评价指标其实就是前K个主成分的线性加权值个主成分的线性加权值9、计算评价分值并排序26应用实例:应用实例:主成分分析及其应用探讨以山西省农村居民消费结构为例年份消费性支出构成食品X1衣着X2家庭设备用品及服务X3医疗保险X4交通和通讯X5娱乐教育文化服务X6居住X7杂物商品及服务X81980100.00 59.89 15.49 3.71 0.44 0.40 1.61 18.12 0.34 1985100.00 54.32 14.62 8.00 2.68 0.51 5.29 13.81 0.77 1990100.00 52.87 12.45 6.85 4.06

15、 0.65 6.73 15.52 0.87 1995100.00 63.15 11.10 4.63 3.35 1.51 6.77 8.37 1.12 1996100.00 58.39 11.15 5.01 3.82 1.88 7.99 9.25 2.51 1997100.00 57.03 10.55 5.13 4.05 3.62 8.18 9.50 1.94 1998100.00 56.06 10.82 5.14 4.49 3.02 9.53 9.12 1.82 1999100.00 51.55 10.34 4.96 5.57 4.42 11.52 9.78 1.86 2000100.00 4

16、8.64 9.87 4.25 5.25 4.25 11.78 12.52 3.44 2001100.00 47.55 9.67 4.18 4.84 4.64 11.66 14.04 3.42 2002100.00 43.86 10.18 4.77 4.76 7.62 13.04 12.64 3.13 山西省农村居民家庭平均每人全年消费性支出构成(19802002)27SPSS操作操作1、Analyze-DataReduction-Factor282、选择后弹出现下面的对话框3、把数据都选进Variables去293、把数据都选进Variables去4、点击305、弹出现下面的对话框6、在对话框

17、的空白处填0,记得上面的图中要选中前面的点317、点击continue钮8、返回上个对话框9、如需要得到相关系数矩阵,点击在在Coefficients前的方框打上钩前的方框打上钩3210、然后点击continue钮11、返回上个对话框,点击“OK”33分析结果分析结果表格表格相关系数矩阵可以看出变量之间的相关性,证明变量之间存在信息重叠。34分析结果分析结果表格表格方差分解主成分提取分析表特征值特征值主成分贡献率主成分贡献率累积贡献率累积贡献率35初始因子载荷矩阵初始因子载荷矩阵每一个载荷量表示主成分与对应变量的相关系数。每一个载荷量表示主成分与对应变量的相关系数。36将前三个因子载荷矩阵输入

18、(可用复制粘贴的方法)到数据编辑窗口(为变量B1 、B2 、B3 ) , 然后利用“ Transform compute ” , 在对话框中输入“A1=B1/SQR(5.137)”即可得到特征向量A1。注:第二主成分SQR 后的括号中填1.365,第三主成分SQR 后的括号中填1.092,同理,可得到A2、A3。然后就可以得出主成分表达式。37Transform-compute得出主成分表达式38主成分表达式主成分得分表主成分得分表第一主成分第一主成分代表的意义代表的意义为消费结构针对发展、为消费结构针对发展、享受需求和生存需求的享受需求和生存需求的差异,差异,得分越高,表明得分越高,表明人们

19、对于发展和享受的人们对于发展和享受的需求越大需求越大。39计算评价分值并排序计算评价分值并排序以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型。根据主成分综合模型可以计算综合主成分值,并对其按综合主成分值进行排序。40四、因子分析四、因子分析因子分析就是将大量的彼此可能存在相关关系的变量转换成较少的,彼此不相关的综合指标的一种多元统计方法。这样既可减轻收集信息的工作量,且各综合指这样既可减轻收集信息的工作量,且各综合指标代表的信息比重叠,便于分析。标代表的信息比重叠,便于分析。41因子分析的步骤因子分析的步骤第一步:主因子分析是通过原始变量的相关系数矩阵内

20、部结构的研究,导是通过原始变量的相关系数矩阵内部结构的研究,导出能控制所有变量的少数几个综合变量,通过这少数出能控制所有变量的少数几个综合变量,通过这少数几个综合变量去描述原始的多个变量之间的相关关系。几个综合变量去描述原始的多个变量之间的相关关系。第二步:对因子的解释和命名从因子分析导出的负荷矩阵的结构出发,把变量按与从因子分析导出的负荷矩阵的结构出发,把变量按与公共因子相关性大小的程度分组,使同组内变量间的公共因子相关性大小的程度分组,使同组内变量间的相关性较高,不同组的变量的相关性较低,按公因子相关性较高,不同组的变量的相关性较低,按公因子包含变量的特点(即公因子内涵)对因子作解释命名。

21、包含变量的特点(即公因子内涵)对因子作解释命名。42应用实例应用实例农民工培训驱动机理研究以重庆市璧山县为例在对在对2个街道办事处个街道办事处3个镇个镇150余农户(主要是余农户(主要是外出务工)及外出务工)及150余名外出农民工抽样调查的余名外出农民工抽样调查的基础上,分析了该县农民工培训的特点,并运基础上,分析了该县农民工培训的特点,并运用因子分析法对影响农民工培训的因素(如就用因子分析法对影响农民工培训的因素(如就业概率、市场风险率、政府支持度等)做了定业概率、市场风险率、政府支持度等)做了定量的分析,得出相关结论。量的分析,得出相关结论。43通过对璧山县2个街道办事处3个镇的外出农民工

22、进行抽样调查、走访以及与当地一些政府部门的座谈,从影响农民工培训的因素中选取了8个具体变量进行分析,并根据当地农民工培训的具体情况对公式进行了相关转换,即:44各因子数据具体计算方法为:农民工愿意培训度农民工愿意培训度=(愿意培训农民工数愿意培训农民工数/农民工总人数农民工总人数)100%;企业愿意培训度企业愿意培训度=(企业愿意培训数企业愿意培训数/企业总数企业总数)100%;就业概率就业概率=(培训后找到工作人数培训后找到工作人数/培训总人数培训总人数)100%;接受知识限度为培训后进行相关考试接受知识限度为培训后进行相关考试,总分为一百分总分为一百分;政府支持度政府支持度=(政府实际投入

23、培训资金政府实际投入培训资金/政府预计投入资金政府预计投入资金)100%;市场风险率市场风险率=(1-培训后各企事业实际招收人数培训后各企事业实际招收人数/培训前市场预计所培训前市场预计所需相关专业人数需相关专业人数)100%.应用以上相关方法得出各因子所需数据,而后运用SPSS中的因子分析模型进行运算,结果如下:45Spss操作操作1、Analyze-DataReduction-Factor46点击Descriptives,弹出Factor Analysis:Descriptives对话框选Univariate descriptives项要求输出各变量的均数与标准差,选Coefficient

24、s项要求计算相关系数矩阵,并选KMO and Bartletts test of sphericity项,要求对相关系数矩阵进行统计学检验。点击Continue钮返回。47点击Extraction,弹出Factor Analysis:Extraction对话框,系统提供如下因子提取方法:Principalcomponents:主成分分析法;:主成分分析法;Unweightedleastsquares:未加权最小平方法;:未加权最小平方法;Generalizedleastsquares:综合最小平方法;:综合最小平方法;Maximumlikelihood:极大似然估计法;:极大似然估计法;Pri

25、ncipalaxisfactoring:主轴因子法;:主轴因子法;Alphafactoring:因子法;因子法;Imagefactoring:多元回归法。:多元回归法。48点击Rotation,弹出Factor Analysis:Rotation对话框,系统有5种因子旋转方法可选:None:不作因子旋转;:不作因子旋转;Varimax:正交旋转;:正交旋转;Equamax:全体旋转,对变量和因子均作旋转;:全体旋转,对变量和因子均作旋转;Quartimax:四分旋转,对变量作旋转;:四分旋转,对变量作旋转;DirectOblimin:斜交旋转。:斜交旋转。旋转的目的是为了获得简单结构,以帮助我

26、们解释因子。旋转的目的是为了获得简单结构,以帮助我们解释因子。之后点击之后点击Continue钮返回。钮返回。49点击Scores,弹出弹出Factor Analysis:Scores对话框,系统提供3种估计因子得分系数的方法:之后点击Continue钮返回再点击OK钮即完成分析。 50CorrelationMatrix51初始因子载荷阵初始因子载荷阵初始因子载荷提取因子载荷旋转提取因子载荷52ComponentMatrix53主成分分析和因子分析的区别主成分分析和因子分析的区别因子分析是主成分分析的推广和发展。在算法上,主成分分析和因子分析很类似。(1)因子分析中是把变量表示成各因子的线性组

27、合,而主成分分析中则是把主成分表示成各变量的线性组合。(2)和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。 54五、聚类分析五、聚类分析聚类分析又称群分析、点群分析,指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的多元统计评价过程。是定量研究分类问题的一种多元统计方法。聚类分析的概念55聚类分析的概念聚类分析的概念人类认

28、识世界往往首先将被认识的对象进行分类,因此分类学便成为人类认识世界的基础科学。在社会生活的众多领域中都存在着大量的分类问题。以前人们主要靠经验和专业知识做定性分类处理,致使许多分类带有主观性和任意性,不能很好地揭示客观事物内在的本质差别与联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。56为了克服定性分类存在的不足,于是把数学方法引进分类学中,形成了数值分类学,后来随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来,形成一个相对独立的分支。在多元统计分析中,聚类分析在许多领域中都得到了广泛的应用,取得了许多令人满意的成果。57聚类分析的基本思想聚类分析的基本思想认认

29、为为所所研研究究的的样样品品或或指指标标之之间间存存在在着着程程度度不不同同的的相相似似性性,于于是是根根据据一一批批样样品品的的多多个个观观测测指指标标,找找出出能能够够度度量量样样品品或或变变量量之之间间相相似似程程度度的的统统计计量量,并并以以此此为为依依据据,采采用用某某种种聚聚类类法法,将将所所有有的的样样品品或或变变量量分分别别聚聚合合到到不不同同的的类类中中,使使同同一一类类中中的的个个体体有有较较大大的的相相似似性性,不不同同类类中的个体差异较大中的个体差异较大。58聚类分析的内容聚类分析包括很多种方法,系统聚类法是最基本、最常用的一种,此外还有有序样品聚类法、动态聚类法、模糊

30、聚类法、图论聚类法、有重叠聚类等,不同的方法适合解决不同类型的问题。59聚类分析的对象类型聚类分析的对象类型Q型型聚聚类类采用距离统计量,是是对对样样品品进进行行分分类类处处理理。根据观测有关变量的特征,将特征相似的样品归为一类。它是聚类分析中用的最多的一种,具有以下优点:优点:1、可综合利用多个变量的信息对样品进行分类;、可综合利用多个变量的信息对样品进行分类;2、分类结果直观,聚类谱系图非常清楚地表现分类结果;、分类结果直观,聚类谱系图非常清楚地表现分类结果;3、所得结果比传统分类方法更细致、全面、合理。、所得结果比传统分类方法更细致、全面、合理。60R型型聚聚类类采采用用相相似似系系数数

31、统统计计量量,是对变量进行分类处理。一般来说,可以反映研究对象特点的变量有许多,由于对客观事物的认识有限,往往难以找出彼此独立且有代表性的变量,影响对问题进一步的认识和研究,因此往往需要先进行变量聚类,找出相互独立又有代表性的变量,而又不丢失大部分信息。61R型聚类分析的主要作用型聚类分析的主要作用:1、可可了了解解个个别别变变量量之之间间及及变变量量组组合合之之间间的的亲疏程度;亲疏程度;2、根据变量的分类结果以及它们之间的关、根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或系,可以选择主要变量进行回归分析或Q型型聚类分析。聚类分析。62事物之间的相似性测度聚类分析用于系

32、统类群相似性的研究,其实质上是寻找一种能客观反映样品或变量之间亲疏关系的统计量,然后根据这种统计量把样品或变量分成若干类。常用的统计量有距离和相似系数。63用相似系数度量用相似系数度量是两个事物离得多近的度量。性质越接近的元素其相似系数的绝对值越接近于1;彼此无关的元素其相似系数的绝对值越接近于0。相似的元素归为一类,不相似的元素归为不同的类。64用距离来度量是两个事物离得多远的度量。将一个样品看作空间的一个点,在空间定义距离,距离近的点归为一类,距离远的点归为不同的类。65变量类型的划分变量类型的划分1、间隔尺度间隔尺度:是用连续的实值变量来表示的,是由测量或计数、统计所得到的量。如:经济统

33、计数字、抽样调查数据、身高、体如:经济统计数字、抽样调查数据、身高、体重、年龄、速度、压力等。重、年龄、速度、压力等。662、有序尺度有序尺度:没有明确的数量表示,而是划分一些等级,等级之间有次序关系。如:毕业论文成绩有:优、良、中、及格、如:毕业论文成绩有:优、良、中、及格、不及格之分;不及格之分;体质状况有好、中、差三个等级;体质状况有好、中、差三个等级;某产品质量可分为一等品、二等品、三等品某产品质量可分为一等品、二等品、三等品等。等。变量类型的划分变量类型的划分673、名义尺度名义尺度:既没有数量表示,也没有次序关系,而是表现为某种状态,其值通常是非数值数据。如:性别有男、女;颜色有红

34、、黄、蓝、绿如:性别有男、女;颜色有红、黄、蓝、绿等;医疗诊断中的阴性、阳性等。等;医疗诊断中的阴性、阳性等。变量类型的划分变量类型的划分68不同类型的变量,其距离和相似系数的定义方法有很大差异。用得较多的是间隔尺度,因此只介绍间隔尺度的距离和相似系数的定义。69n个样品p项指标形成的原始数据资料矩阵中,每一行表示一个样品,每一列表示一个变量。因此,两个样品的相似性可用矩阵中两行的相似程度来刻划;两个变量的相似性可用矩阵中两列的相似程度来刻划。701、距离定义、距离定义:将n个样品看成p维空间中的n个点,两个样品间相似程度可用p维空间中两点的距离来度量。(1)绝对距离)绝对距离(2)欧氏距离)

35、欧氏距离(3)马氏距离)马氏距离(4)切比雪夫距离)切比雪夫距离计算出任何两个样品之间的距离排成距离阵D,根据D可对n个点进行分类,距离近的点归为一类,距离远的点归为不同的类。712、相似系数:、相似系数:将n个样品看成p维空间中的n个向量。(1)夹角余弦夹角余弦(2)相关系数相关系数以上是样品分类常用的距离和相似系数定义,它是在p维空间中来研究n个样品间的相似;而对变量分类是在n维空间中来研究p列变量间的相似,其相似性也用距离和相似系数来度量。72系统聚类分析方法系统聚类分析也叫分层聚类分析,是目前国内外使用得最多的一种方法,有关它的研究极为丰富,聚类分析的方法也最多。73系统聚类的步骤(1

36、)计算计算n个样品两两之间的距离记为矩阵个样品两两之间的距离记为矩阵D;(2)首先构造首先构造n个类,每一类中只包含一个样品;个类,每一类中只包含一个样品;(3)合并距离最近的两类为新类;合并距离最近的两类为新类;(4)继续合并,直到所有的样本合并为一类为止;继续合并,直到所有的样本合并为一类为止;(5)画谱系图;画谱系图;(6)决定类的个数和类。系统聚类允许一类整个地包决定类的个数和类。系统聚类允许一类整个地包含在另一类内,但在这两类间不能有其他类与之重叠。含在另一类内,但在这两类间不能有其他类与之重叠。74系统聚类方法样品之间可以用不同的方法定义距离,类与类之间的距离也有多种定义。用不同的

37、方法定义类与类之间的距离,就产生了不同的系统聚类方法。75(1)最最短短距距离离法法:定义类与类之间距离为两类最近样品的距离,使空间浓缩,形成链状,分类效果不好;(2)最最长长距距离离法法:定义类与类之间距离为两类最远样品的距离,受奇异值的影响大;76(3)重重心心法法:以两类重心之间的距离作为两类间的距离。重心即该类样品的均值重心即该类样品的均值。每每合合并并一一次次类类,都都要要重重新新计计算算新新类类的的重重心心。不不具具单单调调性性,图图形形逆逆转转,限限制制了了其其应应用用,可可能能引引起起局局部部最最优优,但但在在处处理理异异常常值值方方面面较较稳稳健健。77(4)类平均法:)类平

38、均法:以两类元素两两之间距离平方的平均作为类间距离的平方。(5)离差平方和法:)离差平方和法:又称又称Ward法,法,其基本思想是认为同类样品的离差平方和应当较小,类与类的离差平方和应当较大。首先首先n个样品各自成一类,然后每次缩小一类,每个样品各自成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使离差平方和缩小一类离差平方和就要增大,选择使离差平方和增加最小的两类合并,直到所有样品归为一类。它增加最小的两类合并,直到所有样品归为一类。它分类效果较好,应用较广泛,对异常值较敏感分类效果较好,应用较广泛,对异常值较敏感。离差平方和是各项与平均项之差的平方的总和78以上几种聚类方法,只

39、有两点区别:(1)类与类之间距离定义不同;(2)计算新类与其他类的距离所用的公式不同,因而并类距离不同;各种方法并类步骤完全一样。各种方法并类步骤完全一样。79在一般情况下,用不同的方法聚类的结果是不会完全一致的,怎样比较各种方法的优劣呢?至至今今还还没没有有合合适适的的衡衡量量标标准准,因因为为不不存存在在一一种种总总是是最优的聚类方法。最优的聚类方法。类类的的结结构构(规规模模、形形状状、个个数数)、奇奇异异值值、相相似似测测度选择都会影响结果。度选择都会影响结果。在实际应用中,一般采用以下两种处理方法:(1)根根据据分分类类问问题题本本身身的的专专业业知知识识结结合合实实际际需需要要来选

40、择分类方法,并确定分类个数;来选择分类方法,并确定分类个数;(2)多多用用几几种种分分类类方方法法去去作作,把把结结果果中中的的共共性性提提出来,对有争议的样品用出来,对有争议的样品用判别分析判别分析去归类。去归类。80应注意的问题应注意的问题(1)在聚类分析中,应根据不同的目的选用不同的指标。一般来说,选择哪些变量应该具有一定的理论支持,但一般来说,选择哪些变量应该具有一定的理论支持,但在实践中往往缺乏这样强有力的理论基础,一般根据实在实践中往往缺乏这样强有力的理论基础,一般根据实际工作经验和所研究问题的特征人为的选择变量,这些际工作经验和所研究问题的特征人为的选择变量,这些变量应该和分析的

41、目标密切相关,反映分类对象的特征,变量应该和分析的目标密切相关,反映分类对象的特征,在不同研究对象上的值具有明显差异,变量之间不应该在不同研究对象上的值具有明显差异,变量之间不应该高度相关。高度相关。选变量时并不是加入的变量越多,得到的结选变量时并不是加入的变量越多,得到的结果越客观。果越客观。有时,加入一两个不合适的变量就会使分类有时,加入一两个不合适的变量就会使分类结果大相径庭。结果大相径庭。81变量之间高度相关相当于加权,此时,有两种处理方法:(1)首先进行变量聚类首先进行变量聚类,从每类中选一代,从每类中选一代表性变量,再进行样品聚类;表性变量,再进行样品聚类;(2)进行主成分分析或因

42、子分析进行主成分分析或因子分析,降维,降维,使之成为不相关的新变量,再进行样品聚类。使之成为不相关的新变量,再进行样品聚类。82(2)标准化问题)标准化问题指指标标选选用用的的度度量量单单位位将将直直接接影影响响聚聚类类分分析的结果。析的结果。为为了了避避免免对对变变量量单单位位选选择择的的依依赖赖,数数据据应当标准化。应当标准化。数据量纲不同时,必须进行标准化;但如果量纲相同,可数量级相差很大,这时也应该进行标准化。应注意的问题应注意的问题83 研究问题研究问题 对一个班同学的数学水平进行聚类对一个班同学的数学水平进行聚类。聚类的依据是第一次数学考试的成绩和入聚类的依据是第一次数学考试的成绩

43、和入学考试的成绩。学考试的成绩。SPSS中实现过程中实现过程84表表表表 学生的数学成绩学生的数学成绩学生的数学成绩学生的数学成绩姓 名第一次成绩入 学 成 绩hxh99.0098.00yaju88.0089.00yu79.0080.00shizg89.0078.00hah75.0078.00john60.0065.00watet79.0087.00jess75.0076.00wish60.0056.00Iiakii100.00100.00数据如下表所示:数据如下表所示:85 实现步骤实现步骤在在SPSS中如何选择标准化方法中如何选择标准化方法:AnalyzeClassifyHierachic

44、alClusterAnalysis然后从对话框中进行然后从对话框中进行如下选择如下选择86“HierarchicalClusterAnalysis”“HierarchicalClusterAnalysis”对话框(一)对话框(一)对话框(一)对话框(一) 87“HierarchicalClusterAnalysis“HierarchicalClusterAnalysis:Method”Method”对话框(一)对话框(一)对话框(一)对话框(一) 从从TransformValues框中点击向下箭头,框中点击向下箭头,将出现如下可选项,将出现如下可选项,从中选一即可:从中选一即可:1、数据标准化

45、、数据标准化88常用标准化方法(选项说明):常用标准化方法(选项说明):a)None:不进行标准化,这是系统默认值:不进行标准化,这是系统默认值为了便于后面的说明,作如下假设:为了便于后面的说明,作如下假设:均值均值表示为表示为标准差标准差表示为表示为所有样本所有样本表示为表示为极差极差表示为表示为89b)ZScores:标准化变换标准化变换作用作用作用作用:变换后的数据均值为:变换后的数据均值为0,标准差为,标准差为1,消去了,消去了量纲的影响;当抽样样本改变时,它仍能保持量纲的影响;当抽样样本改变时,它仍能保持相对稳定性。相对稳定性。90c)Range1to1:极差标准化变换极差标准化变换

46、作用作用作用作用:变换后的数据均值为:变换后的数据均值为0,极差为,极差为1,且,且|xij*|1,消去了量纲的影响;在以后的分,消去了量纲的影响;在以后的分析计算中可以减少误差的产生。析计算中可以减少误差的产生。91d)Maximummagnitudeof1作用作用作用作用:变换后的数据最大值为:变换后的数据最大值为1。92e)Range0to1(极差正规化变换极差正规化变换/规格化变换)规格化变换)作用作用作用作用:变换后的数据最小为:变换后的数据最小为0,最大为,最大为1,其余,其余在区间在区间0,1内,极差为内,极差为1,无量纲。,无量纲。93f)Meanof1作用作用作用作用:变换后

47、的数据均值为:变换后的数据均值为1。94g)Standarddeviationof1作用作用作用作用:变换后的数据标准差为:变换后的数据标准差为1。952)在在SPSS中如何选择测度中如何选择测度:AnalyzeClassifyHierachicalClusterAnalysisMethod然后从对话框中进行如下选择然后从对话框中进行如下选择2 2、构造关系矩阵、构造关系矩阵1)描述变量或样本的亲疏程度的数量指标有两种:描述变量或样本的亲疏程度的数量指标有两种:相关系数相关系数距离距离96从从Measure框中点击框中点击Interval项的向下箭头,项的向下箭头,将出现如左可选项,将出现如左

48、可选项,从中选一即可。从中选一即可。973)常用测度常用测度(选项说明):选项说明):a)Euclideandistance:欧氏距离欧氏距离(二阶(二阶Minkowski距离)距离)用途用途用途用途:聚类分析中用得最广泛的距离聚类分析中用得最广泛的距离但与各变量的量纲有关,未考虑指标间的相关性,但与各变量的量纲有关,未考虑指标间的相关性,也未考虑各变量方差的不同也未考虑各变量方差的不同98b)SquaredEuclideandistance:平方欧氏距离平方欧氏距离用途用途用途用途:聚类分析中用得最广泛的距离聚类分析中用得最广泛的距离99c)Cosine:夹角余弦夹角余弦(相似性测度相似性测

49、度)用途用途用途用途:计算两个向量在原点处的夹角余弦。当两夹:计算两个向量在原点处的夹角余弦。当两夹角为角为0o时,取值为时,取值为1,说明极相似;当夹角为,说明极相似;当夹角为90o时,取值为时,取值为0,说明两者不相关。,说明两者不相关。取值范围:取值范围:01100d)Pearsoncorrelation:皮尔逊相关系数皮尔逊相关系数用途用途用途用途:计算两个向量的皮尔逊相关系数:计算两个向量的皮尔逊相关系数101e)Chebychev:切比雪夫距离切比雪夫距离用途用途用途用途:计算两个向量的切比雪夫距离:计算两个向量的切比雪夫距离f)Block:绝对值距离(一阶绝对值距离(一阶Mink

50、owski度量度量)g)(又称又称Manhattan度量或网格度量)度量或网格度量)用途用途用途用途:计算两个向量的绝对值距离:计算两个向量的绝对值距离102g)Minkowski:明科夫斯基距离明科夫斯基距离用途用途用途用途:计算两个向量的明科夫斯基距离:计算两个向量的明科夫斯基距离h)Customized:自定义距离自定义距离用途用途用途用途:计算两个向量的自定义距离:计算两个向量的自定义距离103SPSS中如何选择系统聚类方法中如何选择系统聚类方法从从ClusterMethod框框中点击向下箭头,将中点击向下箭头,将出现如左可选项,从出现如左可选项,从中选一即可。中选一即可。104a)B

51、etween-groupslinkage组间平均距离连接法组间平均距离连接法特点特点特点特点:非最大距离,也非最小距离:非最大距离,也非最小距离方法简述:合并两类的结果使所有的两两项对之间方法简述:合并两类的结果使所有的两两项对之间的平均距离最小。(项对的两成员分属不同类)的平均距离最小。(项对的两成员分属不同类)b)Within-groupslinkage组内平均连接法组内平均连接法方法简述:两类合并为一类后,合并后的类中所有方法简述:两类合并为一类后,合并后的类中所有项之间的平均距离最小项之间的平均距离最小常用系统聚类方法介绍常用系统聚类方法介绍105c)Nearestneighbor最近

52、邻法(最短距离法)最近邻法(最短距离法)特点特点特点特点:样品有链接聚合的趋势,这是其缺点,不适:样品有链接聚合的趋势,这是其缺点,不适合一般数据的分类处理,除去特殊数据外,不提合一般数据的分类处理,除去特殊数据外,不提倡用这种方法。倡用这种方法。方法简述:首先合并最近或最相似的两项方法简述:首先合并最近或最相似的两项d)Furthestneighbor最远邻法(最长距离法)最远邻法(最长距离法)方法简述:用两类之间最远点的距离代表两类之间方法简述:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法的距离,也称之为完全连接法106e)Centroidclustering重心聚类法重心

53、聚类法特点特点特点特点:该距离随聚类地进行不断缩小。该法的谱系:该距离随聚类地进行不断缩小。该法的谱系树状图很难跟踪,且符号改变频繁,计算较烦。树状图很难跟踪,且符号改变频繁,计算较烦。方法简述:两类间的距离定义为两类重心之间的距方法简述:两类间的距离定义为两类重心之间的距离,对样品分类而言,每一类中心就是属于该类样离,对样品分类而言,每一类中心就是属于该类样品的均值品的均值f)Medianclustering中位数法中位数法特点特点特点特点:图形将出现递转,谱系树状图很难跟踪,因:图形将出现递转,谱系树状图很难跟踪,因而这个方法几乎不被人们采用。而这个方法几乎不被人们采用。方法简述:两类间的

54、距离既不采用两类间的最近距方法简述:两类间的距离既不采用两类间的最近距离,也不采用最远距离,而采用介于两者间的距离离,也不采用最远距离,而采用介于两者间的距离107g)Wardsmethod离差平方和法离差平方和法特点特点特点特点:实际应用中分类效果较好,应用较广;要求:实际应用中分类效果较好,应用较广;要求样品间的距离必须是欧氏距离。样品间的距离必须是欧氏距离。方法简述:基于方差分析思想,如果分类合理,则方法简述:基于方差分析思想,如果分类合理,则同类样品间离差平方和应当较小,类与类间离差平同类样品间离差平方和应当较小,类与类间离差平方和应当较大方和应当较大108生成树形图生成树形图生成冰柱

55、图生成冰柱图凝聚状态表,显凝聚状态表,显示聚类过程示聚类过程各项间的距离矩阵各项间的距离矩阵类成员栏类成员栏109“HierarchicalClusterAnalysis“HierarchicalClusterAnalysis:Plots”Plots”110“HierarchicalClusterAnalysis“HierarchicalClusterAnalysis:Statistics”Statistics”对话框(一)对话框(一)对话框(一)对话框(一)111 由于本例中选中的选项较多,这里按照各个结果由于本例中选中的选项较多,这里按照各个结果分别解释。分别解释。 (1 1)首先是层次聚

56、类分析的)首先是层次聚类分析的概要结果概要结果,该结果,该结果是是SPSSSPSS输出结果文件中的第一个表格,如下表所示。输出结果文件中的第一个表格,如下表所示。结果和讨论结果和讨论112(2 2)输出的结果文件中第二个表格如下表所示。)输出的结果文件中第二个表格如下表所示。欧氏距离欧氏距离113(3 3)输出的结果文件中第三个表格为)输出的结果文件中第三个表格为层次聚层次聚类分析的凝聚状态表类分析的凝聚状态表,包括:,包括:114(4 4)输出的结果文件中第四个表格如下表所示。)输出的结果文件中第四个表格如下表所示。115(5 5)输出的结果文件中第五个表格如下表所示。)输出的结果文件中第五

57、个表格如下表所示。反映样品聚类的情况图116(6 6)输出的结果文件中第六部分如图所示。)输出的结果文件中第六部分如图所示。树形图树形图117(7 7)由于对)由于对“Hierarchical Cluster Analysis: “Hierarchical Cluster Analysis: Save New Var”Save New Var”对话框进行了设置,将聚类成三类时对话框进行了设置,将聚类成三类时,各个样本的类归属情况保存为一个变量,因此在,各个样本的类归属情况保存为一个变量,因此在SPSSSPSS数据编辑窗口中就新增了一个变量的值,如图所数据编辑窗口中就新增了一个变量的值,如图所示

58、。示。118前面讲述了不同种聚类分析的方法,不前面讲述了不同种聚类分析的方法,不论是哪种方法,聚类分析都是直接比较各论是哪种方法,聚类分析都是直接比较各事物之间的性质,将性质相近的归为一类,事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。将性质差别较大的归入不同的类。119六、判六、判 别别 分分 析析判别分析判别分析,也是一种比较常用的分类分析,也是一种比较常用的分类分析方法。方法。120 定义定义:判别分析先根据已知类别的事:判别分析先根据已知类别的事物的性质(自变量),建立函数式(自变物的性质(自变量),建立函数式(自变量的线性组合,即判别函数),然后对未量的线性组合

59、,即判别函数),然后对未知类别的新事物进行判断以将之归入已知知类别的新事物进行判断以将之归入已知的类别中。的类别中。统计学上的定义和计算公式统计学上的定义和计算公式121 研究问题研究问题 调查了调查了1515个公司的组织文化、领导角色和个公司的组织文化、领导角色和员工发展员工发展3 3个方面内容作为预测变量,因变量个方面内容作为预测变量,因变量为公司对员工的吸引力为公司对员工的吸引力。为符合研究问题,将公司对员工的吸引力为符合研究问题,将公司对员工的吸引力根据被测的实根据被测的实际填答情形际填答情形,划分为高吸引力组(,划分为高吸引力组(group=1group=1)、中吸引力)、中吸引力组

60、(组(group=2group=2)和低吸引力组()和低吸引力组(group=3group=3)。)。122表表表表 不同类的不同公司特点不同类的不同公司特点不同类的不同公司特点不同类的不同公司特点公 司组 织 文 化领 导 角 色员 工 发 展GroupMicrosoft80.0075.0090.001IBM85.0090.0090.001Dell85.0085.0060.001Apple90.0075.0090.001联想99.0078.0080.001NPP88.0089.0090.002北京电子79.0095.0097.003清华紫光89.0081.0082.001北大方正75.009

61、5.0096.001TCLE60.0085.0088.003世纪成79.0050.0051.002Angel75.0088.0089.001Hussar160.0089.0090.003世纪飞扬100.0085.0084.003Vinda61.0089.0060.003数据如表所示。数据如表所示。123判别分析有如下的假定:判别分析有如下的假定: 预测变量服从正态分布。预测变量服从正态分布。 预测变量之间没有显著的相关。预测变量之间没有显著的相关。 预测变量的平均值和方差不相关。预测变量的平均值和方差不相关。 预测变量应是连续变量,因变量(类别或组预测变量应是连续变量,因变量(类别或组别)是间

62、断变量。别)是间断变量。 两个预测变量之间的相关性在不同类中是一两个预测变量之间的相关性在不同类中是一样的。样的。124在分析的各个阶段应把握如下的原则:在分析的各个阶段应把握如下的原则: 事前组别(类)的分类标准(作为判别分析的事前组别(类)的分类标准(作为判别分析的因变量)要尽可能准确和可靠,否则会影响判别因变量)要尽可能准确和可靠,否则会影响判别函数的准确性,从而影响判别分析的效果。函数的准确性,从而影响判别分析的效果。 所分析的自变量应是因变量的重要影响因素,所分析的自变量应是因变量的重要影响因素,应该挑选既有重要特性又有区别能力的变量,达应该挑选既有重要特性又有区别能力的变量,达到以

63、最少变量而有高辨别能力的目标。到以最少变量而有高辨别能力的目标。 初始分析的数目不能太少。初始分析的数目不能太少。125126这些判别函数是各个独立预测变量的线性这些判别函数是各个独立预测变量的线性组合。组合。程序自动选择第一个判别函数,以尽可能多地区别各个类,然后再选择和第一个判别函数独立的第二个判别函数,尽可能多地提供判别能力。程序将按照这种方式,提供剩下的判别函数。判别函数的个数为k。127判别分析的示意图判别分析的示意图判别分析的示意图判别分析的示意图128 研究问题研究问题 调查了调查了1515个公司的组织文化、领导角色和个公司的组织文化、领导角色和员工发展员工发展3 3个方面内容作

64、为预测变量,因变量个方面内容作为预测变量,因变量为公司对员工的吸引力。为公司对员工的吸引力。为符合研究问题,将公司对员工的吸引力根据被测的实为符合研究问题,将公司对员工的吸引力根据被测的实际填答情形,划分为高吸引力组(际填答情形,划分为高吸引力组(group=1group=1)、中吸引力)、中吸引力组(组(group=2group=2)和低吸引力组()和低吸引力组(group=3group=3)。)。SPSS中实现过程中实现过程129表表表表 不同类的不同公司特点不同类的不同公司特点不同类的不同公司特点不同类的不同公司特点公 司组 织 文 化领 导 角 色员 工 发 展GroupMicroso

65、ft80.0075.0090.001IBM85.0090.0090.001Dell85.0085.0060.001Apple90.0075.0090.001联想99.0078.0080.001NPP88.0089.0090.002北京电子79.0095.0097.003清华紫光89.0081.0082.001北大方正75.0095.0096.001TCLE60.0085.0088.003世纪成79.0050.0051.002Angel75.0088.0089.001Hussar160.0089.0090.003世纪飞扬100.0085.0084.003Vinda61.0089.0060.003

66、数据如表所示。数据如表所示。130 实现步骤实现步骤图图图图 在菜单中选择在菜单中选择在菜单中选择在菜单中选择“Discriminant”“Discriminant”命令命令命令命令131指定判别分析的自变量指定判别分析的自变量132在Minimum:后面的矩形框中输入该分类变量的最小值;在Maximurn:后面的矩形框中输入该分类变量的最大值。选择分类变量及其范围选择分类变量及其范围133选择判别分析方法选择判别分析方法在主对话框中,自变量列表框下侧显示两个单选框,用在主对话框中,自变量列表框下侧显示两个单选框,用于指定选择判别分析的方法。于指定选择判别分析的方法。134选择判别分析方法选择

67、判别分析方法 Enter independents together Enter independents together 默认选项。默认选项。 当认为所有自变量都能对观测特性提供丰富的信息时,使当认为所有自变量都能对观测特性提供丰富的信息时,使用该选项,选择该项将不加选择地使用所有自变量进行判别分用该选项,选择该项将不加选择地使用所有自变量进行判别分析,建立全模型,且不需要进一步选择。析,建立全模型,且不需要进一步选择。Use stepwise methodUse stepwise method 逐步分析方法。逐步分析方法。 当认为不是所有自变量都能对观测量特性提供丰的信息时,当认为不是所

68、有自变量都能对观测量特性提供丰的信息时,选择该项,因此需要判别贡献的大小再进行选择。选中该单选选择该项,因此需要判别贡献的大小再进行选择。选中该单选按钮时,按钮时,“Method”“Method”按钮被激活,可以进一步选择判别分析方按钮被激活,可以进一步选择判别分析方法。法。135“Method”按钮按钮选择判别分析方法在Method组的矩形框中进行。可供选择的判别分析方法有:Wilkslambda使Wilk的统计量最小化法。Unexplainedvariance。使各类不可解释的方差和最小化法。Mahalanobisdistance。使最近两类间的Mahalanobis距离最大化法。Smal

69、lestFratio。使任何两类间的最小的F值最大化法。RaosV。使RaoV统计量最大化。可以对一个要加入到模型中的变量的V值指定一个最小增量。选择此种方法后,应该在该项下面的V-to-enter后的矩形框中输这个增量的指定值。136选择逐步判别停止的判据在criteria组的矩形框中进行。可供选择的判据有:Use F valueUse F value:使用F值,是系统默认的判据,默认值是:Entry:3.84;removal:2.71。即当被加入的变量即当被加入的变量F F值值=3.84=3.84时才把该变量加入到模型中,否则时才把该变量加入到模型中,否则变量不能进入模型;或者,当要从模型

70、中移出的变量变量不能进入模型;或者,当要从模型中移出的变量F F值值=2.71=2.71时,该变量才被移出模型,否则模型中的变量不会被移出。时,该变量才被移出模型,否则模型中的变量不会被移出。应该使应该使EntryEntry值(加入变量的值(加入变量的F F值)值)removalremoval值(移出变量的值(移出变量的F F值)值)Use probability of FUse probability of F:使用F值的概率。加入变量的F值概率的默认值是0.05(5);移出变量的q值概率是0.10(10)。removalremoval值(移出变量的正值概率)值(移出变量的正值概率)Entr

71、yEntry值(加入变量的值(加入变量的F F值概值概率)。率)。137显示内容的选择显示内容的选择对于逐步选择变量的过程和最后结果的显示可以通过Method对话框最下面的“Display”矩形框中的两项进行选择: Summary of step要求在逐步选择变量过程中的每一步之后显示每个变量的统计量。 F for pairwise distances要求显示两两类之间的两两F值矩阵。138StatisticsStatistics选项选项在主对话框中单击在主对话框中单击“statistics”按钮,打开按钮,打开“DiscriminantAnlysis:statistics”(判别分析:统计量

72、)对话框,如图所(判别分析:统计量)对话框,如图所示。示。“DiscriminantAnlysis:statistics”对话框对话框139在在“descriptive”“descriptive”(描述性)选项组中选择对原(描述性)选项组中选择对原始数据的描述统计量的输出。始数据的描述统计量的输出。Means 均值。选择该项,可以输出各类中各自变量的均值、标准差以及各自变量总样本的均值和标准差。Univariate ANOVAs 单变量方差分析。选择该项,表示对每一类同一自变量均值都相等的假设进行检验,输出单变量的方差分析结果。Boxs M 选择该项,表示对各类的协方差矩阵相等的假设进行检验。

73、140“FunctionCoefficients”(判别分析的系数)选(判别分析的系数)选项组中给出选择判别函数系数的输出形式的选项,项组中给出选择判别函数系数的输出形式的选项,有两个复选项:有两个复选项:Fishers选择该项,表示可以用于对新样本进行判别分类的fisher系数,对每一类给出一组系数,并给出该组中判别分数最大的观测量。Unstandardized选择该项,表示未经标准化处理的判别系数。141在在“matrices”(矩阵)选项组中选择自变量的系(矩阵)选项组中选择自变量的系数矩阵,有数矩阵,有4个复选项:个复选项:Within-groupcorrelation类内相关矩阵。它

74、计算相关矩阵之前将各组协方差矩阵平均后,计算类内相关矩阵。Within-groupcovariance合并类内协方差矩阵,是将各组(类)协方差矩阵平均后计算的,区别与总协方差矩阵。Separate-groupscovariance协方差矩阵。Totalcovariance总样本的协方差矩阵。142Classification Classification 选项选项在主对话框中单击在主对话框中单击“classify”按钮,显示按钮,显示“DiscriminantAnalysis:Classification”(判别分析:分类)子对话框,如(判别分析:分类)子对话框,如图所示。图所示。“Discr

75、iminantAnalysis:Classification”对话框对话框143在“priorprobabilities”选项组中选择先验概率,有两个单选项供选择:Allgroupsequal表示各类先验概率相等。Computefromgroupssizes表示由各类的样本量计算决定,即各类的先验概率与其样本量成正比。144在在“usecovariancematrix”(利用协方差矩阵)(利用协方差矩阵)选项组中选择分类使用的协方差矩阵,有两个单选项组中选择分类使用的协方差矩阵,有两个单选项:选项:Within-groups选择该项,表示指定使用合并组内协方差矩阵进行分类。Separate-g

76、roups选择该项,表示指定使用各组协方差矩阵进行分类,由于分类是根据判别函数而不是根据原始变量,因此该选择项不是总等价于二次判别。145在在“plots”选项组中选择要求输入的统计图形,给出选项组中选择要求输入的统计图形,给出3个复个复选项:选项:Combined-groups选择该项,生成一张包括各类的散点图,该散点图是根据前两个判别函数值做的散点图;如果只有一个判别函数,就输出直方图。Separate-groups选择该项,根据前两个判别函数值对每一类生成一张散点图,共分为几类就生成几张散点图;如果只有一个判别函数就生成一张直方图。Territorialmap选择该项,生成用于根据函数值

77、把观测量分到各组中去的边界图,此种统计图把一张图的平面划分出与类数相同的区域,每一类占据一个区,各类的均值在各区中用*号标出;如果仅有一个判别函数则不作此图。146在在“display”选项组中选择生成到输出窗中的分类结果,选项组中选择生成到输出窗中的分类结果,其中包括其中包括3个复选框:个复选框:Casewiseresults要求输出每个管测量,包括判别分数实际类预测类(根据判别函数求得的分类结果)和后验概率等,选择此项还可以选择其附属选择项,选择“Limitcasesto”(个案限制)选项,并在后面的文本框中输入观测量数n,选择此项则仅对前n个观测量输出分类结果,观测数量大时可以选择此项。

78、Summarytable要求输出分类的综述表,给出正确分类观测数(原始类和根据判别函数计算的预测类相同)和错分观测量数即错分率。Leave-one-outclassification输出对每个观测量进行分类的结果,所依据的判别时由除该观测量以外的其他观测量导出的,也称为交互校验结果。147该对话框给出选择缺失值的处理方法,即该对话框给出选择缺失值的处理方法,即“Replacemissingvalueswithmean”,表示用该变量的均值代替缺失值。表示用该变量的均值代替缺失值。148SaveSave选项选项在主对话框单击在主对话框单击“save”按钮,打开按钮,打开“Discriminant

79、Analysis:Save”(判别分析:保存)对话框,如图所示。(判别分析:保存)对话框,如图所示。该对话框用于指定生成并保存在数据文件中的新变量,其该对话框用于指定生成并保存在数据文件中的新变量,其中包括如下选项:中包括如下选项:149Predicted groups membershipPredicted groups membership 选择该项,要求建立一选择该项,要求建立一个新变量预测观测量的分类,是根据判别分数把观测量按后个新变量预测观测量的分类,是根据判别分数把观测量按后验概率最大指派所属的类,每运行一次验概率最大指派所属的类,每运行一次“Discriminant”“Discr

80、iminant”过过程就建立一个,表民使用判别函数预测各观测量属于哪一类程就建立一个,表民使用判别函数预测各观测量属于哪一类的新变量。第一次运行建立新变量的变量名为的新变量。第一次运行建立新变量的变量名为dis_1dis_1,如果在,如果在工作数据文件中不把前一次建立的新变量删除,第工作数据文件中不把前一次建立的新变量删除,第n n次运行建次运行建立的新变量名为立的新变量名为dis_ndis_n。 Discriminant scoresDiscriminant scores 选择该项,要求建立表明判别分选择该项,要求建立表明判别分数的新变量,该分数是由未标准化的判别系数乘自变量的值,数的新变量

81、,该分数是由未标准化的判别系数乘自变量的值,将这些乘积求和后加上常数得来的。每次运行将这些乘积求和后加上常数得来的。每次运行“Discriminant”“Discriminant”过程就给出一组表明判别分数的新变量,过程就给出一组表明判别分数的新变量,建立几个判别函数就有几个判别分数变量参与分析的观测量,建立几个判别函数就有几个判别分数变量参与分析的观测量,共分为共分为m m类,则建立类,则建立m m个点则判别函数指定该选择项就可以生个点则判别函数指定该选择项就可以生成成m-1m-1个表明判别分数的新变量。个表明判别分数的新变量。 Probabilities of groups members

82、hipProbabilities of groups membership 选择该项,要求选择该项,要求建立新变量表明观测量属于某一类的概率。如果有建立新变量表明观测量属于某一类的概率。如果有m m类,对一类,对一个观测量就会给出个观测量就会给出m m个概率值,因此建立个概率值,因此建立m m个新变量。个新变量。150(1 1)SPSSSPSS输出结果文件中的第一部分如下表所示。输出结果文件中的第一部分如下表所示。结果和讨论结果和讨论分析个案综合统计量分析个案综合统计量151(2 2)输出的结果文件中第二部分如下表所示。)输出的结果文件中第二部分如下表所示。 分组统计量分组统计量。表中给出分组

83、变量和合计的均数(。表中给出分组变量和合计的均数(means)、)、标准差(标准差(standarddeviation)和有效个案的例数。)和有效个案的例数。其中值得关注的是均值一栏,它是后面计算的基础152(3 3)输出的结果文件中第三部分如下表所示。)输出的结果文件中第三部分如下表所示。各组均值相等检验 这张表是预测变量在各组间均值是否相等的假设检验。包含Wilkslambda,F统计量和它的自由度和显著性水平。Wilkslambda是组内平方和与总平方和的比,值的范围在0到1之间。值越小表示组间有很大的差异。值接近1表示没有组间差异。F统计量是组间均方与组内均方的比。有两个自由度,分子为

84、df1分母为df2。分子和分母自由度用来得到观测显著性水平。如果显著性水平值很小(比如说小于0.10)表示组间差异显著。如果显著性水平较大(比如说大于0.10)表示组间差异不显著。153(4 4)输出的结果文件中第四部分如下表所示。)输出的结果文件中第四部分如下表所示。联合组内协方差阵联合组内协方差阵显示一个协方差阵和一个相关矩阵。上半部分是联合组内协方差矩阵,由3组的组内协方差阵相加构成。下半部的联合组内相关矩阵是由联合组内协方差矩阵变换而来的。154(5 5)输出的结果文件中第五个部分为组间的协方差矩阵,如)输出的结果文件中第五个部分为组间的协方差矩阵,如下表所示。下表所示。组间的协方差矩

85、阵 判别分析的假设之一就是各组协方差阵相同。方差显示在主对角线上,协方差为各组交叉处。使用协方差阵和组内散布图可以帮助确定检验协方差相等的假设。155(6 6)输出的结果文件中第六个部分如下两个表格所示。)输出的结果文件中第六个部分如下两个表格所示。Boxs协协方方差差矩矩阵阵相相等等检检验验156(7 7)输出的结果文件中第七个部分如下表所示。)输出的结果文件中第七个部分如下表所示。典型判别函数的特征函数的特征值表。典型判别函数的特征函数的特征值表。其特征值(其特征值(EigenvaluesEigenvalues)为组间平方和与组内平方和之)为组间平方和与组内平方和之比,比,典型相关系数(典

86、型相关系数(Canonical CorrelationCanonical Correlation)。)。本表包含特征根,方差百分比,累计百分比和典型判别函数。157(8 8)输出的结果文件中第八个部分如下表所示。)输出的结果文件中第八个部分如下表所示。典型判别分析的典型判别分析的WilksWilks检验结果。检验结果。检验判别函数的显著性水平 第一栏testoffunctions表示每步中判别函数被移去后的函数值。1through2表示没有函数被移去。原假设为各组中所有判别函数的总体均值相等。如果显著,表示前两个判别函数的联合效果显著,通常会视为最大的判别函数显著。2表示前一个判别函数被移去后

87、的显著性检验。如果显著,表示第二个判别函数也显著。158(9 9)输出的结果文件中第九个部分如下表所示。)输出的结果文件中第九个部分如下表所示。典型判别函数的系数:根据判别函数方程的标准化系数,典型判别函数的系数:根据判别函数方程的标准化系数,确定各变量对结果的作用大小,确定各变量对结果的作用大小,标准化判别函数系数可以看出预测变量在组成判别函数时的相对贡献,如本例,第一判别函数的“领导角色”项比较重要,第二判别函数在“组织文化”项上比较重要。标准判别函数系数的计算是由非标准化判别函数系数乘以联合组内协方差矩阵主对角的平方根得来。159(1010)输出的结果文件中第十个部分如下表所示。)输出的

88、结果文件中第十个部分如下表所示。结构矩阵 结构系数即预测变量与典型判别函数的联合组内相关系数。160(1111)输出的结果文件中第十一个部分如下表所示。)输出的结果文件中第十一个部分如下表所示。各组在判别函数上的重心可以看出三组在第一判别函数上的重心明显不同(-0.202,-1.228,0.814),因此第一判别函数可以明显地区分三组,而第二判别函数对区分三组并不是十分明显。组二与组三相差不明显。161(1212)输出的结果文件中第十二个部分包括)输出的结果文件中第十二个部分包括3 3个分类个分类统计信息表格统计信息表格 分类函数处理汇总。已处理15个观测量,没有缺失值。162各组先验概率 分

89、类函数系数分类函数系数 用贝叶斯判别分析法产生的分类函数系数。163(1313)输出的结果文件中第十三个部分为每一个个案的实际)输出的结果文件中第十三个部分为每一个个案的实际分组摘要表。如下表所示。分组摘要表。如下表所示。如果此处和第三大栏的预测组别不同,会加上两个星号,表示重新分类错误的观测值。案例编号实际组别预测组别最高概率组别次最高概率组别判别得分164(1414)输出的结果文件中第十四个部分如所示。)输出的结果文件中第十四个部分如所示。根据判别得分做出的散点图165(1515)输出的结果文件中第十五个部分如下:)输出的结果文件中第十五个部分如下:分类结果交叉表,上半部分为原始分类的结果

90、,下半部分为交叉分类的结果。第一栏为实际组别,第一行为预测组别。166(1616)在实现过程中曾指定了将判别分析的结果作为)在实现过程中曾指定了将判别分析的结果作为样本的变量保存到样本的变量保存到SPSSSPSS的数据编辑窗口中。的数据编辑窗口中。SPSSSPSS运行运行后,数据编辑窗口如图所示。后,数据编辑窗口如图所示。167小小结结聚类分析的实质是建立一种分类方法,将一批样本数据按照他们在性质上的密切程度在没有先验知识的情况下自动进行分类。聚类方法主要分为层次聚类分析方法和快速聚类分析方法,其中层次聚类分析方法又有两种形式:一种是对样本进行分类,称为Q型聚类;一种是对研究变量进行分类,称为

91、R型聚类。168小小 结结判别分析是指先根据已知类别的事物的性判别分析是指先根据已知类别的事物的性质,建立函数式,然后对未知类别的新事物质,建立函数式,然后对未知类别的新事物进行判断以将之归入已知的类别中。进行判断以将之归入已知的类别中。判别分析的模型按照判别的不同准则可以判别分析的模型按照判别的不同准则可以分为分为典型判别分析典型判别分析、贝叶斯判别分析贝叶斯判别分析、非参非参数判别分析数判别分析等不同模型。等不同模型。169小小结结SPSS中中“Analyze”/“Classify”菜单专门用菜单专门用于聚类分析和判别分析。于聚类分析和判别分析。其中,“K-MeansCluster”适用于

92、快速聚类分析方法,“HierarchicalCluster”适用于层次聚类分析方法,“Discriminant”主要用于判别分析。170七、层次分析法七、层次分析法层次分析法(Analytic Hierarchy Process简称AHP)是美国运筹学家萨蒂教授于20世纪70年代提出来的。层次分析法是把复杂问题分解为若干层次,层次分析法是把复杂问题分解为若干层次,在最低层次通过两两对比得出各因素的权在最低层次通过两两对比得出各因素的权重,通过由低到高的层层分析计算,最后重,通过由低到高的层层分析计算,最后计算出各指标对总目标的权数的一种运筹计算出各指标对总目标的权数的一种运筹学评价方法。学评价

93、方法。171层次分析法是一种定性与定量相结合的决策分析方法。它是一种将决策者对复杂系统的决策思维过程模型化、数量化的过程。172层次分析法的步骤层次分析法的步骤1、建立递阶层次结构2、构造判断矩阵(正互反矩阵)3、层次单排序及一致性检验4、层次总排序及一致性检验173层次分析法实例层次分析法实例某单位拟从三名干部中提拔一人担任领导工作,干部的优劣(由上级人事部门提出)用六个属性来衡量:健康状况健康状况、业务知识业务知识、写作水平写作水平、口才口才、政策水平政策水平、工作作风工作作风,分别用p1 、 p2 、 p3 、 p4 、 p5 、 p6 来表示。下面用AHP方法对三人综合评估、量化排序。

94、1741、建立递阶层次结构、建立递阶层次结构根据对问题分析和了解,将问题所包含的因素,按照是否共有某些特征进行归纳成组,并把它们之间的共同特性看成是系统中新的层次中的一些因素,而这些因素本身也按照另外的特性组合起来,形成更高层次的因素,直到最终形成单一的最高层次因素。最高层是目标层中间层是准则层.最低层是方案层或措施层175提拔一位干部担任领导工作提拔一位干部担任领导工作健健康康状状况况业业务务水水平平写写作作水水平平口口才才政政策策水水平平工工作作作作风风甲甲乙乙丙丙w w1 1w w2 2w w3 3w w4 4w w5 5w w6 6目标层目标层目标层目标层方案层方案层方案层方案层准准准

95、准则则则则层层层层1762、构造判断矩阵、构造判断矩阵(正互反矩阵正互反矩阵)采用对因子进行两两比较建立成对比较矩阵的方法。判断矩阵一般取如下形式:Csp1p2pnp1b b1111b b1212b b1n1np2b b2121b b2222b b2n2npnb bn1n1b bn2n2b bnnnn177判断矩阵判断矩阵B具有如下特征:具有如下特征:obii=1obji=1/bijobij=bik /bjko(i,j,k=1,2,.n)178关于bij的值,层次分析法采用1-9标度方法,对不同情况的评比给出数量标度。标标标标 度度度度定义与说明定义与说明定义与说明定义与说明1 1 1 1两个

96、因素对某个属性具有同样重要性两个因素对某个属性具有同样重要性两个因素对某个属性具有同样重要性两个因素对某个属性具有同样重要性3 3 3 3两个因素比较,前者比后者稍微重要两个因素比较,前者比后者稍微重要两个因素比较,前者比后者稍微重要两个因素比较,前者比后者稍微重要5 5 5 5两个因素比较,前者比后者明显重要两个因素比较,前者比后者明显重要两个因素比较,前者比后者明显重要两个因素比较,前者比后者明显重要7 7 7 7两个因素比较,前者比后者强烈重要两个因素比较,前者比后者强烈重要两个因素比较,前者比后者强烈重要两个因素比较,前者比后者强烈重要9 9 9 9两个因素比较,前者比后者极端重要两个

97、因素比较,前者比后者极端重要两个因素比较,前者比后者极端重要两个因素比较,前者比后者极端重要2,4,6,82,4,6,82,4,6,82,4,6,8 表示上述相邻判断的中间值表示上述相邻判断的中间值表示上述相邻判断的中间值表示上述相邻判断的中间值1/b1/b1/b1/bijijijij两个因素的反比较两个因素的反比较两个因素的反比较两个因素的反比较179Bp1p2p3p4p5p6p11 11 11 14 41 11/21/2p21 11 12 24 41 11/21/2p31 11/21/21 15 53 31/21/2p41/41/41/41/41/51/51 11/31/31/31/3p5

98、1 11 11/31/33 31 11 1p62 22 22 23 31 11 1判判断断矩矩阵阵实例中实例中六个属性六个属性的判断矩阵如下:的判断矩阵如下:180组织部门给三个人,甲、乙、丙对每个目标的层性打分。组织部门给三个人,甲、乙、丙对每个目标的层性打分。组织部门给三个人,甲、乙、丙对每个目标的层性打分。组织部门给三个人,甲、乙、丙对每个目标的层性打分。B B1 1甲甲甲甲乙乙乙乙丙丙丙丙甲甲甲甲1 11/41/41/21/2乙乙乙乙4 41 13 3丙丙丙丙2 21/31/31 1健健健健康康康康状状状状况况况况B B2 2甲甲甲甲乙乙乙乙丙丙丙丙甲甲甲甲1 11/41/41/51/

99、5乙乙乙乙4 41 11/21/2丙丙丙丙5 52 21 1业业业业务务务务水水水水平平平平p p2 2B B3 3甲甲甲甲乙乙乙乙丙丙丙丙甲甲甲甲1 13 31/51/5乙乙乙乙1/31/31 11 1丙丙丙丙5 5111 1写写写写作作作作水水水水平平平平p p3 3p p1 1B B4 4甲甲甲甲乙乙乙乙丙丙丙丙甲甲甲甲1 11/31/35 5乙乙乙乙3 31 17 7丙丙丙丙1/51/51/71/71 1口口口口才才才才p p4 4B B5 5甲甲甲甲乙乙乙乙丙丙丙丙甲甲甲甲1 1117 7乙乙乙乙1 11 17 7丙丙丙丙1/71/71/71/71 1政政政政策策策策水水水水平平平平

100、p p5 5B B6 6甲甲甲甲乙乙乙乙丙丙丙丙甲甲甲甲1 17 79 9乙乙乙乙1/71/71 15 5丙丙丙丙1/91/91/51/51 1工工工工作作作作作作作作风风风风p p6 6181求出目标层的权数估计求出目标层的权数估计用用和积法和积法计算其最大特征向量计算其最大特征向量和积法具体计算步骤:和积法具体计算步骤:将判断矩阵的将判断矩阵的每一列元素作归一化处理每一列元素作归一化处理,其元素的一般项为:其元素的一般项为:bij=bij 1nbij(i,j=1,2,.n)182B Bp1p2p3p4p5p6p11 11 11 14 41 11/21/2p21 11 12 24 41 11

101、/21/2p31 11/21/21 15 53 31/21/2p41/41/41/41/41/51/51 11/31/31/31/3p51 11 11/31/33 31 11 1p62 22 22 23 31 11 1 6.255.756.53207.333.836.255.756.53207.333.83B1B1p1p2p3p4p5p6p10.160.160.170.170.150.150.200.200.140.140.130.13p20.160.160.170.170.300.300.200.200.140.140.130.13p30.160.160.090.090.150.150.25

102、0.250.420.420.130.13p40.040.040.040.040.030.030.050.050.050.050.090.09p50.160.160.170.170.050.050.150.150.140.140.260.26p60.320.320.340.340.300.300.150.150.140.140.260.26183将每一列经归一化处理后的判断矩阵按行相将每一列经归一化处理后的判断矩阵按行相加为:加为:Wi= 1nbij(i=1,2,.n)B1B1p1p2p3p4p5p6p10.160.160.170.170.150.150.200.200.140.140.130.

103、13p20.160.160.170.170.300.300.200.200.140.140.130.13p30.160.160.090.090.150.150.250.250.420.420.130.13p40.040.040.040.040.030.030.050.050.050.050.090.09p50.160.160.170.170.050.050.150.150.140.140.260.26p60.320.320.340.340.300.300.150.150.140.140.260.260.950.951.101.101.201.200.300.300.930.931.511.51

104、 5.995.99184o对向量对向量对向量对向量W=W=( WW1 1, WW2 2 WWn n) )t t归一化处理归一化处理归一化处理归一化处理: :WWi i= =(i=1,2,.n)(i=1,2,.n)WWi i 1 1n nWWj jW=W=(WW1 1, WW2 2 WWn n) )t t即为所求的特征向量的近似解。即为所求的特征向量的近似解。即为所求的特征向量的近似解。即为所求的特征向量的近似解。B1B1p1p2p3p4p5p6p10.160.160.170.170.150.150.200.200.140.140.130.13p20.160.160.170.170.300.30

105、0.200.200.140.140.130.13p30.160.160.090.090.150.150.250.250.420.420.130.13p40.040.040.040.040.030.030.050.050.050.050.090.09p50.160.160.170.170.050.050.150.150.140.140.260.26p60.320.320.340.340.300.300.150.150.140.140.260.260.160.160.180.180.200.200.050.050.160.160.250.25WW185计算判断矩阵最大特征根计算判断矩阵最大特征根

106、max max= 1n(BW)inWi(BW)=(BW)=1 11 11 14 41 11/21/21 11 12 24 41 11/21/21 11/21/21 15 53 31/21/21/41/41/41/41/51/51 11/31/31/31/31 11 11/31/33 31 11 12 22 22 23 31 11 10.160.160.180.180.200.200.050.050.160.160.250.25=1.0251.0251.2251.2251.3051.3050.3090.3091.0661.0661.641.64186 max= 1n(BW)inWi=1.0256

107、*0.160.3096*0.051.0666*0.161.2256*0.181.3056*0.201.6406*0.25+=6.35187判断矩阵一致性指标判断矩阵一致性指标C.I.(ConsistencyIndex)C.I.= max-nn-1C.I.=C.I.=6.35-66.35-66-16-1=0.07=0.073、一致性检验、一致性检验188随机一致性比率随机一致性比率C.R.(ConsistencyRatio)。C.R.=C.IR.I.0.070.071.241.24= =0.0560.10=0.056 甲的总分甲的总分甲的总分甲的总分 丙的总分丙的总分丙的总分丙的总分所以应该提拔乙到领导岗位上。所以应该提拔乙到领导岗位上。所以应该提拔乙到领导岗位上。所以应该提拔乙到领导岗位上。192

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号