聚类与判别-案例知识课件

上传人:yulij****0329 文档编号:137537906 上传时间:2020-07-09 格式:PPT 页数:52 大小:677KB
返回 下载 相关 举报
聚类与判别-案例知识课件_第1页
第1页 / 共52页
聚类与判别-案例知识课件_第2页
第2页 / 共52页
聚类与判别-案例知识课件_第3页
第3页 / 共52页
聚类与判别-案例知识课件_第4页
第4页 / 共52页
聚类与判别-案例知识课件_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《聚类与判别-案例知识课件》由会员分享,可在线阅读,更多相关《聚类与判别-案例知识课件(52页珍藏版)》请在金锄头文库上搜索。

1、聚类与判别-案例,许晓娟 国际商学院 统计与技术经济学系,中国是出口导向的国家吗?,聚类分析-案例,问题背景, 奥巴马:全球经济必需平衡增长,对于出口导向的国家来说,必需要扩大内需,而扩大内需的关键工具就是加大汇率的弹性,包括采取市场导向的汇率 王岐山通过商务部向贸大提问:中国是否仍是出口导向的国家吗?,出口导向程度的测度方法,出口依存度 净出口贡献率 投入产出分析,第二步:选择分析变量和数据,消费率 投资率 出口依存度 进口依存度,第三步:选择分析方法,系统聚类 平方欧氏距离 最近距离 非标准化数据,第一类:加拿大、南非、法国、意大利、俄罗斯、德国、澳大利亚、印度、巴西、美国、日本、德国、韩

2、国、中国第二类:新加坡、香港,第四步:结果分析,分成两类 观察这两类消费结构的差异,第一类地区出口依存度平均为26%,第二类为198%第一类消费率平均为77%,第二类为62%,两类经济体出口依存度和进口依存度有显著差异,消费率差异略显著,投资率差异不显著,方法的选择是否会影响结果,回到第三步 类间距 结果与最近距离法一致:Ward方法、类平均法(组间)、重心法 结果与最近距离法不一致:类平均法(组类)、最长距离法 点间距 略有影响 是否标准化 有明显的影响,结果汇总,选择一,将中国单独作为一类 观察各类的差异,四个指标均通过显著性检验,结论,香港、新加坡:外贸依存度高、消费率中、投资率中 中国

3、:外贸依存度中、消费率低、投资率高 其他:外贸依存度低、消费率高、投资率低,选择二,将中国、澳大利亚、韩国、印度作为一类,四个指标均通过显著性检验,结论,外贸主导型经济:香港、新加坡 投资主导型经济:中国、韩国、澳大利亚、印度 消费主导型经济:巴西、加拿大、法国、德国、意大利、日本、俄罗斯、南非、德国、日本,存在的问题,没有考虑经济规模的影响 没有考虑经济发展水平 没有考虑出口结构,聚类分析的注意点,由于变量、方法、数据的原因,分类结果会有很多重选择 因此,聚类分析最重要的是明确聚类的动机和目的 在保证类间距离尽可能远、类中点距离尽可能近的前提下,达到分类目的,聚类分析就是成功的,要不要向他推

4、销割草机?,判别分析-案例,第一步:确定问题,一个城市的家庭,有的有割草机,有的没有 割草机工厂欲判断一些家庭是否将购买割草机 我们要帮助他们建立判别函数,帮助他们确定潜在的购买者,以制定推销方案,第二步:变量和数据,从两类家庭中分别随机抽取了12个样本 调查指标有两个 家庭收入 房前物后土地面积,数据,第三步:方法,散点图 方差分析 判别分析,分客户类型的散点图,有割草机的家庭收入较高,房前屋后土地面积较大,方差分析,两组家庭收入、房前屋后土地面积存在显著差异,判别分析,判别分析的方法 全模型 逐步判别模型 判别函数与判别准则 CanonicalDiscriminant 判别函数的个数=因变

5、量类别数-1 Fishers linear discriminant functions 判别函数的个数=解释变量个数,判别分析的第一类结果,识别前提条件是否满足 解释变量是否有解释能力 是否存在多重共线性 各总体的协差阵是否相等,解释变量是否有解释能力,解释变量是否有解释能力,各变量描述统计:分组均值和方差 各变量假设检验:组间差异是否显著 Wilks Lambda:各变量对差异的解释能力,有割草机的家庭与无割草机的家庭相比 家庭收入高出5千美元,差异显著 房前屋后土地面积高1平方英尺,差异显著 房前屋后土地面积解释能力略高,是否存在共线性,是否存在共线性,如果解释变量较多,方法选项就被激活

6、 可以对变量多重共线性、变量的解释能力作更细致的分析,各总体的协差阵是否相等,各总体的协差阵是否相等,Boxs M p-值小于0.05或0.1:不相等 p-值大于等于0.05或0.1:相等 相等:Classify中,use covariance matrix选择within-groups 不相等:选择separate-groups,判别分析的第二类结果,识别各判别函数的重要性 识别各判别函数中各解释变量的贡献 得到判别函数和判别准则,识别判别函数的重要性,识别判别函数的重要性,Wilks Lambda Chi-square检验 Eigenvalue % of Variance:该判别函数对判别

7、得分离差的解释比例,只有一个判别函数,因此为100% Canonical Correlation:该判别函数与判别得分的典型相关系数,识别各判别函数中各解释变量的相对贡献,识别各判别函数中各解释变量的相对贡献,标准化典型判别函数 结构矩阵,也称判别载荷,是各变量与判别函数的相关系数,用来判断各变量解释能力 这里,家庭收入的贡献略大,典型判别函数,典型判别函数,非标准化的判别函数 判别准则 判别函数在各组的重心 无割草机:-1.034 有割草机:1.034 临界分割点:0,分类函数(Fisher线性判别函数),分类函数(Fisher线性判别函数),分类函数 无割草机 有割草机 判别准则 计算出两

8、个结果Fisher0,Fisher1 Fisher0-Fisher10,则样本属于0 否则,样本属于1 判别结果与典型判别函数完全相同,判别分析的第三类判别结果,判别函数的错判率,判别分析的注意点,训练样本中必须有所有要判别的类型,分类必须清楚,不能混杂 收集数据时,要选择好可能用于判别的变量,这是最重要的一步 要注意数据是否有不寻常的点或者模式存在,还要检查解释变量是否有不适宜的 判别分析是为了正确地分类,但同时也要注意使用尽可能少的解释变量,判别分析的注意点,计算中需要看关于各个类的有关变量的均值是否显著不同,以确定分类结果是否仅仅由于随机因素所致 需要考虑各总体的权数 有多个判别函数时,要弄清各自的重要性 注意训练样本的正确和错误分类率,研究被误分类的观测值,看是否能找出原因,电信服务消费者行为分析,聚类与判别,数据,SPSS自带数据 telco_extra.sav:1000个样本,46个变量 telco.sav: 1000个样本,42个变量,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号