基于聚类分析方法的农村消费状况探索

上传人:QQ15****706 文档编号:52443893 上传时间:2018-08-21 格式:DOC 页数:16 大小:761.50KB
返回 下载 相关 举报
基于聚类分析方法的农村消费状况探索_第1页
第1页 / 共16页
基于聚类分析方法的农村消费状况探索_第2页
第2页 / 共16页
基于聚类分析方法的农村消费状况探索_第3页
第3页 / 共16页
基于聚类分析方法的农村消费状况探索_第4页
第4页 / 共16页
基于聚类分析方法的农村消费状况探索_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《基于聚类分析方法的农村消费状况探索》由会员分享,可在线阅读,更多相关《基于聚类分析方法的农村消费状况探索(16页珍藏版)》请在金锄头文库上搜索。

1、1课程论文课程论文专专 业:业: 计算机科学与技术计算机科学与技术 1 1 班班 姓姓 名名: 华薇华薇 学学 号:号: 20141341142014134114 题题 目:目: 基于聚类分析方法的基于聚类分析方法的农村消费状况农村消费状况探索探索 20152015 年年 1212 月月 2020 日日2摘摘 要要在自然学科和社会学科中,存在着大量的聚类问题。聚类分析是数据挖掘 中的一种重要方法,在银行、零售和保险等领域都有着广泛的应用。我国是一 个农业大国,农民约占全国总人口的 70%以上,是最大的消费群体,进行研究 时要处理大量的复杂信息,因此运用聚类分析方法探索农村消费状况有着重要 的实

2、际意义。 本文首先从我国农村消费现状入手,采用聚类分析方法对我国各地区农村 消费支出结构水平进行分类比较研究,以得出各因素对农村消费状况影响程度, 进而得出了相应的结论并提出增加我国农村居民消费的对策:一是增加农村居 民收入;二是提高消费者素质;三是改善农村居民的消费环境;四是完善农村 社会保障;五是统筹协调发展。 本文所研究的农村消费状况就受多种因素支配,各种因素之间也常存在着 一定的内在联系和相互制约。需要分析哪些是主要的,本质的,哪些是次要的, 片面的,他们之间是什么样的关系等问题。因而利用统计方法中的聚类分析有 着重要的应用价值。 关键词关键词:农村;消费;聚类分析农村;消费;聚类分析

3、 引引 言言经过改革开放三十年的风雨历程,在投资、消费和出口三驾马车的拉动下, 我国经济飞速发展,人民生活水平日益提高,居民收入不断增长,全面建设小康 社会取得重大进展,实现了人民生活由温饱不足向总体小康的历史性跨越。 十七届三中全会提出“到 2020 年,农村改革发展基本目标任务是:农村经 济体制更加健全,城乡经济社会发展一体化体制机制基本建立;现代农业建设 取得显著进展,农业综合生产能力明显提高,国家粮食安全和主要农产品供给 得到有效保障;农民人均纯收入比 2008 年翻一番,消费水平大幅提升,绝对贫 困现象基本消除【1】。 ”党中央正式把提升农村居民消费水平作为未来我国经济 发展的目标,

4、不仅体现了改革开放给农村居民生活所带来的显著变化,更体现 了整个中国居民的整体消费水平的增长,借此稳定中国的经济基础,实现国民 经济的可持续发展的长远规划。 党的十八大提出提高农村居民纯收入,大幅提升农村居民消费水平。因此, 明确农村消费的地区及结构差异是制定刺激农村消费有关政策的实证基础。消 费作为拉动经济增长的三驾马车之一,在国民经济运行中具有重要地位。面对 中国经济发展内需不足的结构性失衡,扩大农村需求,尤其是扩大农村消费需 求,对拉动内需和解决“三农”问题都具有重要的意义,尤其是伴随着世界经3济进入后危机时代以及中国改革向纵深推进,农村消费问题越发受到政府和理 论界的关注。 随着党中央

5、对农村消费的重视,社会各界对农村居民消费的关注程度不断 增加,出现了大量对农村居民消费的研究成果。朱信凯、雷海章和王宏伟,采 用了相对收入理论研究我国农村居民消费行为。刘建国和李锐、项海荣在弗里 德曼的持久收入假说消费理论框架下,对我国农村居民消费倾向进行研究。汪 宏驹、张慧莲从流动性约束角度剖析了我国农村居民消费行为。西方经济学的 消费理论一般突出收入是影响消费的主要因素。凯恩斯的绝对收入假说认为, 消费是由收入唯一决定的,消费和收入之间存在稳定的函数关系。杜森贝利的 相对收入假说认为,消费者的消费支出水平不仅受当前收入水平的影响,也受 自己历史上曾经实现的消费水平的影响,这种现象被称为消费

6、的“不可逆性” 。 毫无疑问,国内有关此类问题的研究还处于理论阶段,与国外相比仍有很大差 距,有待进一步扩展和深入。问题分析问题分析作为一个发展中国家,拉动经济增长的最主要力量仍然是国内需求,而扩 大国内需求的一个重要举措是刺激国内消费,而农民作为中国广大的消费群体, 其消费水平和消费需求的变化直接关系到内需的政策的效果。目前,农民生活 水平虽然有显著提高,但是农民消费仍然不足。长期以来农村消费市场启而不 动、发展缓慢,这已经影响到整个国民经济的健康发展。同时,我国投资与消 费的长期失衡孕育着经济运行的巨大风险消费率偏低,投资率过高,往往造成 产能过剩,产品供过于求矛盾突出,导致企业效益下降,

7、失业率增加;还造成 内需不足后国内企业为求出路只能寻求海外市场,从而导致出口压力增大,人 民币升值压力加大,外部风险加大;更为严重的是,居民消费率持续过低,不 但使投资行为有可能偏离目标,即投资为了创造财富,最终为了消费而且终将 使投资行为缺乏最终消费的强力支持而难以为继,进而造成经济的大起大落2。 因此研究中国农村居民消费状况,对于我国制定完善经济政策,改善农村居民 消费结构,促进消费水平,进一步提高农民消费质量有重要的意义。 文章将采用聚类分析中的 k-means 算法对我国 31 个省、市、自治区的农村 消费支出结构水平进行分类比较研究, 以得出各因素对农村消费状况的影响情 况。以 20

8、08 年我国其中 31 个省、市和自治区的农村居民家庭平均每人全年消 费性支出衣着、食品、居住、家庭设备及服务、文教娱乐用品及服务、交通和 通讯、医疗保健、其他商品及服务3来进行实证分析。4算法简介算法简介一、一、k-means 算法算法聚类是把对象或样本的集合分组成为多个簇(类)的过程,使同一组中的 对象具有较高的相似度,而不同类的对象差别较大。相异度是根据描述对象的 属性值进行计算的,距离经常采用相异度度量方式。在许多应用场合,可以把 一个簇中的对象作为一个整体对待。与分类、回归分析等不同,聚类的每个样 本都没有类标号,因此一般是无监督方法。目前已出现多种聚类方法:基于划 分的方法、基于层

9、次的方法、基于密度的方法、基于网格的方法、基于模型的 方法以及模糊聚类等。聚类方法的选择取决于数据的类型、聚类目的和应用场 合。 最基本的聚类算法是 k-means 算法,k-means 算法是输入聚类个数 k,以及 包含 n 个数据对象的数据库,输出满足方差最小标准的 k 个聚类。k-means 算 法是常见的基于划分的聚类算法,经常用于数据挖掘和模式识别中,其中相异 度基于对象与类中心(簇中心)的距离计算,与簇中心距离最近的对象可以划 分为一个簇。此算法目标是每个对象与簇中心距离的平方和最小。 K 均值算法的处理流程如下:首先,用户指定聚类的类别数 k,随机选择 k 个对象作为 k 个初始

10、聚类中心。对剩余的每个对象,分别计算与初始聚类中 心的距离,再根据距离划到不同的簇。然后重新计算每个簇的平均值,求出新 的聚类中心,再重新聚类。这个过程不断重复,直到收敛(相邻两次的聚类中 心相同)为止或迭代次数小于设定的值。k 均值算法是基于质心的技术,k 均值 算法以 k 为输入参数,把 n 个对象集合分为 k 个簇,使得簇内的相似度高,簇 间的相似度低。簇的相似度是关于簇中对象的均值度量,可以看作簇的质心。 k-means 算法的时间复杂度是 O(knt),其中 n 是所有对象数目,t 是迭代次数。k-means 算法的大致过程如下: (1) 给定 k,从 n 个对象中任意选择 k 个对

11、象作为初始聚类中心;(2) Repeat (3) 计算每个对象与簇类中心的距离,把它们划分到不同的簇; (4) 重新计算每个簇的聚类中心; (5) Until 聚类中心不再发生变化。K 均值算法的优点: 1.比层次聚类的计算速度更快(如果 k 很小) 。 2.与层次聚类相比,k 均值可以得到更紧密的簇,尤其是对于球状簇。 3.对大数据集,是可伸缩和高效率的。 4.算法尝试找出使平方误差函数值最小的 k 个划分。当结果簇是密集的, 而簇与簇之间区别明显的时候,效果较好。K 均值算法的缺点: 1. 没有指明初始化均值的方法。常用的方法是随机的选取 k 个样本作为均 值。 2. 产生的结果依赖于均值

12、的初始值,经常发生得到次优划分的情况。解决 方法是多次尝试不同的初始值。 3. 可能发生距离簇中心 mi最近的样本集为空的情况,因此, mi将得不到5更新。这是一个必须处理的问题,但我们忽略该问题。 4. 结果依赖于|x- mi|的度量单位。一个常用的解决方法是用标准差规范 各个变量,虽然这并非总是可取的。结果还依赖于 k 值,所以难以比较 聚类结果的优劣。 5. 不适合发现非凸面形状的簇,并对噪声和离群点数据是较敏感的,因为 少量的这类数据能够对均值产生极大的影响。二、对象间的相似度和相异度二、对象间的相似度和相异度对象间的相似度和相异度是基于两个对象间的距离来计算的。 标量也就是无方向意义

13、的数字,也叫标度变量。现在先考虑元素的所有特 征属性都是标量的情况。例如,计算 X=2,1,102和 Y=1,3,2的相异度。一种 很自然的想法是用两者的欧几里得距离来作为相异度,欧几里得距离的定义如 下:其意义就是两个元素在欧氏空间中的集合距离,因为其直观易懂且可解释性强, 被广泛用于标识两个标量元素的相异度。 除欧氏距离外,常用作度量标量相异度的还有曼哈顿距离。曼哈顿距离: d(X,Y)=|+|+|三、三、 规格化问题规格化问题上面这样计算相异度的方式有一点问题,就是取值范围大的属性对距离 的影响高于取值范围小的属性。例如上述例子中第三个属性的取值跨度远大 于前两个,这样不利于真实反映真实

14、的相异度,为了解决这个问题,一般要 对属性值进行规格化。所谓规格化就是将各个属性值按比例映射到相同的取 值区间,这样是为了平衡各个属性对距离的影响。通常将各个属性均映射到 0,1区间,映射公式为:其中 max(ai)和 min(ai)表示所有元素项中第 i 个属性的最大值和最小值。6实验与分析实验与分析一、数据准备一、数据准备评价指标的选取:探索农村消费状况,必须建立适当的指标体系。但由于消 费指标的复杂性和多样性,各指标的选取要遵循以下原则: (1) 选取的指标能客 观地反映农村消费状况主要方面;(2) 指标之间基本上相互独立; (3) 尽量选 取相对指标。本文选取了食品、衣着、居住、家庭设

15、备及服务、交通和通讯、 文教娱乐用品及服务、医疗保健、其他商品及服务。 下面以一个具体的例子来实现实证分析。2008 年我国其中 31 个省、市和 自治区的农村居民家庭平均每人全年消费性支出食品、衣着、居住、家庭设备 及服务、交通和通讯、文教娱乐用品及服务、医疗保健、其他商品及服务。其 数据如表 1 所示。表 1 原始数据表地区食品衣着居住家庭设 备及服 务交通和 通讯文教娱 乐用品 及服务医疗保 健其他商 品及服 务 北京2270.72 377.81 1162.96202.36930.33883.33709.22127.29天津1368.93 292.32 699.21133.61202.87322.27301.0682.73河北1192.93 203.72 696.12131.92326.73230.07219.3262.28山西1206.69 276.23 286.73138.26328.72380.7210.3269.83内蒙古1283.61 239.96 369.6128.8206.72399.33320.6269.23辽宁1329.00 298.82 601.71138.91226.27387.97283.37107.78吉林1362.22 232.03 330.69122.8333.38321.73

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号