优化的聚类分析在企业客户细分中的应用

上传人:li45****605 文档编号:29823996 上传时间:2018-01-25 格式:PDF 页数:6 大小:380.09KB
返回 下载 相关 举报
优化的聚类分析在企业客户细分中的应用_第1页
第1页 / 共6页
优化的聚类分析在企业客户细分中的应用_第2页
第2页 / 共6页
优化的聚类分析在企业客户细分中的应用_第3页
第3页 / 共6页
优化的聚类分析在企业客户细分中的应用_第4页
第4页 / 共6页
优化的聚类分析在企业客户细分中的应用_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《优化的聚类分析在企业客户细分中的应用》由会员分享,可在线阅读,更多相关《优化的聚类分析在企业客户细分中的应用(6页珍藏版)》请在金锄头文库上搜索。

1、 2014年1月 总第522期第01期 经济论坛 Economic Forum Jan20l4 Gen522 NoO1 优化的聚类分析在企业客户细分中的应用 文徐昆 【摘 要】使用Kmeans聚类可以用来解决客户细分的问题,然而常用的统计分析软件如SPSS等内置的 k-means算法存在一定的缺陷,而且由于版权原因,spss在公司中的普及率不高。为此,本文通过研究改进 后的K-means算法,并参照RFM模型设立指标来对客户进行细分,最后以EXCELVBA编程语言制作了优 化的kmeans算法宏程序,以sE公司的快速消费品的销售历史数据来验证分类的有效性,以期将程序的投 入实际应用,帮助公司实

2、现资源的最优化配置。 【关键词】Kmeans聚类优化;客户细分;VBA;PFM模型 【作者简介】徐昆,同济大学硕士研究生,研究方向:知识管理与竞争情报。 一、引言 随着Internet的蓬勃发展,公司之间的竞争已 由产品的竞争转为客户的竞争,客户的需求在快速 变化,特别是对于传统的制造企业来说,行业的竞 争在加剧,利润空间在不断被压缩,企业想要长期 生存,必须能在所服务的价值活动范围内创造出其 他竞争者无法取代的地位,企业的竞争力才会得到 提升。现在企业正面临着从大众化生产到个性化生 产的变革,只有构建完善的客户管理模式,了解顾 客的行为,提高客户忠诚度,使顾客购买更多的产 品,才能获得更多的

3、利润。 从世界范围来看,CRM越来越受到企业的重 视。据市场研究公司Gartner调查显示:CRM分市 场销售额在2008年为19亿美元,2009年增长到23 亿美元(如表1)。2009年全球SaaS的市场销售收入 预计将增长177,从2008年 的64亿美元增长到75亿美元。 Gartner研究经理Sharon Mertz声 称,随需应变的CRM市场格局 将继续发展。 在市场经济环境下,客户 需求的不确定性增加,多元化 趋势增强。这样,企业传统的 “以产品为中心”的经营理念将 承受极大的考验,转变思维观 念,以客户为中心来经营企 业,积极发展与客户长期的互 利关系,“为客户找产品”,让 “产

4、品成为客户关系上的一个标 点符号”,可以最大限度地降低 经营风险。国内的许多制造企业的CRM发展大多 参照国外的发展经验,在实施时未能充分考虑到国 内的实际情况,有些CRM软件只是国外软件的汉 化版本,在针对国内的具体用户群时,也未能做到 量体裁衣。因此因地制宜地制作适合国内环境的客 户细分软件有着比较实际的意义。 二、数据挖掘国内外研究现状 数据挖掘(Data Mining)就是从存放在数据库 中的大量的数据中获取新颖的、有效的、潜在有用 的、最终可理解的模式的过程。数据挖掘融合了人 工智能、数据库、统计学、机器学习等多个领域的 理论和技术,它就是从大量数据中提取知识,能够 对数据进行再分析

5、,以期获得更加深入的了解,并 能通过历史数据预测未来。数据挖掘使用一定的算 法从实际应用数据中挖掘出未知的、有价值的模式 表1 2009年企业应用软件市场SaaS分市场销售收入预测 百万美元 分市场 2009年 2008矩 内容、通信和协作 2573 2143 办公套装软件 68 56 数字内容创建(DCC1 62 44 客户关系管(CRM) 2281 1872 企业资源规0(ERP) 1239 】l76 供应链管J(SCM) 826 710 其它应用软件 472 387 整个企业软件 7521 6388 资料来源:(;aner(2009年11月)。 输入数据知识 图1数据挖掘的过程 或规律等

6、知识。整个过程由数据准备、数据挖掘、 模式评估、巩固知识和运用知识等步骤组成。通过 图解具体说明数据挖掘的过程,如图1所示。 目前,在CRM中数据挖掘已经得到了广泛的 应用,它能解决的问题包括:数据库营销、客户群 体划分、交叉销售、客户流失性分析等。在CRM的 应用中数据挖掘的功能主要表现在以下几个方面。 1帮助公司获取新的顾客。传统营销方法例如 传单,做广告和其他花费更高,作用不是令人满 意。数据挖掘技术的引入实现了根据不同的用户 组、消费者习性、倾向和需要执行促销,降低了营 销成本,提高了营销效果。 2帮助企业进行交叉销售。交叉销售指的是企 业将新的服务或产品向原有的客户进行销售的过 程。

7、针对原有客户,企业可以通过对现有客户信息进 行数据挖掘,分析他们的客户特点,预测未来市场。 3帮助企业留住老客户。在业界公认的是,获 得一个新客户的成本是挽留住一个老客户成本的 68倍。因此,公司需要最大程度地保留老客户, 这就需要研究他们的行为特征,提供针对性的服务 来提高这部分客户的忠诚度。 在CRM系统中数据挖掘的过程可以如图2所示。 三、聚类分析 聚类技术是数据挖掘研究中的一个热点问题。 结果表达 近年来研究比较热门的划分 聚类算法有Kmeans算法、 模糊c一均值算法、K调和均 值算法以及谱聚类算法等。 现有的聚类算法虽然众多, 但是它们都或多或少地存在 着某一种或者几种不足和缺 陷

8、,可以说迄今为止没有任 何一种聚类算法可以对于任 何一类数据集、针对任何一种应用要求都能够达到 高质量的聚类效果。因此,需要挖掘更多更具适应 性的新型聚类算法。 聚类技术在过去的几年中主要朝着两个方向来 进行发展:一个是对现有的聚类算法的加强,而另 一个则是发明新的聚类算法。一些加强的聚类算法 对处理大型数据集或者是高维数据集已经有了一定的 进步,例如使用多分辨率的小波变化算法、从粗糙到 密集的网格技术都对聚类的质量有了较大的提高。 聚类分析己经被广泛应用于各个数值分析领 域,包括数理统计、图像处理、以及市场分析、模 式识别等。聚类分析在商业上可以协助市场分析人 员依据客户消费模式对客户进行细

9、分,发现不同类 别客户的消费偏好和特点,从而进行有针对性的服 务。在生物学上,聚类能用于推导动物和植物的分 类,对基因进行分类,获得对种群中同有结构的认 识。在天文学、地理学以及文本挖掘等方面,聚类 分析也有大量的应用。聚类分析己经成为数据挖掘 研究领域中一个非常活跃的研究课题。 Kmeans聚类算法是一种基于划分的聚类算 法。首先,假设需要将数据集分为K类,在数据集 中任意选取K个数据元素作为聚类中心,在根据距 离函数测量每个数据元素到中心的距离,将数据元 素分配到距离最近的聚类中心所在的簇中;再通过 图2 CRM系统中数据挖掘的过程 计算每个簇中元素的平均距离得出新簇的聚类中 心,再计算其

10、他元素到新的聚类中心的距离,如此反 复迭代,直到聚类中心不再变化,聚类准则收敛。 (一)定义距离的方法 由聚类的一般步骤可知,定义样品之间和类之 间的距离是关键。根据距离定义的不同,系统聚类 又可以分为多种方法,但其执行的基本步骤都是一 样的。 1样品之间的距离和相似度。设要聚类的数据 集为G,嚣= t 6=缸f f E R =1,2,3田 : 蕊孟 G=【毪 &i=1 23。n),k 类中心为z-,z:z ,并且用Yj(j=I2k)表示k个聚 类的类别。两个数据对象的欧氏距离如下: )=-xj)(xi-xj) (1) 每个数据对象的算术平均值为 = f= 姻 (n为该数据集中样本个数),则准

11、则 函数可以表示如下: L= 1 i矗(xj zi) (2) 2类别之间的距离。类指观测数据记录的集 合,两个类之间的距离一般用类中某些特殊点之间 的距离定义。设有两个类Ga和Gb,它们之间的距 离记为D(a,b),常用的类距离如下。 最短法:D(a,b)=mindijl、x iGa,、xTGb。 最长法:D(a,b)=maxdij l、x iGa,、xiGb。 类平均法:D(aJb)= xsGa x Gb 。 (二)聚类个数的确定 系统聚类最终把所有的观测聚为一类,而如何 确定恰当的聚类个数是一个比较困难的问题,因为 分类本身就没有一定的标准。 有一些决定聚类个数的方法来自方差分析的思 想,

12、下面做一些简单介绍。 1R:统计量。记:R =1一 Pg,其中Pg表示聚 类数为G个时的总类内差平方和,T为所有变量的 总离差平方和。R:越大说明总的类内差平方和相对 越小,也就是说分为G个类是合适的。但显然聚类 数越多,每个类别越小,R 也就越大,所以要综合 考虑多个条件:取得G应该使得R 足够大,但G本 身比较小,而且R:不再大幅度增加。 2半偏相关系数。在把类G 和G 合并为下一 水平的类G 时,定义半偏相关系数:R:= ,其中 B 为合并类引起的类内差平方和的增量,半偏相 关系数越大说明这两个类越不应该合并。所以如果 在由n+l类合并为n类时,半偏相关系数很大就应 该保留n+1个分类。

13、 3伪F统计量。伪F统计量记为: F=cr- Pg 3 Cc-L (3) p譬 (n一 、 伪F统计量用于评价分为G个类的效果。如果 分为G个类合理,则类内离差平方和应该较小,类 间离差平方和相对较大,所以应取伪F统计量较大 而分类树G较小的聚类水平。 (三)Kmeans算法的优化 度量函数的选择,Matteucci指出度量函数的与 数据集并没有针对性,因此可能会得到较低的聚类 结果。 WkDaniell针对此问题提出了一种独立的准 则,根据数据属性的不同选择。不同的距离度量函 数,此方法的平均准确率达到了909,完全可以 将此方法应用到实际当中,因此本文将此方法借鉴 到论文当中。具体的规则函

14、数如下:如果q 84595此时选择欧式距离作为度量函数如果q 84595此时选择曼哈顿距离作为度量函数。 规则q函数表达式如下: q:墨 , (4) q=: _=一, 斗, 其中 gel x,o= , (5) x是样本均值,盯是标准偏差。参数n代表数据 集有nq元素。 四、优化的kmeans聚类算法在客户细分中 的具体应用 (一)数据来源 本文采用了VE公司2003到2009年的快速消 费品的客户消费历史数据进行聚类的有效性验证, VE公司是一家跨国仪器制造公司,除了生产仪器 外,也生产仪器上配备的各种零部件,这些零部件 属于易消耗品,占到公司利润的大部分。本文将基 于易消耗品的客户数据进行分

15、析,这部分客户数据 表2 a公司客户快速消费品数据 Customer No Customer Name 仪器数量(台) 购买频率(次) 销售额(十万元) 10055269l 中国石油化工 1 l9 4 l 00552692 河南省出人境检验检疫局 1 14 6 1 00552726 青岛海润自来水集团 1 4 11 100552792 福建省出入境检验检疫局 1 15 1 100552832 上海罗氏制药 1 6 11 100552833 江苏中烟工业有限责任公司 1 18 1 100552843 拜耳涂料有限公司 1 19 6 100552879 中国农业大学 1 3 3 表3指标间的评价矩

16、阵 时间差 购买频率 销售额 时间差 1 071 046 购买频率 141 1 085 销售额 218 118 1 表4正规化后的评价矩阵 时间差 购买频率 销售额 时间差 一88469 106831 1112l2 购买频率 一20031 15462 28700 销售额 108499 91368 825l2 已经经过准确的分类,可以作为测试数据使用。 原始数据共计914个客户。根据RFM模型, 本文采用了j个指标来评价客户价值,即购买频 率、销售额、时间差。数据以excel的格 式保存。 基于vE公司只有少数耐久品,但有 很多消耗品的特点,适合使用RFM模型 进行评价,即通过客户的购买频率、销售 额、时间差进行评价。 (二)分类指标的选择 在选择分类指标时,参照RFM模 型,我们选择购买频率、销售额、时间差 作为评价客户价值的i个指标,然后构造 如下的评价矩阵后使用AHP层

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号