优化的聚类分析在企业客户细分中的应用

资源描述

《优化的聚类分析在企业客户细分中的应用》由会员分享，可在线阅读，更多相关《优化的聚类分析在企业客户细分中的应用（6页珍藏版）》请在金锄头文库上搜索。

1、 2014年1月总第522期第01期经济论坛 Economic Forum Jan20l4 Gen522 NoO1 优化的聚类分析在企业客户细分中的应用文徐昆【摘要】使用Kmeans聚类可以用来解决客户细分的问题，然而常用的统计分析软件如SPSS等内置的 k-means算法存在一定的缺陷，而且由于版权原因，spss在公司中的普及率不高。为此，本文通过研究改进后的K-means算法，并参照RFM模型设立指标来对客户进行细分，最后以EXCELVBA编程语言制作了优化的kmeans算法宏程序，以sE公司的快速消费品的销售历史数据来验证分类的有效性，以期将程序的投入实际应用，帮助公司实

2、现资源的最优化配置。【关键词】Kmeans聚类优化；客户细分；VBA；PFM模型【作者简介】徐昆，同济大学硕士研究生，研究方向：知识管理与竞争情报。一、引言随着Internet的蓬勃发展，公司之间的竞争已由产品的竞争转为客户的竞争，客户的需求在快速变化，特别是对于传统的制造企业来说，行业的竞争在加剧，利润空间在不断被压缩，企业想要长期生存，必须能在所服务的价值活动范围内创造出其他竞争者无法取代的地位，企业的竞争力才会得到提升。现在企业正面临着从大众化生产到个性化生产的变革，只有构建完善的客户管理模式，了解顾客的行为，提高客户忠诚度，使顾客购买更多的产品，才能获得更多的

3、利润。从世界范围来看，CRM越来越受到企业的重视。据市场研究公司Gartner调查显示：CRM分市场销售额在2008年为19亿美元，2009年增长到23 亿美元(如表1)。2009年全球SaaS的市场销售收入预计将增长177，从2008年的64亿美元增长到75亿美元。 Gartner研究经理Sharon Mertz声称，随需应变的CRM市场格局将继续发展。在市场经济环境下，客户需求的不确定性增加，多元化趋势增强。这样，企业传统的 “以产品为中心”的经营理念将承受极大的考验，转变思维观念，以客户为中心来经营企业，积极发展与客户长期的互利关系，“为客户找产品”，让 “产

4、品成为客户关系上的一个标点符号”，可以最大限度地降低经营风险。国内的许多制造企业的CRM发展大多参照国外的发展经验，在实施时未能充分考虑到国内的实际情况，有些CRM软件只是国外软件的汉化版本，在针对国内的具体用户群时，也未能做到量体裁衣。因此因地制宜地制作适合国内环境的客户细分软件有着比较实际的意义。二、数据挖掘国内外研究现状数据挖掘(Data Mining)就是从存放在数据库中的大量的数据中获取新颖的、有效的、潜在有用的、最终可理解的模式的过程。数据挖掘融合了人工智能、数据库、统计学、机器学习等多个领域的理论和技术，它就是从大量数据中提取知识，能够对数据进行再分析

5、，以期获得更加深入的了解，并能通过历史数据预测未来。数据挖掘使用一定的算法从实际应用数据中挖掘出未知的、有价值的模式表1 2009年企业应用软件市场SaaS分市场销售收入预测百万美元分市场 2009年 2008矩内容、通信和协作 2573 2143 办公套装软件 68 56 数字内容创建(DCC1 62 44 客户关系管(CRM) 2281 1872 企业资源规0(ERP) 1239 】l76 供应链管J(SCM) 826 710 其它应用软件 472 387 整个企业软件 7521 6388 资料来源：(；aner(2009年11月)。输入数据知识图1数据挖掘的过程或规律等

6、知识。整个过程由数据准备、数据挖掘、模式评估、巩固知识和运用知识等步骤组成。通过图解具体说明数据挖掘的过程，如图1所示。目前，在CRM中数据挖掘已经得到了广泛的应用，它能解决的问题包括：数据库营销、客户群体划分、交叉销售、客户流失性分析等。在CRM的应用中数据挖掘的功能主要表现在以下几个方面。 1帮助公司获取新的顾客。传统营销方法例如传单，做广告和其他花费更高，作用不是令人满意。数据挖掘技术的引入实现了根据不同的用户组、消费者习性、倾向和需要执行促销，降低了营销成本，提高了营销效果。 2帮助企业进行交叉销售。交叉销售指的是企业将新的服务或产品向原有的客户进行销售的过程。

7、针对原有客户，企业可以通过对现有客户信息进行数据挖掘，分析他们的客户特点，预测未来市场。 3帮助企业留住老客户。在业界公认的是，获得一个新客户的成本是挽留住一个老客户成本的 68倍。因此，公司需要最大程度地保留老客户，这就需要研究他们的行为特征，提供针对性的服务来提高这部分客户的忠诚度。在CRM系统中数据挖掘的过程可以如图2所示。三、聚类分析聚类技术是数据挖掘研究中的一个热点问题。结果表达近年来研究比较热门的划分聚类算法有Kmeans算法、模糊c一均值算法、K调和均值算法以及谱聚类算法等。现有的聚类算法虽然众多，但是它们都或多或少地存在着某一种或者几种不足和缺陷

8、，可以说迄今为止没有任何一种聚类算法可以对于任何一类数据集、针对任何一种应用要求都能够达到高质量的聚类效果。因此，需要挖掘更多更具适应性的新型聚类算法。聚类技术在过去的几年中主要朝着两个方向来进行发展：一个是对现有的聚类算法的加强，而另一个则是发明新的聚类算法。一些加强的聚类算法对处理大型数据集或者是高维数据集已经有了一定的进步，例如使用多分辨率的小波变化算法、从粗糙到密集的网格技术都对聚类的质量有了较大的提高。聚类分析己经被广泛应用于各个数值分析领域，包括数理统计、图像处理、以及市场分析、模式识别等。聚类分析在商业上可以协助市场分析人员依据客户消费模式对客户进行细

9、分，发现不同类别客户的消费偏好和特点，从而进行有针对性的服务。在生物学上，聚类能用于推导动物和植物的分类，对基因进行分类，获得对种群中同有结构的认识。在天文学、地理学以及文本挖掘等方面，聚类分析也有大量的应用。聚类分析己经成为数据挖掘研究领域中一个非常活跃的研究课题。 Kmeans聚类算法是一种基于划分的聚类算法。首先，假设需要将数据集分为K类，在数据集中任意选取K个数据元素作为聚类中心，在根据距离函数测量每个数据元素到中心的距离，将数据元素分配到距离最近的聚类中心所在的簇中；再通过图2 CRM系统中数据挖掘的过程计算每个簇中元素的平均距离得出新簇的聚类中心，再计算其

10、他元素到新的聚类中心的距离，如此反复迭代，直到聚类中心不再变化，聚类准则收敛。 (一)定义距离的方法由聚类的一般步骤可知，定义样品之间和类之间的距离是关键。根据距离定义的不同，系统聚类又可以分为多种方法，但其执行的基本步骤都是一样的。 1样品之间的距离和相似度。设要聚类的数据集为G，嚣= t 6=缸f f E R =1,2，3田：蕊孟 G=【毪 &i=1 23。n)，k 类中心为z-，z：z ，并且用Yj(j=I2k)表示k个聚类的类别。两个数据对象的欧氏距离如下： )=-xj)(xi-xj) (1) 每个数据对象的算术平均值为 = f= 姻 (n为该数据集中样本个数)，则准

11、则函数可以表示如下： L= 1 i矗(xj zi) (2) 2类别之间的距离。类指观测数据记录的集合，两个类之间的距离一般用类中某些特殊点之间的距离定义。设有两个类Ga和Gb，它们之间的距离记为D(a，b)，常用的类距离如下。最短法：D(a，b)=mindijl、x iGa，、xTGb。最长法：D(a，b)=maxdij l、x iGa，、xiGb。类平均法：D(aJb)= xsGa x Gb 。 (二)聚类个数的确定系统聚类最终把所有的观测聚为一类，而如何确定恰当的聚类个数是一个比较困难的问题，因为分类本身就没有一定的标准。有一些决定聚类个数的方法来自方差分析的思想，

12、下面做一些简单介绍。 1R：统计量。记：R =1一 Pg，其中Pg表示聚类数为G个时的总类内差平方和，T为所有变量的总离差平方和。R：越大说明总的类内差平方和相对越小，也就是说分为G个类是合适的。但显然聚类数越多，每个类别越小，R 也就越大，所以要综合考虑多个条件：取得G应该使得R 足够大，但G本身比较小，而且R：不再大幅度增加。 2半偏相关系数。在把类G 和G 合并为下一水平的类G 时，定义半偏相关系数：R：= ，其中 B 为合并类引起的类内差平方和的增量，半偏相关系数越大说明这两个类越不应该合并。所以如果在由n+l类合并为n类时，半偏相关系数很大就应该保留n+1个分类。

13、 3伪F统计量。伪F统计量记为： F=cr- Pg 3 Cc-L (3) p譬 (n一、伪F统计量用于评价分为G个类的效果。如果分为G个类合理，则类内离差平方和应该较小，类间离差平方和相对较大，所以应取伪F统计量较大而分类树G较小的聚类水平。 (三)Kmeans算法的优化度量函数的选择，Matteucci指出度量函数的与数据集并没有针对性，因此可能会得到较低的聚类结果。 WkDaniell针对此问题提出了一种独立的准则，根据数据属性的不同选择。不同的距离度量函数，此方法的平均准确率达到了909，完全可以将此方法应用到实际当中，因此本文将此方法借鉴到论文当中。具体的规则函

14、数如下：如果q 84595此时选择欧式距离作为度量函数如果q 84595此时选择曼哈顿距离作为度量函数。规则q函数表达式如下： q：墨， (4) q=： _=一，斗，其中 gel x,o= ， (5) x是样本均值，盯是标准偏差。参数n代表数据集有nq元素。四、优化的kmeans聚类算法在客户细分中的具体应用 (一)数据来源本文采用了VE公司2003到2009年的快速消费品的客户消费历史数据进行聚类的有效性验证， VE公司是一家跨国仪器制造公司，除了生产仪器外，也生产仪器上配备的各种零部件，这些零部件属于易消耗品，占到公司利润的大部分。本文将基于易消耗品的客户数据进行分

15、析，这部分客户数据表2 a公司客户快速消费品数据 Customer No Customer Name 仪器数量(台) 购买频率(次) 销售额(十万元) 10055269l 中国石油化工 1 l9 4 l 00552692 河南省出人境检验检疫局 1 14 6 1 00552726 青岛海润自来水集团 1 4 11 100552792 福建省出入境检验检疫局 1 15 1 100552832 上海罗氏制药 1 6 11 100552833 江苏中烟工业有限责任公司 1 18 1 100552843 拜耳涂料有限公司 1 19 6 100552879 中国农业大学 1 3 3 表3指标间的评价矩

16、阵时间差购买频率销售额时间差 1 071 046 购买频率 141 1 085 销售额 218 118 1 表4正规化后的评价矩阵时间差购买频率销售额时间差一88469 106831 1112l2 购买频率一20031 15462 28700 销售额 108499 91368 825l2 已经经过准确的分类，可以作为测试数据使用。原始数据共计914个客户。根据RFM模型，本文采用了j个指标来评价客户价值，即购买频率、销售额、时间差。数据以excel的格式保存。基于vE公司只有少数耐久品，但有很多消耗品的特点，适合使用RFM模型进行评价，即通过客户的购买频率、销售额、时间差进行评价。 (二)分类指标的选择在选择分类指标时，参照RFM模型，我们选择购买频率、销售额、时间差作为评价客户价值的i个指标，然后构造如下的评价矩阵后使用AHP层

展开阅读全文