移动通信数据分析与利用问题(九组)2

资源描述

《移动通信数据分析与利用问题(九组)2》由会员分享，可在线阅读，更多相关《移动通信数据分析与利用问题(九组)2（24页珍藏版）》请在金锄头文库上搜索。

1、移动通信数据分析与利用问题移动通信数据分析与利用问题( (九组：管天彦九组：管天彦王王娟娟赵赵鹏鹏) )摘要摘要本文通过 Eecel 将 300 名用户 10 天内的通话记录进行处理，再建立 K- means 聚类模型用 SPSS 软件将用户分为 6 类，并依据每类用户特征选择新业务的合适人群；其次通过对 30 个基站的运行情况分析，对基站的合理化做出了判断，较好的解决了题目中的问题针对问题一，要求对用户进行分类，经过对数据处理后，将用户的主叫次数，被叫次数，主叫通话时长（以秒为单位），被叫通话时长和夜间通话比例作为 5 个通话特征变量建立了 K-means 聚类模型，利用

2、 SPSS 软件将 300 个用户经过两次聚类聚为了 6 类，具体情况见表 4。针对问题二，在问题一中已经明确的将用户聚为 6 类，我们对分出的 6 类用户分别做具体详细的分析，并根据每一类的特点，对其推出优质，优先，全方位为理念为公司赢得更多的利益的新通讯业务和以实惠，快捷且不很影响其他通讯业务的经营为主为公司赢得更好的声誉，和品牌效应的新优惠业务，则认为新通讯业务的适合人群为问题一中分出的第一类，第五类和第三类消费能力较高的用户，新优惠业务的适合人群为第一类和第二类夜间通话比例相对较大，人口比例适中的用户。针对问题三，由于本文将每个基站的工作量定义为繁忙指数，并将每个基站

3、的繁忙指数与所有基站的繁忙指数平均值做均衡比较，依据得出的均衡偏差将基站分为严重超负荷，繁忙，正常，较闲置，很闲置这 5 类繁忙指数区间，从而判断基站建设是否合理。重点解决和调整超负荷，繁忙，和很闲置的这些基站，对于严重超负荷的地区将增加基站或将其工作量分配给周围闲置的基站，对严重闲置的基站拆除，其工作量由周围的基站分担。综合分析后认为在基站 28 和 29 之间新增一个基站 31，并将基站 5,7,19,26 拆除其工作量由周围邻近基站分别分担（具体见问题三的解答）。针对问题四，通过对基站建设的合理性分析，我们结合改进成本和改进期间对用户的影响程度，再根据不同的原则对通讯公司

4、作出了两套合理化的方案。方案一是在改变原有的基站数目，增加或减少基站数，其具体方案如上述问题三。方案二是不改变原有基站数目的前提下，根据每个基站其工作量大小，将其基站改成大，中，小，三种型号的基站。经过合理分析，我们认为将基站 11,28,29 和 30 改为大型基站，将基站 2， 3， 5 ，7 ，8 ，14 ，26 改为小型基站，其余基站不做更改，并将方案写成具体建议呈交给移动运营商作参考。关键词关键词 K-means聚类繁忙指数均衡比较 SPSS1.1. 问题的重述问题的重述现代通信技术的快速发展拉近了人与人之间距离，移动电话现已成为人们生活中不可缺少的用品之一，将我们紧密

5、地联系在一起，使其形成了一个巨大的社交网络。然而，社会的需求对当前的通信设备与通信业务的技术和管理水平提出了更高的要求。对于移动通信运营商来说，如何对现有的通话记录数据进行分析处理、充分合理地利用，以有利于运营商的技术改造、拓展新业务、提高服务水平，为科学合理决策提供决策依据。这也是各移动通信公司所面临的一个重要研究课题。附件1中给出了一家移动通信公司2010年6月记录某地区300个用户10天内的通话数据信息，请分析研究下列问题：（1）对这些通话数据进行分析处理，通过数学建模方法对用户进行合理地分类，并说明其分类特征。（2）移动公司拟针对部分用户推出一项新的通信业务和一项优

6、惠业务，请你们帮助分析公司应如何选择各类用户作为使用对象，给出你们的选择方案，并说明其理由和依据。（3）公司在该地区现有的基站设施情况如附件2所示，请你们分析其设置的合理性，是否需要改进，即是否需要增加或者减少？并说明你们的理由和依据。（4）结合你们的建模分析结果，给该公司经理写一份不超过一页的建议书。2.2.问题的分析问题的分析2.12.1 问题一的分析问题一的分析对于300 个用户，我们假设这十天的选择是随机的，即题给的300 个人十天的通话信息能够代表他们平时的水平，因此，得到的数据具有可靠性。通信运营商需要通过对自己的客户进行分类和筛选得到重要客户以及潜在重要客户，以此

7、明确要巩固和优化的重要客户以及通过潜在重要客户挖掘更多的重要客户，从而使利润最大化。1）通常一个用户创造的利润与用户的主叫通话时间有xa很大的关系，也与被叫用户的通话时间大的关系；2）考虑到目前市场话费，xc主叫费用与被叫费用是不同的。如果被叫多，则一般是地位比较高的用户，消费能力强是潜在或者已经是重要客户，因此主叫用户的通话次数和被叫的通xb话次数是体现用户重要程度以及该通信运营商业务普及程度的一个重要xd指标，也是影响利润的重要因素。3）结合问题二考虑，我们将主要对夜间客户推介新的优惠业务，因此我们把夜间通话用户的通话时间占他总的主叫时间的比例定义为故本文选择主叫通话次数，被叫通话

8、次数，主叫通话xpxbxd时间，被叫通话时间和用户的夜间通话比例这五组数据作为用户的特xaxcxp 征变量进行分类。由于在所给的数据表里，并没有以上5 个指标的直接数据，因此在建立模型前，需要对原数据进行整理和提取。因此本文利用Excel工作表对各个指标进行提取。提取的数据是一个3005的矩阵。见附表2.22.2 问题二的分析问题二的分析通过问题一，我们可以将300为移动通讯用户聚成不同类别，而问题二要求我们为将要推出的两种不同性质的业务选择合适的对象，我们首先要以“企业- 客户-双赢”为出发点，确定这两种新业务的特征及适合的人群，再对分出的类分别做详细具体的分析，判断该类人群是

9、否适合作新业务的对象，适合作哪种业务的对象。对于将要推出的新通讯业务，应该要选择有消费能力的人群，且该类人群所占比例要较大。这种业务应以先进，优质，全面，快捷的服务为理念，这样才能很快占领市场，使得公司赢得更多的利润，提高公司收益和公司各阶层工作人员的积极性。对于将要推出的新优惠业务，我们不能再以盈利为主要目的，众所周知任何一个企业要想长久而又被支持的生存下去，先进的生产技术，全方位的服务以及对待客户的重要程度都是不可缺少的。因此此项业务应以实惠，快捷的服务为宗旨，尽量满足用户的需求，博得用户的好评，赢得用户的忠诚等。此种业务应选择占有一定比例的人群，但这个比例要相对适中，这样

10、公司既不用花费太多就能获得免费的宣传效果，又可以把更多的经力，物力用于经营其他盈利更多的通讯业务。通过讨论和对数据的分析，我们认为夜间用户是此项优惠业务的最佳人选。夜间用户不仅比例适中，而且选择这类人群做对象，还可充分利用夜间时段基站承受的工作压力相对较低的情况。2.32.3 问题三的分析问题三的分析随着通信用户数量的飞速增长,基站尽管已经不停的进行扩容和新建,但是往往还很难满足用户的需求.基站的合理建设对于通信公司的经济效益有着重要的意义. 如果基站的工作量过大，对硬件的需求,管理技术等就越高,这会造成通信公司的维护费用大大增加；如果基站的工作量低于正常水平，则无法最大程度

11、的使用基站衡量基站是否合理，需要看其工作量大小，我们假设每个基站的正常工作能力相同且都处于中等水平。那么基站的实际工作量比正常工作能力的工作量过多或过少都属于不合理。为此，我们可通过数据处理得出每个基站的繁忙指数，即它在10内的总工作量，然后将每个基站的繁忙指数与所有基站的平均繁忙指数做均衡比较，得出均衡偏差。最后根据每个基站的均衡偏差大小，将所有基站的工作繁忙程度划分成不同繁忙指数区间，再根据每个基站所属的繁忙指数区间来判断其是否合理。对于繁忙指数过高的基站，必定会减少基站寿命，增加公司的维护费用，应将其工作量分担一部分给周围的基站，若不能分担给周围的基站，则在其附近新增一

12、个基站；对于繁忙指数过低的基站，就会造成基站硬件资源,人力资源的浪费，此时应将基站拆除，拆除的基站的工作量应有附近其他工作量不大的基站分担。2.42.4 问题四的分析问题四的分析问题三已根据基站的工作量等情况来确定各个基站是否合理，我们可根据各基站的合理情况，给出具体的改进方案以使基站达到一个最佳的工作状态同时使通讯运营商的利益达到最大化，并向移动公司提交建议书。由于考虑到拆除和新建基站都是从基站的地理位置进行的改变，这种方案尤其会对拆迁的基站覆盖的网络区域造成极大的影响，而且拆除和新建都会给公司带来极大的经济损失。因此我们还给出了从基站的大小进行改变的方案，以使客户达到较高的

13、满意度，也可减少公司对基站改进的成本。3.3.模型的假设及符号说明模型的假设及符号说明3.1 模型的假设模型的假设（1）300 位用户能够基本反映本地区的客户的情况。（2）300 个客户的情况能够总体反应30 个基站的使用情况。（3）假设基站与基站之间相互独立,没有任何的相互干扰情况,且一次通话仅需要一个基站，不受两个通话人距离的影响。（4）假设现在所有的基站的承受能力几乎相同，且处在中等水平。（5）30 个基站均为全天工作，没有间断（6）在同一个地点的基站覆盖范围相同3.2 符号的说明符号的说明用户的主叫通话时间xa用户的被叫通话时间xc用户的主叫次数xb用户的被叫次数xd用户在

14、夜间通话的时间占他主叫总通话时间的比例xp第个基站的繁忙指数，即10天内的工作量ifi第个基站的均衡偏差ihi4.4.模型的建立和求解模型的建立和求解4.14.1 问题一的模型建立和求解问题一的模型建立和求解4.1.1 模型的建立（K K均值聚类模型）在问题一中，300 名客户即为300 个样品，则每个样品有6 个指标（分别为：客户编号，主叫时间，主叫次数，被叫时间，被叫次数，nxaxbxcxd23：00-6：00闲时主被通话比）。由于之前并没有对类似这300 个样品有比xp较清晰的分类，即事先没有相关的客户类别，因此本文认为采用聚类分析对300 个样品进行分类是合理的。同时因为样品量超

15、过可以进行系统聚类分析的容量（200），因此本文选用动态聚类分析中常用的Kmeans聚类法对300个样品进行分类。其原理和主要算法如下： 1.K-均值聚类是按照一定方法选取一批聚类中心，让样品向最近的聚类中心聚集，形成初始分类，然后按照最近距离原则不断修改不合理分类，直至合理为止的一种快速聚类方法。 2.算法：Kmeans算法采用迭代更新的方法：在每一轮迭代中，依据k个聚类中心将周围的点分别组成k个簇，而后重新计算每个簇的质心（即簇中所有点的平均值，也就是几何中心）将被作为下一轮迭代的参考点。迭代使的选取的参考点越来越接近真实的簇质心，所以目标函数越来越小，聚类效果越来越好。输

16、入：聚类个数k，以及包含 n个数据对象的数据库。输出：满足方差最小标准的k个聚类。处理流程：（1）从 n个数据对象任意选择 k 个对象作为初始聚类中心；（2）循环（3）到（4）直到每个聚类不再发生变化为止（3）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象距离，并根据最小距离重新对相应对象进行划分；（4）重新计算每个（有变化）聚类的均值（中心对象）本文中动态聚类法的基本思想是：选择一批凝聚点（即一个初始的分类），让样品按某种原则向凝聚点凝聚，对凝聚点进行不断的修改或迭代，直至分类比较合理或迭代稳定为止。类的个数K 可以事先指定，也可以在聚类过程中确定。而选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选(或随机分割)样品的方法。故模型建立的步骤如下：第一步，将上面的 5 个指标看着描述每个客户的 5 个原始特征，每个客户就可以看成是 5 维空间的点，可以用特征向量来表示。(,)xxxxxxra b c dpu r由于的原始数据的数量级和单位不相同，故

展开阅读全文

移动通信数据分析与利用问题(九组)2

最新文档