文档详情

运营商行业常见算法和模型应用

m****
实名认证
店铺
DOCX
39.08KB
约9页
文档ID:496023952
运营商行业常见算法和模型应用_第1页
1/9

运营商作为少有的天然大数据企业之一,拥有海量的、多维的用 户数据,也是较早运用数据指导运营的企业,建立了较为完善的业务 指标体系和系统平台,包括经分系统、数据业务平台、集团业务平台 等,当然,也部署了大量的数据模型随着精细化运营、精准营销的 发展,运营商越来越关注模型的构建,希望通过模型精确识别客户、 匹配营销策略、个性化推荐内容等,实现基于数据的决策 1、运营商常用模型分类从在运营商从事咨询的经验来说,运营商常用的数据 模型可以分为五类:预测模型、分类模型、关联模型、交往圈模型及 业务规则模型1.1、预测模型预测模型主要用于指标的预测、趋势的预测,如新增 客户、流量等的预测,主要使用线性回归、ARIMA、时间序列等算法, 预测数值是为了对往后的趋势进行准确把握,及时调整市场和产品策 略,当然也能更好的完成 KPI 指标指标预测模型:1)新增用户占比预测;2)流量增长预测1.2、分类模型分类模型主要用于客户细分和目标客户识别,如用户 是否离网、用户是否有购买的倾向等,主要使用聚类、决策树、 RFM、逻辑回归、决策树和神经网络等算法,分类模型是使用得最为 广泛的模型,是实现精准营销的基础。

潜在商机客户识别模型:1)潜在4G终端客户识别模型,通过客户消费、通信及终端信息等,识别高换机概率客户;2)潜在 宽带客户识别模型,通过客户消费、通信及终端信息等,识别高装宽 带概率客户;3)潜在某项业务目标客户识别模型(如和视频、和阅 读等),通过客户消费、通信、终端(功能机客户显然不可能安装自 有互联网业务APP )及内容偏好等,识别潜在自有互联网业务客户;4) 潜在集团信息化产品客户识别模型,包括专线、MAS、ADC、IDC、 IMS 等;潜在预警客户识别模型:1 )离网客户预警模型,分析 客户通信、消费及预警行为(呼转异网号码、异网号码通话占比及拨 打竞争对手客户次数等),预测高离网概率客户;2)欠费预警模型; 3)中高端客户流失预警模型;4)拍照存量客户流失预警模型客户价值分类模型:1)客户星级/信用评定模型,综合 客户资费档次、网龄、消费、停机次数等,评定客户星级; 2)数据 业务髙价值客户识别模型:3)缴费RFM模型;4)集团客户价值评估;5) 渠道价值评估模型;客户业务细分模型:1)语音客户细分模型;2)流量客户细分模型;3)自有互联网业务细分模型1.3、关联模型关联模型主要用于探索业务间的关联度,从而进行相 关推荐,如购买视频会员的用户是否会购买音乐会员,主要使用相关 分析、Apriori (挖掘频繁项集)、协同过滤(推荐系统)等算法,这 里将推荐系统也看成是关联模型的一种,因为它们都是计算事物间的 相关性或距离,然后进行推荐,大体思想是一样的。

使用关联模型主 要是为了开展个性化推荐自有互联网业务关联推荐模型:1)通过分析客户上网 内容、APP使用行为,为客户推荐关联自有互联网业务;2)分析自 有互联网业务间的关联度,为已使用某种业务的客户推荐关联业务1.4、交往圈模型交往圈模型主要用于分析客户的交往圈行为,如通话交往圈、短信交往圈、其它社交业务交往圈等,主要使用社交网络、 业务规则等算法,分析用户交往圈是为了找出种子用户或识别异常用 户虚假客户识别模型:1)虚假集团客户识别模型:通过集团成员互通率、短号活跃度等判断虚假集团,剔除 0 互通率及低互 通率集团及成员; 2 )虚假校园客户识别模型:通过校园客户与同校 客户互通情况判定虚假校园客户;双卡/双机客户识别模型:双机和双卡客户本质上是一 致的,主要通过呼转、交往圈重叠等识别;离网客户去向模型:通过身份证信息、异网新增客户交 往圈重叠等识别离网客户去向(结合外呼调研);新增客户来源识别模型:通过身份证信息、异网新增客 户交往圈重叠等识别新增客户来源(结合外呼调研),包括重入网用 户识别等;种子用户识别模型:通过分析客户通话交往圈、短信交 往圈、飞信交往圈等,识别交往圈中的影响力大的客户,需综合考虑 客户的交往圈规模及交往圈对端质量。

潜在家庭 V 网客户识别:通过分析客户交往圈,识别客户的家庭成员,作为家庭 V 网的目标客户如客户通话频次前 3 的客 户,且晚间髙频通话基站相同的客户,且都不是家庭V网客户1.5、业务规则模型业务规则模型是基于多项业务规则组合的模型,其实所有模型都是挖掘出事物间存在的潜在模式,然后生成各种各样的规 则,有时候通过数学模型往往难以产生很好的效果,则会根据业务经 验生成一些规则,形成规则模型,如预测随后几月的收入,不管是使 用线性回归或者时间序列模型都难以产生很好的结果,这时往往使用 每月的收入占比并与去年同期比较来进行预测疑似养卡/养串模型:通过识别同一渠道的异常行为来判定渠道是否养卡、养串;集团预警模型:通过集团成员保有、状态不正常客户占比、ARPU下降幅度、语音下降幅度、流量下降幅度等规则综合实现 集团预警;客户偏好模型:通过客户费用占比、业务量占比及业务使用情况识别客户偏好;终端健康度评定模型:通过终端通话率、上网率、ARPU、DOU、MOU、一卡多机、一机多卡、核酬后登网率、窜货率等评定销售 终端健康度客户稳定度/忠诚度模型:分析客户消费、消费波动、是否呼转等,通过 AHP 确定各指标的权重,然后计算客户稳定度/忠 诚度得分。

产品健康度模型:分析产品客户、收入、业务量、成本支出、ARPU等,通过AHP确定各指标的权重,然后计算客产品健康 度得分2、模型构建步骤构建模型典型的步骤有SEMMA和CRISP-DM, SAS使用 SEMMA, IBM modeler使用CRISP-DM,但是总来说主要就是五个步骤: 业务理解-变量处理-模型构建-模型评估-应用部署2.1、 SEMMA 过程SAS数据建模的方法论是SEMMA,该过程主要包括五个过程:Sample,即抽样,从总数据集中选取髙质量的样本数据,一般建模都不会使用全量的数据集,而只会使用部分抽样数据集,特 别是像正负例比例悬殊时,如预测用户是否离网,往往未离网用户是 离网用户的几十倍甚至上百倍,这时候就需要从未离网用户中抽样部 分数据用以训练模型(最终正负例比例一般保持在1:1-1 : 4左右), 如果不抽样,最终结果会有较大的偏差Explore,即数据探索,分析变量间的相关关系、分布、 极值、缺失值等Modify,即数据调整,明确问题,调整样本变量Model,即选择模型,根据问题和样本数据选择合适的 模型Assess,即评估模型,根据相关检验指标评估模型,并基于业务知识进行解释。

2.2、 CRISP-DM 过程IBM modeler (原Clemen tine )采用的建模方法论是CRISP-DM (cross-industry standard process for data mining), 该方法论包括六个过程:Business Understanding,即业务理解,建模前一定要明确目标是什么,基于业务探讨可能影响的变量DataUnderstanding,即数据理解,探索数据集,分析 变量的相关关系、分布等Data Preparation,即数据准备,包括数据抽样、数据 预处理(包括缺失值、极值、量纲等)Modeling,即建模,根据数据和问题选择模型,设置参 数、建模Evaluation,即评估,评估模型,选择最合适的模型Deploymen t,即部署,将建立的模型固化系统等2.3、模型构建步骤明确建模目的r是为了做什么r要实现什么目标’对产品和运营有什 么帮助:根据业努目标r选择适合的算法进行翟模r可以尝试参个模型.最终 采用效果较好的模型;模型评1古3、模型构建的关键点诵讨业务笄验和数据探索杵分析,确齐入模專呈;进行变量预处理「包括缺失備异常值、扱值等°/通过测试集检验模型效果r根捂测试结果不断模型调优;常见的模型评怙指标有准确率、慶盖率、lift值等__当模型准确率达到满意水平后r进行部署r将模型产品化:变量竝理模型构建应用咅躍要想构建效果良好的数据模型,个人认为主要有以下五个关键点。

3.1、丰富的基础源数据拥有丰富多维的源数据是建模的基础,业务现在很多 场景下是担心变量太多,不知道怎样提取特征、选取重要的变量,但 是这种担忧的情景肯定好于没有数据的困境,那才是巧妇难为无米之 炊例如,你要评估一个用户的信用,你却完全没有用户消费相关的 数据,只有部分与信用关系不紧密的数据,那你肯定很难用这些不太 相关的数据去评估用户的信用,这时候要么是购买第三方的信用报 告,要么是交换或购买第三方数据然后建模要有多维的用户数据, 一是学会在合理的场景收集用户数据,如用户第一次使用的时候,通 过选择题收集其内容偏好数据;二是充分利用已有的数据,打通各个 系统,消除数据孤岛;三是合理利用第三方数据资源,如网络爬虫收 集网上数据、政府公开的数据、或交换或买数据等 3.2、充分的探索性分析基于业务理解去探索相关影响变量,数据挖掘一定要 基于业务并最终落脚于业务,脱离业务的数据挖掘是没有意义的,要 多从业务的角度考虑影响变量及相关衍生变量,开展广泛的数据探 索,分析自变量和自变量的关系、自变量和因变量的关系多与业务 部门沟通,多进行头脑风暴,集思广益做好特征工程,利用主成分 分析等进行降维,选择重要的影响变量。

3.3、做好数据预处理数据预处理的好坏直接影响模型结果和模型准确性 数据预处理主要需要做以下几方面工作:1)要检查数据的正确性, 不能有明显的错误,如年龄为负值;2)要做好缺失值和极值处理, 一般可以用 0或平均值替代缺失值,当然也可直接删除,但可能会将 训练集减少及较多;一般用 0.1 分位、99.9 分位替代极小值和极大 值,极值特别容易让一些统计量和模型偏离;3)标准化、离散化、 降维等处理,标准化将数据缩放在固定的空间,如 0-1 标准化、 z-score标准化,主要是为了消除量纲的影响,特别是K-means、KNN 等设计距离的算法,离散化是将连续变量变为分类变量,如不同年龄 的人划分为青年、中年、老年等,降维是为了减少入模变量,提取主 要的特征,常用因子分析、主成分分析等3.4、 目标变量界定清晰训练集的目标变量一定要界定清晰,不然会直接影响 模型准确性,特别是在有些情况下,清晰界定目标变量是很困难的, 比如怎样判定新增终端客户、新增宽带客户等例如,针对一个用户 流失,不同的业务会有不同的流失区间,比如对来说,用户连续 7 天不活跃就认为已经是流失,但对于九游游戏中心来说,可能连续 7 天不活跃是很正常的,要连续 30 天不活跃的用户才能认为是流失 的。

界定目标变量的时候一定要结合具体的业务,就用户是否流失来 说,需结合业务的使用频次和回流率来判定3.5、 基于业务解读模型结果要基于业务来解读模型结果,模型结果要遵循业务逻 辑和常识,如果偏离过大,那就可能存在过度拟合问题,需要对模型 进行调整,例如,一般用户网龄越高离网的概率越低,但是模型结果 却是用户网龄越高,离网的概率也越高,这显然违背基本的业务逻辑, 这时,我们就需要好好审视一下模型,是否存在过度拟合、是否抽样 有问题等。

下载提示
相似文档
正为您匹配相似的精品文档