第三讲:消费响应预测模型

上传人:101****457 文档编号:99347595 上传时间:2019-09-18 格式:PPT 页数:80 大小:8.59MB
返回 下载 相关 举报
第三讲:消费响应预测模型_第1页
第1页 / 共80页
第三讲:消费响应预测模型_第2页
第2页 / 共80页
第三讲:消费响应预测模型_第3页
第3页 / 共80页
第三讲:消费响应预测模型_第4页
第4页 / 共80页
第三讲:消费响应预测模型_第5页
第5页 / 共80页
点击查看更多>>
资源描述

《第三讲:消费响应预测模型》由会员分享,可在线阅读,更多相关《第三讲:消费响应预测模型(80页珍藏版)》请在金锄头文库上搜索。

1、第二讲:消费者响应预测模型,主讲:梁满发,数据挖掘工作意图,数学挖掘工作意图是揭示海量数据中的隐蔽规律,以预测目标顾客、风险控制、欺诈模式识别等工作为主要目的。,做好数据挖掘工作需要准备好三件事: ()定义好问题 谁是目标消费者? ()高质量的历史数据 几年的客户购买记录 ()一个强大的建模工具 数据挖掘软件,数据挖掘工作流程,抽样,定义问题,数据探测,数据清冼,定义数据属性,建模,模型评估,预测或计算得分,分析报告,问题背景,假如你为一个邮购公司工作。公司为了配合销售活动,希望每月发送家具和家用器品产品目录给潜在消费者,内容包括厨房用具、碗碟和餐具产品的目录。假如向全部消费者寄送费用太贵,必

2、须选择购买该类产品概率较大消费者邮寄。现在如何确定一份待邮寄名册?我们将通过建立消费倾向模型,使用数据挖掘工具来确定邮寄名单和分析活动效益情况。,假如你有一个珍贵的顾客购买记录数据。这个数据包括能显示顾客过去两年是否购买过厨房用具、碗碟和餐具等信息。数据文件名为CUSTDET1,它包括了如下49个变量和标签:,Purchase Dollars Spent Yearly Income Home Value Order Frequency Recency Married Name Prefix Age Sex Telemarket Ind. Rents Apartment Occupied 1 Y

3、ear,Domestic Product Apparel Purchase Leisure Product Luxury Items Kitchen Product Dishes Purchase Flatware Purchase Total Dining (kitch+dish+flat) Promo: 1-7 Months Promo: 8-13 Months $ Value per Mailing Country Code,Total Returns Mens Apparel Home Furniture Lamps Purchase Linens Purchase Blankets

4、Purchase Towels Purchase Outdoor Product Coats Purchase Ladies Coats Ladies Apparel,His/Her Apparel Jewelry Purchase Date 1st Order Telemarket Order Account Number State Code Race Heating Type Number of Cars Number of Kids Travel Time Education Level Job Category,分析,问题目标: ()在没有购买记录的客户名册中找出待邮寄名单; ()以

5、投资回报率或最大利润为决策目标,决定邮寄名单。,解决问题的条件: ()目标变量是什么?有足够的数据资料吗? ()有与目标关联的数据资料吗?关联性如何? ()资料的完整性、可靠性和冗余情况? ()研究路线设想? ()有什么期待?,因为对目录中产品有需求的客户是购买了kitch、dish和flat叁类产品的客户,在我们的数据记录中kitch、dish、flat和Dining变量反映了客户购买信息。但Dining变量表示kitch、dish、flat购买量和,我们分析目标是分析客户有没有购买kitch、dish、flat商品的意向,因此,我们的目标变量是“当Dining变量0,值为1,表示购买;否则

6、为0,表示不购买”。同时kitch、dish、flat和Dining变量不能作为预测目标变量自变量,因为它们是共线性的。,我们的数据是由更大的客户数据库中用重抽样法抽取的,为了有足够的样本做建模分析,使Dining变量响应值(即为1的值)在样本中的比例近54,这与现实中客户比例不合。因此,在建模中我们需要调整样本的权重,现实中响应比例是12。 抽样数据观察记录为1996个,作为统计推断和建模分析精度足够,数据没有缺损值,完整性好。没有太多的齐异数据,基本可认为数据可靠。通过数据的探索分析,可以发现有变量同目标变量存在相关性,因此,可以考虑通过建立目标变量与其它变量的回归模型、决策树模型和神精网

7、络模型来预测目标变量。,创建数据挖掘项目,调用数据挖掘功能,创建数据挖掘项目,在Dining List中选择Untitled,并输入Propensity名。,创建数据挖掘流程,项目管理窗,工具窗,工作窗,节点栏,报告窗按扭,数据挖掘的第一步就是确定样本数据,数据的角色,变量的模型中角色和数据类型。一般来说,用户数据仓库中的数据可能是海量的,如果全部用来建模分析,则运算十分耗时。只要我们才取好的抽样方式,抽取几百样本就足够保证统计推断精度,因此,第一步要抽取样本。 另外,为建模需要,我们要确定数据角色,即训练集用来拟合模型;效验集用来检验模型误差,以便减少过度拟合情况,增加模型的稳建性;测试集用

8、来得到模型参数的一致有效估计无偏估计;得分集作为待预测的数集,应该没有响应变量的值。我们要事先确定数据角色。 变量的模型角色分为目标变量、输入变量、时间变量和标识变量,在建模之前必须分配每一个变量的模型角色,但模型角色是与数据类型有关联,例如,目标变量可以是二值变量和区间变量,其它变量不行。对回归模型来说,二值变量只能用LOGISTIC模型,它是预测响应发生的概率。,定义源数据,Input Data Source节点属于Sample类数据挖掘过程。用它来确定你的源数据和指定输入变量的属性。关闭节点后,数据集的名字成为节点的名字。,选择数据库和数据集,确定抽样数,默认为2000个样本,定义数据角

9、色,全程不变。数据分为五个角色: RAW:原始数据; Training :训练数集; Validation:校验数集; Test :测试数集; Score :得分数据集。,等间隔变量(连续变量)栏,分类变量栏,注:可以改变模型角色、变量测度。,描述统计量 它可用来数据 初步清先。例如, 数据含有不合理 的值吗? 分布特性如何?,利用Insight节点能交互式的探测数据。用它能分析单变量和多变量分布,能画散点图和箱形图,能对结果浏览和研究变量相关性等工作。还能通过方差分析、回归分析和线性模型来解释模型。,数据探测,随机抽样的“随机种子数”,Dining变量值从0至28,是三种产品购买量和,我们是

10、要预测具有购买欲望的潜在消费者,因此,只要购买过的消费者都是目标消费者。在此,需要把它Dining变量转换成二值变量,即1表示购买,0表示不购买。,统计图分析,Transform Variables节点能通过旧变量产生新变量。 软件提供的变换方法: 简单变换:取对数、开方、求倒数、平方、指数化和标准化; 分割变换:分割、分位数、最优分割; 最优幂变换:最大正态化、最大相关化、目标水平均等化; 你可以在Customize window中建立自己的变换公式。,变量转换,我们产生一个新变量DINBEIN: 当Dining0,则DINBEIN1; 当Dining0,则DINBEIN0;,Transfo

11、rm Variables Toolbox,Transform Variables 使用软件提供的变换公式创建一个新变量,Create Variable 使用Create Variables window 创建自定义变换,Delete Variables 删除变换后的新变量,但不能删除原变量。,原数据变量窗口,数值键板,运算符面板,自定义变换公式,函数窗,Training 用来拟合模型的数据集. Validation 用来评估模型和模型调整的数据集。 Test 用来获得最终模型误差的无偏估计。 Score 得分数据集,可以包括目标变量,也可以不包括。,分割,分位数(Quantile)用来划分频数

12、相同的组。 分割(Bucket)为等间隔区间,每组间的样本数不一定等。 Optimal Binning for Relationship to Target:把变量分成n组,使分组后变量与目标变量相关系数最大。适合在二值变量与输入变量之间存在非线性关系的情况。,Maximize normality Power Transformation : 变换后变量最接近正态分布。 Maximize Correlation with Target Power Transformation : 变换后变量与目标变量线性相关系数最大,适合区间目标变量。 Equalize Spread with Target

13、Levels Power Transformation :变换后变量与目标变量具有方差稳定性。 选择x、log(x)、x1/4、sqrt(x)、x2、x4、ex中之一作为变换式,在建模前,我们除了要定义变量模型角色、数据类型外,还必需定义决策成本、收益信息,即决策函数。在商业智能中,分析模式都是商业决策模型。例如,消费响应预测、信用等级评估和商品关联描述等模型。 在本问题中,我们要定义DINBEIN为目标变量,是二值变量;放弃与它共线性的四个变量。依据邮送成本收益和原总体响应比例情况,定义决策矩阵和先验概率。 数据集属性节点能完成上述任务。,设置数据集属性,它能修改数据属性。例如,数据集名、描

14、述、角色。也能修改样本信息,例如,变量角色、测度水平。在变量表中可以定义目标变量框架。,预测模型需要定义唯一的目标变量和多个输入变量,模型评价需要定义目标变量的决策矩阵和样本权重,预测需要定义DI变量。,变量表,决定变量是输出还是不输出,修改变量角色,修改变量测度,本次数据挖掘工作: ()把Dining、Kitch、dish、flat四个变量角色改为Rejected,DINBEIN变量角色改为Target。 ()把DINBEIN变量测度改为binary。,定义目标变量框架,成本收益假设: ()制作、印刷和邮寄一份产品目录成本10元; ()若正确预测,即邮寄一份,顾客将来购物,每顾客平均花费90

15、元,即赢得利润80元;若预测不正确,即邮寄一份,但顾客未来购物,此时亏本10元。,编辑目标框架,评估信息,即定义决策目标函数,先验概率定义,注:由于目标变量值较少,仅在总体中占12,但为了有足够训练目标值,在数据库中对样本进行了重抽样,产生了足够多的目标值,占样本中的54左右,为此建模需要加权处理。,数据分割,Data Partition节点将输入数据分割为下列互斥数据: Training 用来拟合模型的数据集. Validation 用来评估模型和模型调整的数据集。 Test 用来获得最终模型误差的无偏估计。,为了拟合模型需要定义一个训练数据集;为了保证模型的稳健性,需要定义效验数据集评估模

16、型,决策稳建模型;为得到模型参数的一致最小无偏估计,需要定义测试数据集。它们均来自样本的随机抽样的互斥数据集。,前面过程输入的数据,只有观察数据的角色、测度等信息,不能改变。,简单随机抽样,分层抽样,自定义数集,将总体分成若干个层,指定每层样本数,在每层中进行简单随机抽样,得到的总样本,这种抽样方式称为分层抽样。,自定义数集就是指定具有标志的分割数据集变量作为分割变量,依据此变量将输入数据分为训练集、效验集、或测试集。,观察结果,缺失值处理,Replacement节点用来处理缺失值。缺失值是不能用来回归建模和神精网络建模。若用放弃所有的缺失值的样本来估计,可能会得有偏估计模型。使用适当的缺失值处理方法有利得到更准确的预测。,本例中DINBEIN没有缺失数据,可以省掉此过程。,现实调查、观察和记录难免产生缺失数据,可是缺失数据经常会影响模型的精度。例如,不回答者可能就是不赞成者,若你把他们全排除,你的模型结论可能出现严重偏差。因此,在建前应该仔细研究

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号