第三讲：消费响应预测模型

资源描述

《第三讲：消费响应预测模型》由会员分享，可在线阅读，更多相关《第三讲：消费响应预测模型（80页珍藏版）》请在金锄头文库上搜索。

1、第二讲：消费者响应预测模型,主讲：梁满发,数据挖掘工作意图,数学挖掘工作意图是揭示海量数据中的隐蔽规律，以预测目标顾客、风险控制、欺诈模式识别等工作为主要目的。,做好数据挖掘工作需要准备好三件事：（）定义好问题谁是目标消费者？（）高质量的历史数据几年的客户购买记录（）一个强大的建模工具数据挖掘软件,数据挖掘工作流程,抽样,定义问题,数据探测,数据清冼,定义数据属性,建模,模型评估,预测或计算得分,分析报告,问题背景,假如你为一个邮购公司工作。公司为了配合销售活动，希望每月发送家具和家用器品产品目录给潜在消费者，内容包括厨房用具、碗碟和餐具产品的目录。假如向全部消费者寄送费用太贵，必

2、须选择购买该类产品概率较大消费者邮寄。现在如何确定一份待邮寄名册？我们将通过建立消费倾向模型，使用数据挖掘工具来确定邮寄名单和分析活动效益情况。,假如你有一个珍贵的顾客购买记录数据。这个数据包括能显示顾客过去两年是否购买过厨房用具、碗碟和餐具等信息。数据文件名为CUSTDET1，它包括了如下49个变量和标签：,Purchase Dollars Spent Yearly Income Home Value Order Frequency Recency Married Name Prefix Age Sex Telemarket Ind. Rents Apartment Occupied 1 Y

3、ear,Domestic Product Apparel Purchase Leisure Product Luxury Items Kitchen Product Dishes Purchase Flatware Purchase Total Dining (kitch+dish+flat) Promo: 1-7 Months Promo: 8-13 Months $ Value per Mailing Country Code,Total Returns Mens Apparel Home Furniture Lamps Purchase Linens Purchase Blankets

4、Purchase Towels Purchase Outdoor Product Coats Purchase Ladies Coats Ladies Apparel,His/Her Apparel Jewelry Purchase Date 1st Order Telemarket Order Account Number State Code Race Heating Type Number of Cars Number of Kids Travel Time Education Level Job Category,分析,问题目标：（）在没有购买记录的客户名册中找出待邮寄名单；（）以

5、投资回报率或最大利润为决策目标，决定邮寄名单。,解决问题的条件：（）目标变量是什么？有足够的数据资料吗？（）有与目标关联的数据资料吗？关联性如何？（）资料的完整性、可靠性和冗余情况？（）研究路线设想？（）有什么期待？,因为对目录中产品有需求的客户是购买了kitch、dish和flat叁类产品的客户，在我们的数据记录中kitch、dish、flat和Dining变量反映了客户购买信息。但Dining变量表示kitch、dish、flat购买量和，我们分析目标是分析客户有没有购买kitch、dish、flat商品的意向，因此，我们的目标变量是“当Dining变量0，值为1，表示购买；否则

6、为0，表示不购买”。同时kitch、dish、flat和Dining变量不能作为预测目标变量自变量，因为它们是共线性的。,我们的数据是由更大的客户数据库中用重抽样法抽取的，为了有足够的样本做建模分析，使Dining变量响应值（即为1的值）在样本中的比例近54，这与现实中客户比例不合。因此，在建模中我们需要调整样本的权重，现实中响应比例是12。抽样数据观察记录为1996个，作为统计推断和建模分析精度足够，数据没有缺损值，完整性好。没有太多的齐异数据，基本可认为数据可靠。通过数据的探索分析，可以发现有变量同目标变量存在相关性，因此，可以考虑通过建立目标变量与其它变量的回归模型、决策树模型和神精网

7、络模型来预测目标变量。,创建数据挖掘项目,调用数据挖掘功能,创建数据挖掘项目,在Dining List中选择Untitled，并输入Propensity名。,创建数据挖掘流程,项目管理窗,工具窗,工作窗,节点栏,报告窗按扭,数据挖掘的第一步就是确定样本数据，数据的角色，变量的模型中角色和数据类型。一般来说，用户数据仓库中的数据可能是海量的，如果全部用来建模分析，则运算十分耗时。只要我们才取好的抽样方式，抽取几百样本就足够保证统计推断精度，因此，第一步要抽取样本。另外，为建模需要，我们要确定数据角色，即训练集用来拟合模型；效验集用来检验模型误差，以便减少过度拟合情况，增加模型的稳建性；测试集用

8、来得到模型参数的一致有效估计无偏估计；得分集作为待预测的数集，应该没有响应变量的值。我们要事先确定数据角色。变量的模型角色分为目标变量、输入变量、时间变量和标识变量，在建模之前必须分配每一个变量的模型角色，但模型角色是与数据类型有关联，例如，目标变量可以是二值变量和区间变量，其它变量不行。对回归模型来说，二值变量只能用LOGISTIC模型，它是预测响应发生的概率。,定义源数据,Input Data Source节点属于Sample类数据挖掘过程。用它来确定你的源数据和指定输入变量的属性。关闭节点后，数据集的名字成为节点的名字。,选择数据库和数据集,确定抽样数，默认为2000个样本,定义数据角

9、色，全程不变。数据分为五个角色： RAW:原始数据； Training ：训练数集； Validation：校验数集； Test ：测试数集； Score ：得分数据集。,等间隔变量（连续变量）栏,分类变量栏,注：可以改变模型角色、变量测度。,描述统计量它可用来数据初步清先。例如，数据含有不合理的值吗？分布特性如何？,利用Insight节点能交互式的探测数据。用它能分析单变量和多变量分布，能画散点图和箱形图，能对结果浏览和研究变量相关性等工作。还能通过方差分析、回归分析和线性模型来解释模型。,数据探测,随机抽样的“随机种子数”,Dining变量值从0至28，是三种产品购买量和，我们是

10、要预测具有购买欲望的潜在消费者，因此，只要购买过的消费者都是目标消费者。在此，需要把它Dining变量转换成二值变量，即1表示购买，0表示不购买。,统计图分析,Transform Variables节点能通过旧变量产生新变量。软件提供的变换方法：简单变换：取对数、开方、求倒数、平方、指数化和标准化；分割变换：分割、分位数、最优分割；最优幂变换：最大正态化、最大相关化、目标水平均等化；你可以在Customize window中建立自己的变换公式。,变量转换,我们产生一个新变量DINBEIN: 当Dining0，则DINBEIN1；当Dining0，则DINBEIN0；,Transfo

11、rm Variables Toolbox,Transform Variables 使用软件提供的变换公式创建一个新变量,Create Variable 使用Create Variables window 创建自定义变换,Delete Variables 删除变换后的新变量，但不能删除原变量。,原数据变量窗口,数值键板,运算符面板,自定义变换公式,函数窗,Training 用来拟合模型的数据集. Validation 用来评估模型和模型调整的数据集。 Test 用来获得最终模型误差的无偏估计。 Score 得分数据集，可以包括目标变量，也可以不包括。,分割,分位数（Quantile）用来划分频数

12、相同的组。分割（Bucket）为等间隔区间，每组间的样本数不一定等。 Optimal Binning for Relationship to Target：把变量分成n组，使分组后变量与目标变量相关系数最大。适合在二值变量与输入变量之间存在非线性关系的情况。,Maximize normality Power Transformation ：变换后变量最接近正态分布。 Maximize Correlation with Target Power Transformation ：变换后变量与目标变量线性相关系数最大，适合区间目标变量。 Equalize Spread with Target

13、Levels Power Transformation ：变换后变量与目标变量具有方差稳定性。选择x、log(x)、x1/4、sqrt(x)、x2、x4、ex中之一作为变换式,在建模前，我们除了要定义变量模型角色、数据类型外，还必需定义决策成本、收益信息，即决策函数。在商业智能中，分析模式都是商业决策模型。例如，消费响应预测、信用等级评估和商品关联描述等模型。在本问题中，我们要定义DINBEIN为目标变量，是二值变量；放弃与它共线性的四个变量。依据邮送成本收益和原总体响应比例情况，定义决策矩阵和先验概率。数据集属性节点能完成上述任务。,设置数据集属性,它能修改数据属性。例如，数据集名、描

14、述、角色。也能修改样本信息，例如，变量角色、测度水平。在变量表中可以定义目标变量框架。,预测模型需要定义唯一的目标变量和多个输入变量，模型评价需要定义目标变量的决策矩阵和样本权重，预测需要定义DI变量。,变量表,决定变量是输出还是不输出,修改变量角色,修改变量测度,本次数据挖掘工作：（）把Dining、Kitch、dish、flat四个变量角色改为Rejected，DINBEIN变量角色改为Target。（）把DINBEIN变量测度改为binary。,定义目标变量框架,成本收益假设：（）制作、印刷和邮寄一份产品目录成本10元；（）若正确预测，即邮寄一份，顾客将来购物，每顾客平均花费90

15、元，即赢得利润80元；若预测不正确，即邮寄一份，但顾客未来购物，此时亏本10元。,编辑目标框架,评估信息，即定义决策目标函数,先验概率定义,注：由于目标变量值较少，仅在总体中占12，但为了有足够训练目标值，在数据库中对样本进行了重抽样，产生了足够多的目标值，占样本中的54左右，为此建模需要加权处理。,数据分割,Data Partition节点将输入数据分割为下列互斥数据： Training 用来拟合模型的数据集. Validation 用来评估模型和模型调整的数据集。 Test 用来获得最终模型误差的无偏估计。,为了拟合模型需要定义一个训练数据集；为了保证模型的稳健性，需要定义效验数据集评估模

16、型，决策稳建模型；为得到模型参数的一致最小无偏估计，需要定义测试数据集。它们均来自样本的随机抽样的互斥数据集。,前面过程输入的数据,只有观察数据的角色、测度等信息，不能改变。,简单随机抽样,分层抽样,自定义数集,将总体分成若干个层，指定每层样本数，在每层中进行简单随机抽样，得到的总样本，这种抽样方式称为分层抽样。,自定义数集就是指定具有标志的分割数据集变量作为分割变量，依据此变量将输入数据分为训练集、效验集、或测试集。,观察结果,缺失值处理,Replacement节点用来处理缺失值。缺失值是不能用来回归建模和神精网络建模。若用放弃所有的缺失值的样本来估计，可能会得有偏估计模型。使用适当的缺失值处理方法有利得到更准确的预测。,本例中DINBEIN没有缺失数据，可以省掉此过程。,现实调查、观察和记录难免产生缺失数据，可是缺失数据经常会影响模型的精度。例如，不回答者可能就是不赞成者，若你把他们全排除，你的模型结论可能出现严重偏差。因此，在建前应该仔细研究

展开阅读全文