基于机器学习对销量预测的研究

资源描述

《基于机器学习对销量预测的研究》由会员分享，可在线阅读，更多相关《基于机器学习对销量预测的研究（43页珍藏版）》请在金锄头文库上搜索。

1、基于机器学习方法对销售预测的研究,销售预测现状与痛点,CONTENTS,01,02 销售预测四大步骤 03 销售预测基本方法 04 销售预测效果评估方法与指标 05 某电商网站销售预测案例分享,销售预测全景图供货链条送货时间、送货地点、是否包邮等物流市场营销促销方案商品减价、商品促销、组合销售等,生成和采购合理安排生成和采购的时间节点，优化库存库存财务管理财务和会计实时反馈公司财务报表，监控公司资金流动管理,销售预测的现状与痛点销售预测是完善客户需求管理、指导运营、以提高企业利润为最终目的商业问题。而预测的精确性是销售预测的核心痛点。,销售预测的痛点

2、商业环境因素众多，变化极快，难以及时把握和分析供应链整体水平低，导致货物积压严重产品定价、商品服务的单一性，导致企业竞争力小,变化模式,预测的基本思想预测是通过历史数据或其他外部因素构建模型、学习其变化“模式”，利用该“模式”对未来事物进行预测的一个过程。特点：短期预测的精度要远远高于长期预测。业务理论,数据量,假设销售预测体系框架,销售预测现状与痛点,CONTENTS,01,02 销售预测四大步骤 03 销售预测基本方法 04 销售预测效果评估方法与指标 05 某电商网站销售预测案例分享,收集数据, ,确定预测对象、预测目标和需求；预测周期：短、中和长期需求

3、与预测精度的权衡,准确性与可解释性的权衡预测目标, ,收集数据、整理指标体系数据描述与数据探索数据预处理,评价指标,算法的选择, ,模型的训练与预测过拟合问题的处理建立建模, ,RMSE、MAPE等定量评价指标 AIC、BIC等模型评价指标,需求,探索,开发,完善,预测的基本步骤,预测目标预测对象：性质、结构、业务场景等预测时间：短期预测、中期预测和长期预测等,精确性,可解释性,时间,数据量,少于5天,大于4周或1个月,短期预测,长期预测,中期预测,介于两者之间,业务目标：准确性和模型可解释性的匹配度,数据探索对数据检查和理解：比如库存量为负值、星期数大于8等对结果

4、变量的分析：包括分布、趋势性、周期性等对预测变量的分析：包括变量筛选、多重共线性、相关性,数据预处理中心化和标准化缺失值处理：邻近插补、多重插补、线性插补等数据转换：取对数、 Box-Cox变换离群点处理数据降维和特征选择： PCA、AIC/BIC等,收集数据或理解数据数据搜集目标数据（内部数据、外部数据）额外数据：天气、经纬度、节假日、CPI指数等,处理之前,处理之后,收集数据或理解数据数据预处理的缺失值部分处理缺失值的两大类方法：（1）直接删除缺失的预测变量（2）利用不同的方法对预测变量的缺失值进行插补，插补方法有：均值插补、多重插补、随机插

5、补、K近邻插补、线性插补等。注意：一般对于带有时间戳的时序变量，考虑到变量的时效性和经济因素，通常采用邻近插补法或者线性插补。,一个需要进行数据变换的原因是去除分布的偏度。一个无偏分布是大致对称的分布，这意味着随机变量落入分布均值两侧的概率大体一致。数据变换一般有两种方法：,（1）对数据做变换，如取对数、平方根或倒数（2） Box-Cox变换,收集数据或理解数据,数据预处理的数据变换部分,销售预测现状与痛点,CONTENTS,01,02 销售预测四大步骤 03 销售预测基本方法 04 销售预测效果评估方法与指标 05 某电商网站销售预测案例分享,主观预测专家法,时间序列指数平滑

6、法自回归移动模型,销售预测的基本方法,机器学习线性回归决策树随机森林 xgboost 神经网络支持向量回归,时间,销量,销量,时间,根据过去经验,专家法专家预测法：由专家根据他们的经验和判断能力对待定产品的未来销售进行判断和预测，通常有三种不同的形式：（1）个别专家意见汇集法（2）专家小组法（3）德尔菲法优点：简单、快速缺点：准确率低、受人的主观影响大,指数平滑遵循“重近轻远”原则，对全部历史数据采用逐步衰减的不等加权办法进行数据处理的一种预测方法。基本公式： +1 = + (1 )1 其中，是时间的时间值；是平滑常数，其取值范围为0, 1。优点：简单

7、、适合趋势预测、模糊预测缺点：准确率不高、需要趋势性较好的数据,指数平滑法,ARIMA模型是指将非平稳时间序列转化为平稳时间序列，然后将结果变量做自回归（AR）和自平移（MA）。,自回归移动模型（ARIMA）,训练集测试集,机器学习算法模型参数模型评估,特征筛选预测Y值真实Y值,Y X,样本数据销售量影响销售量的因素,机器学习的实现流程使用机器学习的有监督学习对进行销量变化进行建模，依据建模结果来预测未来销量值。其实现流程如下： (X,Y),（4）模型选择，如随机森林、LASSO等,模型输出,x3,x4,x2 ,x4,x1 x6,x5,x3,x1,x6,x5,特征筛

8、选特征筛选是一类预测变量变换的方法，通过这种方式，能够用更具有信息量的变量来构建模型，排除无信息量的变量的噪声干扰，提高模型稳健性。常用的特征筛选方法：（1）相关性等统计阈值过滤（2）信息增益、信息增益率、基尼系数等阈值过滤（3）向前、向后和逐步选择法，如AIC/BIC准则最小值,原理简介：, ,通过结果变量与预测变量直接建立线性关系数值型回归,优点：,模型可解释性强,线性回归模型：广义线性模型线性模型,随机分布,指数分布、泊松分布等,线性回归 = 0 + 1 1 + 2 2 + + Y为销量值，X为预测变量，N为预测变量个数，为参数激活函数激活函数：sigm

9、od, log函数等,缺点：只适用于线性规律逻辑回归,原理简介：, ,通过训练数据，形成if-then规则集合由根节点到叶节点的每一条路径构成规,则对结果变量有主要解释作用的特征会先,分裂形成规则回归树用平方误差最小化准则，节结点,为单元内数值的平均值优点：, 可拟合非线性规律，计算复杂度较低缺点：容易出现过拟合 ,决策树（回归树）妹纸评分：0,10 五官端正,是,否,身材,好,是否有钱,是,9,否,5,3,不好,7,随机森林,原理简介：是包含多个回归树的组合器输出的数值是由个别树输出的数值的平均而定优点：准确度高训练速度快容易做出并行算法可处理大量变量并评估

10、变量重要性缺点：在噪声较大的数据上会有过拟合问题,xgboost,xgboost, + 2 ,xgboost 目标函数去掉常数项：,() =, =1,1 2,+ ( ),找到那颗树，使得目标函数达到最优即可。,原理简介：, 是基于传统的GBDT上做了一些优化的开源工具包，目前有python,R,Java版。优点：, 高速准确可移植，可以自己定义假设函数可容错,神经网络, = f(X)（非线性映射）原理简介：是利用一系列非线性回归，将预测变量映射到结果变量的一种方法。优点：准确度高训练速度快并行处理能力强缺点：需要大量的参数不能观察学习的过程，对结果难以解释,支

11、持向量回归（SVR）,原理简介：是通过寻求结构化风险最小来提高学习泛化能力，实现经验风险和置信范围最小化，从而达到获得良好统计规律的目的优点：可以解决小样本情况下的机器学习问题可以解决高维、非线性问题缺点：对非线性问题没有通用解决方案，对核函数的选择非常敏感 SVR最本质与SVM类似，都有一个margin，只不过SVM的margin是把两种类型分开，而SVR的margin是指里面的数据不会对回归有任何帮助。,销售预测现状与痛点,CONTENTS,01,02 销售预测四大步骤 03 销售预测基本方法 04 销售预测效果评估方法与指标 05 某电商网站销售预测案例分享,模型评

12、估方法： k 折交叉验证法 K折交叉验证法在k-折交叉验证中，初试数据被划分成k个互不相交的子集或“折”，每个折的大小大致相等。训练和测试k次。在第i次迭代中，第i折用作测试集，其余的子集都用于训练分类法。准确率估计是k次迭代正确分类数除以初始数据中的样本总数。,数据,S1 S2, Sk,测试集,训练集,导出回归法,评估精度,模型评估方法： k 折交叉验证法 K折交叉验证法在k-折交叉验证中，初试数据被划分成k个互不相交的子集或“折”，每个折的大小大致相等。训练和测试k次。在第i次迭代中，第i折用作测试集，其余的子集都用于训练分类法。准确率估计是k次迭代正确分类数除以初始数据中

13、的样本总数。,数据,S1 S2, Sk,测试集,训练集,导出回归法,评估精度,模型评估方法： k 折交叉验证法 K折交叉验证法在k-折交叉验证中，初试数据被划分成k个互不相交的子集或“折”，每个折的大小大致相等。训练和测试k次。在第i次迭代中，第i折用作测试集，其余的子集都用于训练分类法。准确率估计是k次迭代正确分类数除以初始数据中的样本总数。,数据,S1 S2, Sk,测试集,训练集,导出回归法,评估精度,=1(),=1(), =, 2, 其中，为第i个样本的真实值，为第i个样本的预测值，n为样本量。, 有时也用 =,2,来评估回归模型的准确率，与RMSE效果相同。,模型评估指

14、标： RMSE（均方根误差） RMSE 与分类模型不同，回归模型是对连续的因变量进行预测，因此判断回归模型的准确率需要考虑的是预测值与真实值之间差异的大小。,模型评估指标： AIC & BIC AIC准则是评估统计模型的复杂度和衡量统计模型拟合优度的一种标准:, = 2ln + 2, 其中L是在相应模型下的最大似然估计值，p 是模型的变量个数。增加变量的数目提高了拟合的优良性，但可能造成过度拟合的情况。AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合（overfitting）的情况。 AIC值越小，模型越好。AIC准则是寻找可以最好地解释数据但包含最少自由参数的模型。, BIC准则是依贝叶斯理论提出的一种模型选择准则。, = 2ln + ln(), 其中L是在相应模型下的最大似然估计值，n 是样本量，p是模型的变量个数。 BIC值越小，模型越

展开阅读全文

基于机器学习对销量预测的研究

最新文档