spss在数据挖掘中的应用

上传人:aa****6 文档编号:52123820 上传时间:2018-08-18 格式:PPT 页数:57 大小:1.60MB
返回 下载 相关 举报
spss在数据挖掘中的应用_第1页
第1页 / 共57页
spss在数据挖掘中的应用_第2页
第2页 / 共57页
spss在数据挖掘中的应用_第3页
第3页 / 共57页
spss在数据挖掘中的应用_第4页
第4页 / 共57页
spss在数据挖掘中的应用_第5页
第5页 / 共57页
点击查看更多>>
资源描述

《spss在数据挖掘中的应用》由会员分享,可在线阅读,更多相关《spss在数据挖掘中的应用(57页珍藏版)》请在金锄头文库上搜索。

1、第16章 SPSS在数数据挖挖掘中的应应用16.1 实实例提出:168信息点播业务业务 数据16-1.sav是某月陕西主要地区各类业务 的流量数据, 数据16-2.sav是该月每天各类业务 的流量数据。请利用这 些资料分析以下问题 :问题 一:请分析在168信息点播服务方面陕西各地区 (西安、宝鸡 、咸阳等)总流量的差别。问题 二:请指出该月点播业务 最好三项栏 目,并分 析它们 之间的流量有无显著性差异。问题 三:请预测该 月点播业务 最好栏目的长期发展 趋势 。 16.2 实实例的SPSS软软件操作详详解问题 一操作详解问题 一要求分析在168信息点播服务方面陕西各地 区(西安、宝鸡 、咸

2、阳等)总流量的差别。由于各地区在 股票点播、指数点播等业务 上的流量数据差异较 大,并没 有统一的大小顺序关系,因此可以采用聚类分析研究陕西 各地区的总流量差异。 问题问题 一操作详详解 Step01:打开数 据文件及对话 框打开数 据文件16-1sav,选择 菜单栏 中的【Analyze(分析)】【 Classify(分类)】【Hierarchical Cluster(系统聚类)】命令,弹出【 Hierarchical Cluster Cluster Analysis(系统聚类分析)】对话 框。 Step02:选择 聚类分析变量在左侧的候选变 量列表框中选择 西安、宝鸡 、榆林等十个地区 变

3、量设定为聚类分析变量,将其添加至【Variables(变量)】列表框中。 同时点选【Variable(变量)】单选钮 ,表示选择 聚类对 象为指标变 量。 Step03:输出聚类数 目在主对话 框中单击 【Statistics】按钮,弹出相应对话 框。点选 【Single solution(单一方案)】单选钮 ,并在【Number of clusters(聚类 数)】文本框中键入数字“3”表示利用聚类分析将十个地区分为三类。其 他选项 保持系统默认,单击 【Continue】按钮返回主对话 框。问题问题 一操作详详解 Step04:输出聚类图在主对话 框中单击 【Plots】按钮,弹出【Plo

4、ts(绘制)】对 话框。勾选【Dendrogram(树状图 )】复选 框,表示输出样品的 聚类树 形图。其他选项 保持系统默认,单击 【Continue】按钮 返回主对话 框。 Step05:聚类方法选择在主对话 框中单击 【Method】按钮,弹出【Method(方法) 】对话 框。在【Transform Values(转换值 )】选项组 的【 Standardize】下拉菜单中选择 【Z scores(Z得分)】标准化方法。 其他选项 保持系统默认,单击 【Continue按】钮返回主对话 框。 Step06:单击 【OK】按钮,完成操作。问题问题 一操作详详解 问题问题 二操作详详解 S

5、tep01:计算各项业务 的日平均流量打开数 据文件16-2.sav,选择 菜单栏 中的【Analyze(分 析)】 【Compare Means(比较均值)】【Means(均值)】 命令,弹出【Means(均值)】对话 框。在左侧的候选变 量列 表框中选择 “股票点播”、“指数点播”等业务 。其他选项 保持 系统默认,单击 【OK】按钮完成操作。接着根据输出的业务 流量统计数 据表16-2.sav,可以 确定日平均流量最大的三项业务 “股票点播”、“每日运程”和“ 劲爆笑话”为点播业务 最大的业务 。问题问题 二操作详详解 问题问题 二操作详详解 Step02:业务 流量的差异性研究选择 菜

6、单栏 中的【Analyze(分析)】 【 Nonparametric Tests(非参数检验 )】【Legacy Dialogs(旧对话 框)】【K Related Samples(K个相关样 本)】命令,弹出【Tests for Sevearl Related Samples(多 个关联样 本检验 )】对话 框。在候选变 量列表框中同时选 择“股票点播”、“每日运程”和“劲爆笑话”变量作为配对检 验变 量,将其同时添加至【Test Variable(s)(检验变 量)】 列表框中。在【Test Type(检验类 型)】选项组 中勾选【 Friedman】复选 框作为配对样 本检验 的方法。最

7、后单击 主对话 框中的【OK】按钮,完成操作。 问题问题 二操作详详解问题问题 三操作详详解Step01:绘制序列图打开数 据文件16-2.sav,选择 菜单栏 中的【 Analyze(分析)】 【Forecasting(预测 )】【Sequence Charts(序列图)】命令,弹出【Sequence Charts(序列图) 】对话 框。在左侧的候选变 量列表框中选择 “股票点播”进 入右侧的【Variables(变量)】列表框。其他选项 保持系统 默认,单击 【OK】按钮完成操作。根据序列图,观测 到股票点播数据虽然平稳,但具 有明显的周期性波动特征,因此可以利用ARMA模型来描 述点播数

8、据的波动性。问题问题 三操作详详解问题问题 三操作详详解 Step02:时间 序列ARMA模型选择 菜单栏 中的【Analyze(分析)】 【Forecasting(预测 ) 】【Create Models(创建模型)】命令,弹出【Time Series Modeler(时间 序列建模器)】对话 框。在左侧的候选变 量列表框中 选择 “股票点播”进入右侧的【Dependent Variables(因变量)】列 表框,表示对其进行ARMA模型分析。选择 【Method(方法)】下拉 菜单中的【ARIMA】选项 ,表示进行ARMA模型估计。接着单击 【Criteria(条件)】按钮,弹出ARIMA

9、模型阶数设 定窗口。观察序列图发现 点播数据以7天为周期进行波动,反复进 行ARMA模型滞后阶数 的尝试 后,最终选择 AR(7)模型来描述股票 点播流量的波动性。于是在【Time Series Modeler(时间 序列建模 器)】窗口【Autogressive(p)(自回归(p)】选项组 的【 Nonseasonal(非季节性)】文本框中填入数字“7”。在【 Transformation(转换 )】选项组 中点选【Natural log(自然对数 )】 单选钮 ,再单击 【Continue】按钮,返回主对话 框。问题问题 三操作详详解 问题问题 三操作详详解问题问题 三操作详详解单击 【S

10、tatistics】按钮,勾选其中的【Parameter estimates( 参数 估计)】复选 框,表示输出模型参数 估计结 果和模型预测 值;同时取消勾选【Goodness of fit(拟合优度)】复选 框,其 他选项 保持系统默认。 单击 【Plots】选项 ,勾选其中的【Residual autocorrelation function(ACF)(残差自相关函数)】和【Residual partial autocorrelation function(PACF)(残差部分自相关函数)】复选 框,表示绘制残差的自相关图 和偏相关图 。不仅如此,勾选【 Fit values(拟合值)】

11、复选 框输出模型的拟合效果图。其他选 项保持系统默认。 最后,单击 【OK】按钮完成操作。16.3 实实例的SPSS输输出结结果详详解问题问题 一输输出结结果详详解 (1)聚类过 程表SPSS软件首先给出了进行系统聚类分析的过程表, 它动态显 示了所有地区的聚类过 程。下表显示第二地区和 第九个地区首先被合在一起,聚类系数等于2.356,它们 将在第二步中与其他类再进行合并。其他结论 可以依此类 推。问题问题 一输输出结结果详详解 Stage Cluster CombinedCoefficients Stage Cluster First AppearsNext StageCluster 1C

12、luster 2Cluster 1Cluster 2 1292.3560022266.12310637106.48900743810.45900553411.16640762520.56420973727.80153881336.82307991242.702860问题问题 一输输出结结果详详解(2)聚类分析结果表下表显示了系统聚类法的聚类结 果。可以看到聚类结 果分 为两 大类:第类:西安;第类:宝鸡 、咸阳、铜川、汉中;第类:榆林、延安、渭南、安康、商洛。其中第类地区西安是168信息各类点播业务 流量最大 的地区,第类的五个地区在所有地区中是相对168信息点播 业务 流量最低,而第类地区的

13、点播业务 流量是介于第类和 第类之间,保持中游水平。分析地区间 的点播量的差异部分是由于地区特征的差异 引起的,例如人口数量、经济发 展状况 (收入水平、手机拥有 量、物价水平等),同时也与地区业务 的宣传力度有密切联系 。分析清楚这些原因后公司就可以采取相应的措施扩大业务 。问题问题 一输输出结结果详详解Case3 Clusters 西安1宝鸡2榆林3延安3咸阳2铜川2渭南3安康3汉中2商洛3问题问题 一输输出结结果详详解(3)树形图上表已给出了相关聚类结 果,最后用树形图( Dendrogram)直观反映整个聚类过 程和结果。问题问题 一输输出结结果详详解问题问题 二输输出结结果详详解 下

14、表(部分)是利用【Means(均值)】功能计算的各项 业务 在当月的平均点播量。表中具体给出了均值、统计数 目及标准差等基本统计 量。比较均值大小可以看到,“股票 点播”、“每日运程”和“劲爆笑话”为点播量最大的业务 , 说明这些业务 深受消费者欢迎,公司应努力增加在这些业 务方面的内容更新及促销。而相反的,“商讯点播”、“区 号邮编 ”等业务 的点播量太低,因此公司可以考虑停止这 些服务功能以节约 成本。 问题问题 二输输出结结果详详解 MeanNStd. Deviation 股票点播7317.9677314634.75391 指数点播278.548431164.77658 外汇点播38.4

15、1943114.17927 到价提示11.6452318.24439 到价报警176.064531125.84486 新闻点播2040.225831204.82427 外地天气139.83873132.26153 本地天气185.12903154.01280 航班点播156.93553152.17786 列车时 刻49.06453116.98614 话费查询2139.0645313322.93176 头脑 体操124.61293169.72311问题问题 二输输出结结果详详解 (2)秩统计 表下表是多配对样 本非参数检验 的秩统计 表。可以看到 ,“股票点播”变量的平均秩最大,等于2.42,说

16、明它的 点播量最大,排名更靠后;相反的,“劲爆笑话”变量的 平均秩最小,等于1.35,说明它的点播量最小,排名更 靠前。Mean Rank 股票点播2.42劲爆笑话1.35每日运程2.23问题问题 二输输出结结果详详解 (3)Friedman统计 表Friedman检验结 果如下表所示,样本容量等于31,Chi- Square统计 量等于19.935,自由度df等于2,近似相伴概率P值 为0.000,远远 小于显著性水平0.05。所以拒绝零假设,认为这 三种业务 的点播量存在显著差异。这说 明虽然它们 位居所有业 务的前三位,但其点播量还是存在显著的差异。因此,公司需要 分开对 待它们 各自的点播业务 特点。N31Chi- Squ are19.9 3 5 df2Asymp. Sig.000问题问题 三输输出结结果详详解 (1)时间 序列折线图下图绘 制了“股票点播”业务 在该月每日点播量的时间 序列图。可以看到,股票点播量是平稳的,但具有显著的周期 性,在每个周末的点播量明显低于周内的点播量,这与 股票周 末休市有密切联系。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > 教育/培训/课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号