数据分析工具使用.

上传人:最**** 文档编号:118284705 上传时间:2019-12-12 格式:PPTX 页数:95 大小:2.86MB
返回 下载 相关 举报
数据分析工具使用._第1页
第1页 / 共95页
数据分析工具使用._第2页
第2页 / 共95页
数据分析工具使用._第3页
第3页 / 共95页
数据分析工具使用._第4页
第4页 / 共95页
数据分析工具使用._第5页
第5页 / 共95页
点击查看更多>>
资源描述

《数据分析工具使用.》由会员分享,可在线阅读,更多相关《数据分析工具使用.(95页珍藏版)》请在金锄头文库上搜索。

1、数据仓库与知识发现 数据分析工具使用 目录 第一部分 SPSS使用技巧 概述 数据采集 数据准备与整理 数据描述 相关、回归分析 第二部分 EXCEL使用技巧 2 3 数据分析、统计学、统计软件之间 的关系 数据分析数据分析 背景:拥有一定量的数据 产生需求:从数据中提取信息 统计学统计学 数据分析的依据 统计学:随机性与规律性 统计工具统计工具 利用统计学原理 服务于数据分析 一辆火车行驶在草原上,遇到一群白色的羊. 物理学家说,我们看到的羊群是白色的 数学家说,我们看到的羊群朝向我们这面的那部分是白色的 统计学家说,我们看到了103只羊,它们都是白色的,我推断天 下的羊都是白色的 4 什么

2、是统计从一个故事说起 J物理学家务实 J数学家严谨 J统计学家实用 数据无处不在,我们每天生活在数据的海洋中。 数据包含的信息很多,但是数据中的信息往往是分 散的,单个数据很难直接被应用起来。 5 什么是统计 统计学就是把数据转化为信息的科学。 请问A、B两公司的差距大吗? 6 常见的统计学误用(一) 请问A、B两公司的差距大吗? 7 差距为何变小了? 更改Y轴刻度单位后的效果! 请问A、B两公司的差距大吗? 常见的统计学误用(二) 谋杀案发生率上升严重吗? 请问:A、B哪个业务发展的快? 原来竟然一样快! 请问A、B两公司的差距大吗? 如何下结论? 图一:根据交通管理部门统计结果显示,多数

3、车祸发生在当汽车行驶于一般车速的时 候,只有少数车祸发生在时速150公里 以上,这是否表示开快车比较安全呢? 图二:如果统计显示在亚利桑那州有较多的人 死于肺结核,这是否表示和别的地区比 较起来,亚利桑那州的天气比较容易感 染肺结核呢? 图三:有个调查研究显示,身高比较高的儿童 拼写能力也比较好,这是不是表示从一 个人身高的大小,可以测量出他的拼写 能力? 请问A、B两公司的差距大吗? 真相是这样的 图一:绝对不是。统计上的关系通常和因果是 无关的,多数人都以一般中速开车,自 然多数车祸发生于一般车速。 图二:恰恰相反,正因为亚利桑那州的天气有 助于肺炎患者,所以有上千患者去那里 休养,自然就

4、提高了死于肺炎的平均人 数。 图三:当然不是,这个研究包括成长中的儿童 ,所以统计数据只是说明年龄较大的儿 童(他的身高当然也比较高)比年龄小 的儿童拼写能力要好。 理念 1. 统计模型的严格数学表达很复杂、繁琐,但是其背后的思想往往很 简单 2. 做为统计学的使用者,重要的是掌握统计学的思想、解决问题的步 骤和结果的解读,至于那些研究方法本身的事情,交给统计学家去做 吧 3. 复杂的方法未必是可行的方法 4. 越是简单的方法,越容易得到广泛采用,也往往给使用者带来更多 的价值 5. 要注意统计学方法的适用条件,滥用统计学会造成“严重”的负效 果 13 电梯测验 电梯测验是指:“在乘电梯的30

5、秒内清晰准确地向客户解 释清楚解决方案”。 我们手中那冗长的分析报告,能在30秒内向主管经营的副 总汇报完毕吗? 关于数据分析的几点思路 不要把大海煮沸,为了获得食盐 不能研究所有的问题,不要试图去剖析所有业务 从易到难 先搞懂容易的,再分析复杂的 步步为营 不要毕其功于一役,每个专题只解决一个问题 关注整体 每个业务都不是独立的,要适度地考虑全局 敢说:不知道 必须承认有尚未分析清楚的部分,例如客户对新套餐的态度 数据分析技术:定性分析与定量分析 质的研究: 定性研究方法 (qualitative research method) 量的研究: 定量研究方法 ( quantitative re

6、search method) 什么时候用数据分析 ? 商业问题数据问题 ! 商业问题 解决方案 把商业问题 转化为数据 问题 数据分析及 分析结果 把数据结果 转化为商业 解决方案 18 统计软件的作用与SPSS软件的特 点 统计软件的作用 帮助人们整理大量的 数据 协助人们迅速的对大 量数据进行统计分析 把分析结果以便于理 解的方式展现出来 SPSS软件的特点 易用性 企业级统计分析解决 方案 结果的权威性 19 SPSS(统计产品与服务解决方案) 模块简介 基础模块高级模块回归 时间序列 分类数据分 析 正交设计分 析 表格展示数 据 地图展示数 据 缺失值分析精确检验复杂抽样 SPSS模

7、块与分析过程 Table Map Advanced Categories Conjoint Regression Trends Exact Test Complex Sample Missing Value 读/录入数据数据整理 描述统计 数据分析 图表展示 结果编辑结果报告 Base 目录 第一部分 SPSS使用技巧 概述 数据采集 数据准备与整理 数据描述 相关、回归分析 第二部分 EXCEL使用技巧 22 收集数据的一些常用方法 数据 收集方 法 分层 抽样 整群 抽样 系统 抽样 多阶 段抽样 23 分层抽样(STRATIFIED SAMPLING) XXX XX XXXXX XXXX

8、 X 抽样 第一层 第二层 第三层 24 整群抽样(CLUSTER SAMPLING ) A B C D E F 抽出A、D 25 系统抽样(SYSTEMATIC SAMPLING) 26 多阶段抽样(MULTISTAGE SAMPLING) 12345678 910111213141516 1718192021222324 2526272829303132 3334353637383940 4142434445464748 4950515253545556 5758596061626364 总体是88的方格。 78 1516 1920 2728 3738 4546 4950 5758 第一阶

9、段抽样,得出 4个22的子单元。 第二阶段抽样,得出 4个样本。 7 20 45 58 27 样本对总体的代表性 28 收集数据时的错误和误差 数据收 集过程 误差 抽样误差 (sampling Error) 样本的特征不一定和总 体完全一样 未响应误差(Non- response Error) 抽样调查中,人们因为种种 原因没有对调查做出反映, 这种误差称为未响应误差 响应误差 (Response Error) 一些人因为各种原因回 答时并没有真实反映他 们的观点,这称为响应 误差 29 统计分析要求的数据格式 变量1变量2变量3变量m 记录1 记录2 记录3 记录n 变量: 记录: 30

10、变量类型 连续数值变量 离散数值变量 变量测量类型 Dot:点分位符型 Scientific:科学计数法型 变量类型 Date:日期型 Dollar:货币型(美元) Custom:自定义型 String:字符串型 Numeric:数值型 Comma:分位符型 字符串变量 目录 第一部分 SPSS使用技巧 概述 数据采集 数据准备与整理 数据描述 相关、回归分析 第二部分 EXCEL使用技巧 32 变量级数据整理新变量的生成 Compute Rank Cases Recode Automatic Recode 利用算术符号和函数生成新变量 (Compute): 举例: 销售总额 = 单价数量(1

11、 - 折扣) 平均成绩 = (语文成绩 + 数学成绩 + 英语成绩) 3 平均成绩 = average(各科成绩) 年龄 = 当前年份 出生年份 姓名 = 姓 + 名 33 新变量的生成COMPUTE 34 新变量的生成COMPUTE 新变量名 新变量类 型标签 表达式 待选变量列表 数学运算符号数字键盘 函数 标准按钮 条件 新变量代表名次(Rank Cases) 举例: 对按平均成绩排名,分数最高的为第一名。 相同分数的名次处理:同小、同中、同大 排序Sort Cases: 升降序 多个变量排序 35 新变量的生成RANK 36 新变量的生成RANK 待选变量列表 对a排序 按 b 分组对

12、a 排序 最小/大值为1 相同值编秩类型 相同值处理 编秩类型 按分数规定等级Recode 规则:不重且不漏 例: 90以上为A,75-89为B,60-74为C,60以下为D 例: A级人数占总人数的25%,B25%,C25%,D25% 例: A级10% B50%,C30%,D10% 37 连续变量离散化RECODE 如分数转换为等级:A/B/C/D 38 连续变量离散化RECODE(一 ) 待选变量 选中变量 条件 新旧值 旧值 新值 旧新 39 连续变量离散化RECODE(二 ) 待选变量 选中变量 条件 新旧值 新变量名和标签 旧值 新值 旧新 字符 数字字符数值 40 文件管理 合并文

13、件 增加变量 合并文件 增加记录 数据汇总 数据转置 自动发现重复 记录 41 合并文件增加变量 排除变量 新文件中包含变量 关键表 匹配变量 记录来源 42 合并文件增加记录 未匹配变量 已匹配变量 按一个分类变量汇总 如性别 按多个分类变量汇总 如性别、年龄段 对一个变量进行多个统计量的汇总 例如销售总额、平均每笔销售额 生成次数变量:成交次数 汇总生成新文件或直接显示在数据窗口 43 数据汇总 44 数据汇总 待处理变量 分类变量 汇总变量 统计数量汇总 第一种:一条 记录变成多条 记录 第二种:多条 记录变成一条 记录 第三种:3行 200列变成 200行3列 45 数据结构的转置:R

14、ESTRUCTURE 自动发现重复记录 在大型数据管理工作,或者 复杂的数据变换工作中,重 复记录的发现是经常需要完 成的任务 各大统计软件中这一功能基 本上都是通过编程完成,但 操作较麻烦,不利于普通用 户使用 SPSS 为之专门提供了简单的 操作界面,可以迅速发现个 别变量值重复,或者所有数 值完全重复的记录 待处理变量 47 数据整理数据记录选择( SELECT CASES) 选择记录选项 过滤选项删除选项 写条件式 函数 随机抽样 段选择 观测值 48 数据整理:数据权重(WEIGHT CASES) 权重变量 待选变量 不予加权 目录 第一部分 SPSS使用技巧 概述 数据采集 数据准备与整理 数据描述 相关、回归分析 第二部分 EXCEL使用技巧 49 尽量精确、直观而全面的对所获得的样本进行呈现 统计图:直观,但精确度稍差 常规统计图:主要的使用部分 交互式统计图:功能非常强大,但操作也较复杂 统计地图:将数据与地图相结合 统计报表:能尽量详细,精确,但不够直观

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号