数据分析与软件应用

上传人:tian****1990 文档编号:73652115 上传时间:2019-01-25 格式:PPT 页数:21 大小:347.81KB
返回 下载 相关 举报
数据分析与软件应用_第1页
第1页 / 共21页
数据分析与软件应用_第2页
第2页 / 共21页
数据分析与软件应用_第3页
第3页 / 共21页
数据分析与软件应用_第4页
第4页 / 共21页
数据分析与软件应用_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《数据分析与软件应用》由会员分享,可在线阅读,更多相关《数据分析与软件应用(21页珍藏版)》请在金锄头文库上搜索。

1、数据分析与 软件应用,主讲教师: 王明芳 电话:13951877349 Email: QQ:834055974,2,2019/1/25,2,一、为什么要学习这门课?,个人:这一个月的钱都花到哪里去了? (谁动了我的钱?) 集体: 一个公司的利润是从哪里得来的? 某支股票的波动受到了哪些影响? 国家: 2014年青奥会能带给我们什么? 京沪高铁;7.23事件 大学生数学建模的例子: 艾滋病疗法的评价及疗效的预测,3,同时服用3种药物的300多名病人每隔几周测试的CD4和HIV的浓度。,艾滋病疗法的评价及疗效的预测 :第1列是病人编号,第2列是测试CD4的时刻(周),第3列是测得的CD4(乘以0.

2、2个/ml),第4列是测试HIV的时刻(周),第5列是测得的HIV(单位不详)。 病人编号 CD4时期 CD4数值 RNADate VLoad 23424 0 178 0 5.5 23424 4 228 4 3.9 23424 8 126 8 4.7 23424 25 171 25 4 23424 40 99 40 5 23425 0 14 0 5.3 23425 4 62 4 2.4 23425 9 110 9 3.7 23425 23 122 23 2.6 ,4,2019/1/25,4,二、课程概述,Who ?,When ?,How?,What?,Why?,数据分析与软件应用,Where?

3、,5,2019/1/25,5,课程主要内容,第一讲 概论 第二讲 spss数据文件的建立、 管理及预处理 第三讲 spss数据的基本统计分析 第四讲 假设检验 第五讲 多元统计概述 第六讲 聚类分析 第七讲 判别分析 第八讲 主成分分析 第九讲 因子分析 第十讲 典型相关分析,6,参考书籍,书籍: 实用多元统计方法 应用多元统计分析 朱建平 科学出版社 应用统计 葛新泉 社会科学出版社 基于spss的数据分析 薛薇 中国人大 若干论文 相关软件 Excel Spss,7,参考网站,http:/ 中国经济统计(统计资源) http:/www.china- 中国精算网 http:/ 统计精英网 (

4、杭州商学院,经济统计 ) http:/ 研究人员之家实验设计&数据分析 http:/ 数据处理&实验设计(包括ppt教案、软件等) http:/ 数据挖掘讨论组 http:/ 数海淘金,8,2019/1/25,8,教学目的及要求,教学目的:通过本课程的学习,学会应用数据分析的相应方法对数据进行合理的分析,通过和不同的学科知识相结合,对所考虑具体问题给出合理的推断。 考核 平时实验,作业,一次报告,期末考试。 根据具体工作安排,按时完成布置的案例作业,如果可能的话在课堂上讲述出来和大家一起讨论。 报告: 针对数据分析的方法和应用写一篇报告,必须有自己的体会和看法,用打印稿的形式上交。,9,教学目

5、的及要求,本课程将尽量围绕一个案例贯穿始终,所有分析方法都利用这个案例的数据进行分析,从而给出一个相对比较完整的数据分析的案例。 当然这个工作是由学生自己做出来的! 经过每一步的分析和讨论,应该能更好的掌握这门课的精髓。,2019/1/25,9,10,三、本学期的案例,某群体网络购买能力的分析 目标:通过对相应群体网上购物数据的调研和分析,达到了解学生购买习惯、偏好等规律。,2019/1/25,10,11,四 获取数据的初步知识,第一 数据、信息和知识的差别 第二 数据挖掘系统的总体结构 第三 数据从哪里来 第四 数据清理 第五 分工,12,第一 数据、信息和知识的差别,数据丰富与知识匮乏:数

6、据挖掘,1,2,13,第二 数据挖掘系统总体结构,14,第三 数据从哪里来,手段:网络、统计年鉴、实验、问卷调查 获取数据的原则: 及时、准确、全面、适用、经济 获取数据的步骤: 1. 分析问题 2. 确定属性变量 3. 数据的缺失处理 4. 数据属性变量的初步筛选 案例步骤:,2019/1/25,14,15,第四 数据清理(data cleaning),噪声数据:数据中存在着错误、或异常(偏离期望值)的数据 不完整数据:感兴趣的属性没有值 不一致数据:数据内涵出现不一致情况(如:作为关键字的同一部门编码出现不同值)。 清洗、集成、转换、消减,2019/1/25,15,16,数据清洗:消除数据

7、中所存在的噪声以及纠正其不一致的错误,16,2019/1/25,遗漏数据处理: 忽略该条记录 手工填补遗漏值 利用缺省值填补遗漏值 利用均值填补遗漏值 利用同类别均值填补遗漏值 利用最可能的值填补遗漏值,噪声数据处理(平滑或发现异常数据) Bin方法 聚类方法 人机结合检查方法 回归方法 不一致数据:利用与外部的关联手工加以处理,17,数据集成(data integration),将来自多个数据源的数据合并到一起构成一个完整的数据集 模式集成(匹配性) 冗余问题(相关性分析) 数据值冲突检测与消除,18,数据转换(data transformation),将一种格式的数据转换为另一种格式的数据

8、 平滑处理,消除噪声 合计处理 数据泛化处理:利用更高层次的概念取代低层次:如街道 城市或国家 规格化:将有关属性数据按比例投射到特定范围中 最大最小规格化方法 零均值规格化方法 十基数变换规格化方法 属性构造:根据已有属性构建新属性,19,数据消减(data reduction),通过删除冗余特征或聚类消除多余数据 数据立方合计 维数消减 数据压缩 离散化与概念层次生成,20,第五 分工,数据的整理和清扫 数据的初步统计(均值,方差,相关系数) 假设检验(不同类别的数值是否具有一致性),2019/1/25,20,21,思考题,数据、信息和知识的差别是什么? 数据清理包含的内容及如何清理?,Thank You !,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号