数据分析概述(1)资料

上传人:F****n 文档编号:88408050 上传时间:2019-04-26 格式:PPT 页数:39 大小:1.50MB
返回 下载 相关 举报
数据分析概述(1)资料_第1页
第1页 / 共39页
数据分析概述(1)资料_第2页
第2页 / 共39页
数据分析概述(1)资料_第3页
第3页 / 共39页
数据分析概述(1)资料_第4页
第4页 / 共39页
数据分析概述(1)资料_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《数据分析概述(1)资料》由会员分享,可在线阅读,更多相关《数据分析概述(1)资料(39页珍藏版)》请在金锄头文库上搜索。

1、数 据 分 析,山东交通学院 李晓燕,先导课,大数据处理技术,并行课,数据挖掘技术,Matlab 及应用,数学模型 与实验,课程地位,专业任选课/第4学期/56学时/3.5学分,2019/4/26,内容及学时安排,数据描述性分析 10,2,3,4,5,6,报告 2+2,7,聚类分析 8,判别分析 8,主成分与典型相关分析 8,回归分析 12,MABLAB基础 8,1,2019/4/26,参考资料,MATLAB数据分析与应用:40个案例分析(第2版),谢中华著,北京航空航天大学出版社; 数据分析方法,梅长林、范金城编,高等教育出版社; 应用多元统计分析,高惠璇编,北京大学出版社; 使用统计方法与

2、SAS系统,高惠璇编,北京大学出版社; 多元统计分析(二版),何晓群编,中国人民大学出版社; 应用回归分析(二版),何晓群编,中国人民大学出版社;统计建模与R软件,薛毅编著,清华大学出版社; 应用多元统计分析(第二版),沃尔夫冈.哈德勒,利奥波德.西马著,陈诗一译.,2019/4/26,参考资料,2019/4/26,考核方式,考核: 期末成绩(闭卷考试+上机考试): 50%。 平时成绩(作业40%+考勤20%+报告40%):50%。 课程作业 (1)作业题目在网络教学平台公布,按格式要求,以电子版方式通过平台提交。 (2)每位学生应保留每次作业备份直到课程结束。 (3)雷同的作业均按0分计算。

3、,2019/4/26,大报告:要求: (1)调研,收集数据; (2)数据处理; (3)选合适的数学模型建模; (4)2-3人一组,写一篇大论文上交。做PPT汇报,10-20分钟,提问2-3个问题。论文和答辩各占60、40分。老师占70%,学生30%。,2019/4/26,目的要求: 掌握各种方法的原理和应用范围,会建立模型; 用Matlab等软件进行统计分析,熟悉输出结果,进行解释。 建议: 理论应用并重:理论重点是思路,应用重点是实践 重视练习:多做练习加深理解,实际操作熟悉软件 不缺课:内容前后呼应,缺课不利学习 “师傅领进门,修行在个人” 。,2019/4/26,数据分析概述,2 课程体

4、系及应用,1 数据分析的概念,3 统计学产生及发展,5 数据的分布,4 常用软件及应用,2019/4/26,你想过下面的问题吗?,如何根据抽样数据研究该年级学生的学习成绩? 用各科成绩总和作为综合指标,比较成绩差异; 根据各科成绩相近程度对学生进行分类(文科成绩好与理科好); 研究各科成绩间关系(物理与数学成绩,文科与理科成绩).,某年级抽6名学生5 门课期末成绩 序号 政治 语文 外语 数学 物理 1 99 94 93 100 100 2 99 88 96 99 97 3 100 98 81 96 100 4 93 88 88 99 96 5 100 91 72 96 78 6 75 73

5、88 97 89,数据分析是以各变量n次观测组成的数据矩阵为依据,依实际问题需要进行分析,数据矩阵,“数据!数据!数据!”、“我不能做无米之炊!”Sherlock福尔摩斯,概述,2019/4/26,1 数据分析概述,1.1 数据分析的概念 数据分析:以数据为依据,以统计方法为理论、 计算机及统计软件为工具,挖掘数据统计规律。 通过收集数据-整理数据-分析数据,提取 有用信息并形成结论,最大化发挥数据资料的功 能和发挥作用。,2019/4/26,数据分析研究的过程,确定目标,1 概述,2019/4/26,1.2 数据 的来源与 分类,搜集渠道 一手数据 专门调查或试验直接得到 二手数据 媒体、机

6、构发布 间接得到,收集方式 观测数据 不可控制条件下被动收集 试验数据 可控条件下 主动收集,数据维度 时间序列数据按时间顺序收集的数据,时间维度 横截面数据同一时间点不同对象的数据,个体维度,1 概述,2019/4/26,2 课程体系及应用,大部分学科都涉及数据分析工作,因此数据分析几乎可与任一学科结合起来。 如生物统计(biostatistics)、经济计量学(econometrics)、生物信息(bioinformation)和数据挖掘(Data Mining)的方法主体都是统计。,概率统计 描述性分析,参数估计 假设检验 方差分析,回归分析 典型相关分析,主成分分析 典型相关分析,聚类

7、分析 判别分析,多元统计的理论基础,多元数据的统计推断,变量间的相互关系,简化数据结构(降维问题),分类与判别(归类问题),课 程 体 系,2019/4/26,基因鉴定 种群分类,成绩预测 分类排名,诊断病例 药物研究,天气预报 灾情预防,环境监测 污染治理,矿产预测 考古断代,服装设计 型号确定,灌区分类 品种筛选,信用评价 经济决策,青少年 犯罪研究,虚词频数 鉴定作品,交通体育 军事 心理学,3.气象学-天气预报雷达图http:/ http:/ 谁会在1936选举中获胜 ?Alf London还是 F.D.R.(罗斯福)? Literary Digest (文摘)送出一千万份问卷(返回二

8、百四十万份)后,预测London会赢. 而Gallop(盖洛普)只问了5000人说 Roosevelt (罗斯福)会赢. 最后罗斯福和盖洛普都赢了.文摘倒闭了.,2019/4/26,大学排名:非常敏感的问题。不同机构得出不同结果;如何理解这些结果呢? 如何对学生成绩进行综合评价?-主成分 公司信用评价:一些公司试图得到贷款时无不良记录。如何根据它们的财务和商业资料来判断一个公司的信用等级呢? 我国东部和西部概念比较笼统。如何选择一些指标来把各省,或各市县甚至村进行分类呢? DNA鉴定、蝴蝶的分类-聚类分析 如何才能够客观得到电视节目收视率,以确定广告价格是否合理呢? 确定红楼梦前四十和后四十回

9、是否曹雪芹一人写?,2 课程体系及应用,2019/4/26,高中成绩和大学成绩是否密切相关?地震与油价上涨有关吗?-相关分析 水质污染和那些因素有关?如何确定重金属污染源?-回归 如何设计调查问卷,收集数据,调查大学生喜欢的手机品牌? 电影票房影响因素有哪些? 客户流失分析,2 课程体系及应用,2019/4/26,社会经济统计,数理统计,政治算术,国势学派,最早流派之一。创始人德国康令(H.Conring 1606-81)和阿享瓦尔(G.Achenwall 171972).采用文字记述形式,把重要事项系统整理罗列(报表).,创始人格朗特(J.Graunt 162074)和威廉.配第(W.Pet

10、ty 1623-87)。主张以数字、重量和尺度来说话,用图表形式概括数字资料.,创始人比利时凯特勒(L.A.J.Quetelet 1796-74),产生19世纪中,把概率论引进统计学,为统计数量分析奠定数理基础(数学统计学院).,代表人恩格尔(1821-96)和梅尔(1841-1925).19世纪后兴起德国,融会国势和政治算术学派观点,把政府统计和社会调查融合起来,形成社会经济统计学,影响较大.(经济管理学院).,3 统计学的发展与其他学科关系,统计学的产生:17世纪中叶,英国威廉配第政治算术问世.,2019/4/26,3 统计学的发展,历史上著名的统计学家 Jacob Bernoulli (

11、伯努利)(1654-1705) Edmond Halley (哈雷) (1656-1742) De Moivre (棣莫弗) (1667-1754) Thomas Bayes (贝叶斯) (1702-1761) Leonhard Euler (欧拉) (1707-1783) Pierre Simon Laplace (拉普拉斯) (1749-1827) Adrien Marie Legendre (勒让德) (1752-1833) Thomas Robert Malthus (马尔萨斯) (1766-1834) Friedrich Gauss (高斯) (1777-1855) Johann G

12、regor Mendel (孟德尔) (1822-1884) Karl Pearson (皮尔逊) (1857-1936) Ronald Aylmer Fisher (费希尔) (1890-1962) Jerzy Neyman(奈曼) (1894-1981) Egon Sharpe Pearson (皮尔逊) (1895-1980) William Feller (费勒)(1906-1970). C.R. 劳教授(1920-),Thomas Robert Malthus (马尔萨斯),Pierre Simon Laplace (拉普拉斯),Leonhard Euler (欧拉),Friedri

13、ch Gauss (高斯),Johann Gregor Mendel (孟德尔),2019/4/26,统计学与数学的关系,数学思维以演绎为主 每个人都要死的 苏格拉底是人 所以苏格拉底要死的 -数学的思维过程 统计各领域利用几乎所有数学; 但统计本身的数学为具体目标服务,一般不形成数学体系。,统计以归纳为主,兼有演绎 路口每过去20辆小轿车,有100辆自行车通过 平均每10个轿车载12 于是你认为小轿车和自行车在路口运载能力为24:100 -典型的统计思维过程,2019/4/26,统计学与计算机的关系,最初计算机仅仅是为科学计算而设计和建造的。 统计是大型计算机最早用户,由于统计和数据打交道,

14、没有计算机的发展统计就没有前途. 计算机和统计的发展相辅相成,2019/4/26,统计学与数据挖掘的关系,统计学 内容上 假设检验和参数估计 时间上 统计学是经典学科。 研究优势 统计学科的数据挖掘侧重于算法理论和技术应用,数据挖掘 内容上 分析数据中的结构、模式并产生特定形式的信息,是统计学的补充和扩展。 时间上 计算机和大数据催生的新学科 研究优势 计算机学科的数据挖掘侧重算法开发和软件实现,都是数据分析处理技术。依托学科背景,从各自优势角度做同一件事,2019/4/26,Excel,SPSS,R,MATLAB,SAS,数据分析功能强大,统计分析领域巨无霸。全球100强91家用SAS。需一

15、定编程技术,价高,科学计算以编程为主软件,应用广泛,有统计包。,免费开源,编程方便,可从网上下载软件包和程序。学统计用的多,主要问题没有“傻瓜化”,易操作,功能全,价格低。非统计工作者的选择,数据表格软件,画图和简单统计分析功能(需装数据分析功能),4 常用统计软件介绍,python,面向对象、解释型程序设计语言,开源软件,语法简洁,能把其他语言模块(C+)结合。应用于处理系统管理任务和Web编程。,2019/4/26,FORTRAN,GAUSS,Eviews,S-PLUS,ArcGis,地理信息处理软件,空间统计分析,Minitab、Statistica:功能强大齐全,“傻瓜化”, 不普遍。,处

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号