ch2 描述性统计2016

上传人:n**** 文档编号:51720908 上传时间:2018-08-16 格式:PPT 页数:67 大小:14.74MB
返回 下载 相关 举报
ch2 描述性统计2016_第1页
第1页 / 共67页
ch2 描述性统计2016_第2页
第2页 / 共67页
ch2 描述性统计2016_第3页
第3页 / 共67页
ch2 描述性统计2016_第4页
第4页 / 共67页
ch2 描述性统计2016_第5页
第5页 / 共67页
点击查看更多>>
资源描述

《ch2 描述性统计2016》由会员分享,可在线阅读,更多相关《ch2 描述性统计2016(67页珍藏版)》请在金锄头文库上搜索。

1、第二章第二章 描述性统计描述性统计2.1 数据的整理与展示社会、经济数据的特点:样本点数量大、指标变量多、带有动态特性数据分析的基本作为:1. 描述和分析系统特征(现状、结构、因素之间关系等)2. 分析系统的运行规律与发展趋势(动态数据)3. 对系统的未来状态进行预测(建立模型)(参考教材第二章)我们要寻求什么: 规律模式 相互关系探索数据背后的含义和故事 .2 数据的种类一、数据计量的尺度p 定性变量( Qualitative ):名义变量( Nominal Scale )顺序变量( Ordinal Scale )p 定量变量( Quantitative ): 区间变量 (Interval

2、Scale) 比率变量( Ratio Scale ) 非结构数据、异构数据:文本、声音、图象、视频例: 椅子的高度是0.5米; 桌子的高度是1米 桌子比椅子高0.5米 桌子的高度是椅子高度的 2 倍例:职工情况调查例(Interval Scale): 温度40o C比20 o C高20 o C ; 能否说40 o C是20 o C的倍?回答问题:今天的温度是0度, 明天比今天冷2倍,明天的温度 是多少度?物理上,有绝对零度273 o C 273+40= 233273+20= 253不同数据类型的运算等级 名义变量: 用于对观测值进行分类;顺序变量: 分类, 排序;区间变量: 任意两个观测值之间

3、的差值有意义;比率变量: 任意两个观测值之间的差值和比例值均有意义“比率变量”有一个有意义的零点。不同类型的数据在计算时的性质不一样()对于定量数据可以进行数学运算()顺序变量有时有计算意义好中差 321()对名义变量无法计算黄 红 绿 名义变量在一般统计计算中,有一种转换方式文本数据2012年北京市交通舆情数据:中国加拿大德国澳大 利亚日本不同国家创新群体的资助导向比较(词云2014) 通过查找国外科研基金组织的官方网站,收集了创新研究群体项目的资助 资料。文本分析内容包括:项目简介、项目定位、申请条件、评审标准。八系八系MentorMentor活动总结的词云图活动总结的词云图温暖、正能量温

4、暖、正能量总理报告主题词: 经济、发展、改革数据数据(datadata):在拉丁文里是“已知”的意思,或“事实”数据收集:历史记录、传感器、手机导航、网站点击、微博数据化把现象转变成可以制表分析的量化形式过程。当文字变成数据:当文字变成数据:文字变成数字,可以方便阅读。而文字变成数据,机器可用之分析,挖掘数据化之后的附加价值。当方位变成数据当方位变成数据: (id,: (id,时间,经纬度,轨迹)时间,经纬度,轨迹) n 根据用户居住的地点和他要去的地方的预测数据,可以为他 定制广告; n 利用大量的位置数据预测交通情况(通过高速公路上的手机 而不是汽车的数量和移动速度来进行预测) 当沟通变成

5、数据:当沟通变成数据: 关系、经历、情感 p 社交网络不但提供了寻找和维持朋友关系的场所,也将我 们日常生活的无形元素提取出来,转化成可做新用途的数据。 例如Twitter让人们轻易记录和分享他们零碎的想法(这些在以 前,都会成为遗忘在时光中的碎片),从而实现了人们的想法 、情绪和沟通的数据化。 p Facebook社交图谱,将社交关系数据化;一些信贷领域的公 司正考虑开发以Facebook 社交图谱为依据的信用评分,因为 有研究表明:个人会偿还债务的可能性与朋友会偿还债务的可 能性是正相关的,即“人与类聚,物以群分”。 p 许多公司对微博做了句法分析,使用情感分析技术,以获 得顾客反馈意见的

6、汇总或对营销活动效果进行判断; p 对冲基金公司开始分析微博文本数据,以作为股市投资的 信号;案例:当人坐着的时候,人的身形、姿势和重量分布都可以量 化和数据化。日本科学家越水重臣通过在汽车座椅下安装360 个压力传感器以测量人对椅子施加压力的方式,可以根据人体 对座位的压力差异识别出乘坐者的身份,准确率高达98%。汽 车可以识别乘坐者是否是车主,不是的话,系统就会要求司机 输入密码。这个系统还可以根据坐姿,在司机疲劳驾驶时发出 警示或者自动刹车。案例: 可穿戴设备, 健康管理行为与状态行为与状态的数据化:的数据化:神经管理学人因工程控制血糖的 饮食管理PRADA服装下架策略试衣镜上的面部表情

7、分析仪西班牙的“不准笑”剧院u 物联网:在生活的事物中植入传感器和通信模块北京时间2014年3月8日零时41分,MH370航班从吉隆 坡国际机场起飞,前往北京。1时20分,航班与地面失 去联系。马航370航班在失联之后,发动机数据显示该 航班失联后又飞行了至少5个小时。MH370装备的Trent800发动机是罗罗公司(Rolce Royce)产品。该公司为监控上千台Trent发动机工作状态 ,建设Engine Health Management系统(EHM),可以监测 发动机工作状况以便合理安排发动机使用和维修时间。罗罗公司对发动机使用与维修的监控:中国人保: 车联网交通车险理赔通过交通探头视

8、频数据联网,图像比对,智能分析,核定车险理赔数额,推荐维修厂点视频数据的创新应用视频数据的创新应用量化一切现实量化一切现实挖掘其中的社会与商业价值挖掘其中的社会与商业价值例题:某车间工人每日加工零件数量问题1. 从这些数据中得出了什么概念? (1) Max=128, Min=84加工 零件加工 零件加工 零件2.3 描述性统计方法一. 直方图 (Histogram )问题2. 怎么能大致了解加工数量的分布情况?Max = 128 (件); Min = 84 (件)R=Maxxi-Minxi = 128 - 84 = 44采用组距 h= 10,可以分为5组。(1)多数工人的日加工量集中在1001

9、10之间;(2)两头小、中间大,不很对称。问题3. 能否用图示的方法表现上述结论?抽象思维 形象思维: Histogram 直方图* Karl Pearson(1895): 关于18851886年英格兰和威尔士地区 房地产估价的数据.* * Eric Iversen Pearson解释: Histo“桅杆” (希腊语)gram “图” 80 89 99 109 119 12043%23%10%17% 7%把数字置于视觉空间中,读者的大脑就会更容易发现其中隐藏的模式,得出许多出乎意料的结果。Nathan Yau数据分布的特征1. 对称分布(Symmetry ) 例如:正态分布(对称、钟型): 身

10、高, IQ, 成年人的血压2. 偏分布 (Skewness)右偏 skewed to the right : 左偏 skewed to the left :- 收入- 死亡年龄最高学历 频数 初中 15 高中200 本科185 硕士 55 博士 70 其他 25 合计 550二. 条形图 (Bar Chart)用于定性数据问题: 条形图与直方图在应用上有什么区别?例题 : Cottrell 公司职员的教育背景 .天猫店铺动态评分模块右侧的条形图按精确的比例清晰的表达了不同评分用户的占比。从下中我们第一眼就可以强烈的感知到:5分的用户 占绝对的比例。数据可视化常用的五种方式及案例分析2014-9

11、-18 发布者: xsmile增长与结构: 基金项目申请结构动态变化各个学部申请量变化生命科学部(含医学部)受理的申请所占比例最大, 保持在42%左右。历年各个学部的申请量变化情况巧绘条形图: 金字塔图2010年北京市的肿瘤发病率、死亡率人人网用户的网购调查坐标值应该有逻辑谨慎使用像形的柱状图观测2的取值是观测1的两倍两个钱袋数量的视觉差距:2(高)2(宽)2(厚)= 8 倍2000年城八区的经济发展与生活水平选择个主要因素描述和比较北京市城八区的经济发展特点(2000)新华社北京2011年7月1日:国务院正式批复调整首都功能核心区行政区划 l 撤销北京市东城区、崇文区,设立新东城区 l 撤销

12、北京市西城区、宣武区,设立新西城区三、散点图 (Scatter Plot)发电量与工业增加值 (19952007)年度工业增加值 (亿元)发电量 (亿千瓦小时)199515446.1210070.30199618026.1110813.10199719835.1811355.53199819421.9311670.00199921564.7412393.00200025394.8013556.00200128329.3714808.02200232994.7516540.00200341990.2319105.75200454805.1022033.09200572186.9925002.60

13、200691075.7328657.262007117048.4032815.53反映2个变量之间的相关关系互联网企业用户资产与财务资产的关系四. 饼图( Pie Chart ) 适于表示数据的结构性特征某城市居民关注不同类型广告的人数分布北京晚报北京晚报2013年3月6日2013年中央公共财政基建投资安排情况奥巴马各项政策的支持率饼图2012堆叠图201220132014CH1CH4CH1CH4CH1CH4社交网络0.480.600.560.670.510.64搜索门户0.190.560.180.570.140.53电子商务0.200.260.230.280.270.33网络服务0.230.

14、300.220.300.170.24网络游戏0.140.270.130.270.180.33电子支付0.120.450.110.430.130.45财经资讯0.120.330.110.330.140.32音乐视频0.080.240.050.200.060.22社交网络、搜索门户与电子商务Top4企业的用户资产市场份额社交网络、搜索门户、电子商务Top4企业的用户资产市场份额腾讯、世纪佳缘、人人、新浪阿里巴巴、京东、上品折扣、携程百度、搜狐、网易、微软当展示使用不同类型的手机和平板用户占比时,直接用总的苹果图形为背景来划分用户比例,让用户第一眼就可以直观看到这些图是在描述苹果设备的,直观而清晰。

15、iOS手机及平板分布面积图:动态比率结构上海就业人口的三产构成(19782011)五. 线图 ( Line Chart)城乡居民家庭收入(元) (19912003)可用于描述事物的动态变化规律年份城镇居民农村居民19911700.6708.619922026.6784.019932577.4921.619943496.21221.019954283.01577.719964838.91926.119975160.32091.119985425.12162.019995854.02210.320006280.02253.420016859.62366.420027702.82475.620038472.22622.2资料来源:中国统计年鉴20042000年南、北城的经济发展轨迹灵活地应用“线图” 1、北京市经济发展不平衡分析城八区人均GDP最高与最低之差值英国理财服务公司ThinkMoney在2013年情人节前对当地男女择偶标准的调查 不少男性(27%)还认为体面的工作也是女性眼中重要的择偶标准线。但是 英国女性自己的想法却截然不同:仅仅有6%的女性表示会将对方收入当成重 要的考量因素。 工作 厨艺 收入 交谈 知识

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 公路与桥梁

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号