统计学:从数据到结论 第二章:数据的收集

上传人:飞****9 文档编号:131939805 上传时间:2020-05-11 格式:PDF 页数:18 大小:419.46KB
返回 下载 相关 举报
统计学:从数据到结论 第二章:数据的收集_第1页
第1页 / 共18页
统计学:从数据到结论 第二章:数据的收集_第2页
第2页 / 共18页
统计学:从数据到结论 第二章:数据的收集_第3页
第3页 / 共18页
统计学:从数据到结论 第二章:数据的收集_第4页
第4页 / 共18页
统计学:从数据到结论 第二章:数据的收集_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《统计学:从数据到结论 第二章:数据的收集》由会员分享,可在线阅读,更多相关《统计学:从数据到结论 第二章:数据的收集(18页珍藏版)》请在金锄头文库上搜索。

1、 统计学概论 二 数据的收集 李安水 杭州师范大学数学系 2016 09 29 李安水杭州师范大学数学系统计学概论 二 2016 09 291 18 1数据是怎样得到的 2个体 总体和样本 3收集数据的误差 4抽样调查时获得数据的一些常用方法 5计算机中常用的数据形式 6如何收集大数据 李安水杭州师范大学数学系统计学概论 二 2016 09 292 18 Hillary Trump Figure Hillary or Trump 李安水杭州师范大学数学系统计学概论 二 2016 09 293 18 Hillary or Trump 据今日美国网 15 日报道 哥伦比亚广播公司新闻部和 纽约时报

2、 针 对美国总统候选人开展了一项民意调查 15 日公布的最新结果显示 两位候选人希拉里和特朗普的支持率难分高下 报道称 此次电话调查于 9 月 9 日至 13 日在拟投票选民中展开 调查 结果显示 若在希拉里和特朗普之中二选其一 则民主党候选人希拉里 的支持率为 46 100 仅领先共和党候选人特朗普 2 个百分点 而此次调 查的误差在上下 3 个百分点以内 因此希拉里 2 个百分点的优势还处在 误差范围内 李安水杭州师范大学数学系统计学概论 二 2016 09 294 18 数据是怎样得到的 可以从报纸 电视 互联网 年鉴等方面看到各种数据 而且从这 些数据可以提取出对自己有用的信息 这些都

3、是间接得到的 并非 自己收集到的 数据都是二手数据 通过亲自调研得到的数据称为一手数据 调查困难 花费巨大 李安水杭州师范大学数学系统计学概论 二 2016 09 295 18 收集数据的内容 调查的主要内容 调查产品及其竞争者在市场中的状况 各类消费者对 其产品的态度 收集个地方的经济交通等信息 这些数据是企业以及相关团体生存以及发展所必需的 不是可有可无的 李安水杭州师范大学数学系统计学概论 二 2016 09 296 18 管理咨询公司 麦肯锡管理咨询公司 1926 年在美国成立 是专门为企业高层管理 人员服务的国际性公司 在全球 44 个国家和地区开设了 84 个分公 司 目前拥有 9

4、000 多名咨询人员 分别来自 78 个国家 均具有世 界著名学府的高等学位 其业务主要是提供战略方面的咨询 同时 还涉足企业金融 商业技术和运营等一系列广泛的咨询领域及管理 议题 麦肯锡中国公司被评为 中国最受尊敬企业 之一 罗兰 贝格管理咨询公司 于 1967 年在德国建立 现已成为欧洲最大 的管理咨询公司之一 隶属于德意志银行集团 在全球 26 个国家 和地区设有 35 个办事处 埃森哲管理咨询公司 全球领先的管理及信息技术咨询机构 2003 财政年度纯收入达 118 亿美元 拥有 83 000 多名员工 在全球 47 个国家和地区设有 110 多家分支机构 为各行各业的客户提供广博 精

5、深的专业服务和业务解决方案 在公司战略目标的指导下 为了 全方位地满足客户的需求 正在不断拓展业务服务网络 包括管理 咨询 信息技术 经营外包 企业联盟和风险投资 李安水杭州师范大学数学系统计学概论 二 2016 09 297 18 管理咨询公司 科尔尼管理咨询公司 成立于于 1926 年 是全球领先的高价值管理 咨询公司 在所有主要行业都拥有广泛的能力 专门知识和经验 并且提供全方位的管理咨询服务 包括战略 组织 运营 商业技 术解决方案 企业服务转型和高级猎头服务 德勤管理咨询公司 中国居领导地位的专业服务机构之一 于中国 的九个城市 北京 大连 广州 香港 澳门 南京 上海 深圳和 天津

6、均设有事务所 拥有专业人员超过 2 500 名 德勤为客户提 供一系列包括审计和咨询 财务咨询 学习进研 风险管理及税务 等服务 业务遍及全球各个角落 是世界五大会计师行之一 盖洛普公司 由美国著名的社会科学家乔治 盖洛普博士于 1930 年 创立 是全球知名的民意测验和商业调查 咨询公司 盖洛普公司 的商业研究和咨询还包括 工作环境监测 培训和咨询 员工选拔 与培养 顾客满意度和忠诚度测量与咨询 战略性品牌和营销研究 测量与咨询 李安水杭州师范大学数学系统计学概论 二 2016 09 298 18 观测数据与实验数据 观测数据 observational data 未被控制的条件下观测到的

7、实验数据 experimental data 人工干预和操作情况下收集的数据 李安水杭州师范大学数学系统计学概论 二 2016 09 299 18 杭州市民对交通规则的观点 需要调查杭州市民对交通规则的观点 对象是所有的市民 目的是希望知道市民中对该问题的不同看法各自占有的比例 显然 不可能去问所有的北京市民 而只能够问一部分 并且根据这一部分的观点来理解整个杭州市民的总体观点 李安水杭州师范大学数学系统计学概论 二 2016 09 2910 18 个体 总体 样本 在这个例子里 单个杭州市民称为调查的对象 单个市民的观点称为 这个调查问题的 个体 所有杭州市民对这个问题的观点为一个总体 也就

8、是说 总体是包含所有要研究的个体的集合 调查时问到的那部分 市民的观点 也就是部分个体 称为该总体的一个样本 是总体的一部 分 也有可能试图调查所有的人 那叫做普查 census 比如 人口普查 人口普查工作包括对人口普查资料的搜集 数据汇总 资料评价 分析研究 编辑出版等全部过程 它是当今世界各国广泛采用的搜集人口资料的一种最基 本的科学方法 是提供全国基本人口数据的主要来源 从 1949 年至今 中国 分别在 1953 年 1964 年 1982 年 1990 年 2000 年与 2010 年进行过六次全 国性人口普查 李安水杭州师范大学数学系统计学概论 二 2016 09 2911 18

9、 简单抽样 在抽取样本时 如果总体总的每一个个体都有同等机会被选到样本 中 这种抽样称为简单随机抽样 simple random sampling 这样得 到的样本称为随机样本 random sample 如果总体是一锅八宝粥 随机样本则是充分搅匀后的八宝粥中的任 意一勺 该勺中的八宝粥的成分比例应该喝整个一锅粥类似 搅拌 越充分 则样本的代表性越好 实际生活中 很多情况下采取简单办法 比如电话调查 这样得到 的样本称为方便样本 convenience sample 李安水杭州师范大学数学系统计学概论 二 2016 09 2912 18 数据误差 一勺八宝粥中的成分比例和整锅不尽相同没可能稍微

10、多些活着稍微少 些 这是很正常的 因为样本的特征不一定合总体完全一致 这种差异 不是错误 而是必然会出现的抽样误差 sampling error 在抽样调查中 一些人因为种种原因没有对调查作出反应 这种误差称 为未响应误差 nonresponse error 而另一些人因为各种原因回答时没 有真实反映他们的观点 这种称为响应误差 response error 这两类误 差应该在设计调查方案时和进行调查过程中尽量避免 李安水杭州师范大学数学系统计学概论 二 2016 09 2913 18 抽样调查 在抽样调查时 最理想的样本时随机样本 但是实践起来不方便 在大规模调查时一般不用全部随机抽样的方式

11、 而只是在局部采用 随机抽样的方法 抽样调查 sampling survey 的领域涉及如何用有效的方式得到样 本数据 最常用的方法是问卷调查 通过邮件报刊网络 电话 面 对面调查 问卷的设计 涉及到如何用词 问题的次序和问题的选择以及组合 等等 包括心理学 社会学等知识 Example 设计一个关于旅游住宿偏好的调查问卷 李安水杭州师范大学数学系统计学概论 二 2016 09 2914 18 主要的抽样方法 概率抽样方法 probability sampling method 系统抽样 分层抽 样 整群抽样 多级抽样 非概率抽样方法 nonprobability sampling metho

12、d 目的抽样 方 便抽样 定额抽样 雪球抽样 李安水杭州师范大学数学系统计学概论 二 2016 09 2915 18 计算机中常用的数据形式 数据是有一些变量 定性和定量变量 和它们的观测值组成的 对于比较复杂的问题 一个数据可能有多个数据文件组成 或者有 特别的格式 不一定都是单一的方阵形式 处理和储存数据时 容易损失一些有用的数据 所以在数据分析时 尽量使用原始数据 汇总加工过的数据的信息损失很大 一般只用 来作为最终展示 李安水杭州师范大学数学系统计学概论 二 2016 09 2916 18 如何收集大数据 跟运营商合作 他们在用户手机联移动网络时 可以获得用户的各 种数据 包括但不仅限

13、于 用户手机号 操作系统 mac 地址 地 理信息等等 至于量级别和深广度 需看合作等级 布局一切移动互联网入口的软硬件 如手机本身 MIUI 点心 OS 等深度定制版系统 无线路由器 各种 app 各种第三方 SDK 嵌 入等 此种方式获取的数据深度和广度会受限于布局的范围 这也 是为什么各互联网大佬在这个方向上层层布局 移动互联网船票 的原因之一吧 在各 app 中 移动 web 站点中嵌入 js 图片等能执行获取信息或 直接发送请求附带信息的元素 此类获取信息较为零碎 收集困难 信噪较大 布局困难 但实现相对比较容易 通过金钱购买 如各互联网大佬数据 第三方统计工具如友盟等 移动互联网广

14、告 数据公司 方便易得 但经媒体及提供商二次加 工 数据真实性无法保障 普通用户想免费获取数据报告 只供参考 可利用搜索引擎搜索 各互联网大佬 数据公司发布的市场化数据 李安水杭州师范大学数学系统计学概论 二 2016 09 2917 18 主要网站 百度数据研究中心提供行业研究报告 行业分析报告 百度 腾讯移动分析 腾讯 阿里研究 洞察数据共享新知 阿里 Google 搜寻趋势 google DCCI 互联网数据中心洞察网络 DCCI 艾瑞咨询集团首页 艾瑞 互联网数据研究中心 易观 中国互联网流量大盘 CNZZ 数据中心最好的互联网数据平台 cnzz 199IT 互联网 TMT 数据 199IT 李安水杭州师范大学数学系统计学概论 二 2016 09 2918 18

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号