金勇进:统计思维与哲学概要

上传人:n**** 文档编号:93480252 上传时间:2019-07-22 格式:PPT 页数:43 大小:378KB
返回 下载 相关 举报
金勇进:统计思维与哲学概要_第1页
第1页 / 共43页
金勇进:统计思维与哲学概要_第2页
第2页 / 共43页
金勇进:统计思维与哲学概要_第3页
第3页 / 共43页
金勇进:统计思维与哲学概要_第4页
第4页 / 共43页
金勇进:统计思维与哲学概要_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《金勇进:统计思维与哲学概要》由会员分享,可在线阅读,更多相关《金勇进:统计思维与哲学概要(43页珍藏版)》请在金锄头文库上搜索。

1、统计思维与哲学 中国人民大学 金勇进 电子邮箱:,一. 统计的定义 英国大百科全书:“data science”,关于数据的科 学。 与数据有关的学科有许多。 会计与统计: 会计侧重微观,是精密的,一角一分都要对上; 统计侧重宏观,误差是统计特征。,统计和数学 数学:演绎思维由一般到具体 大前提 海尔空调质量都是好的, 小前提 我买的空调是海尔牌的, 结论 我买的空调质量是好的。 特征:前提正确,推理正确,结论必定正确。,统计:基本是归纳思维由具体到一般 形式如: 他买的空调是海尔牌,质量好; 你买的空调是海尔牌,质量好; 我买的空调是海尔牌,质量也好; 所以海尔牌空调质量都是好的。 有误差,

2、结论有风险,但结论如果正确则提供新鲜信息。,二. 统计与哲学 基本观点 偶然与必然。任何事情既是偶然又是必然,偶然包含在必然之中。 回归模型 回归模型是偶然和必然结合的体现。,量变到质变。量变到一定的“度”就转为质变。 假设检验: 用统计量 t 与 比较,作出是否拒绝原假设的决策,这里 的 就是“度”(临界值)。,个别与一般 以出生率为例,每个产妇生下的婴儿或男或女,但男婴女婴 性别比约为107:100,这是世界各国普遍的统计规律,具有一般 性。 现象与本质 美国人爱运动,表现为:,数据特征,穷人喜欢篮球 较穷的人喜欢保龄球 收入中等的人喜欢橄榄球 收入中等偏上的人喜欢棒球 高收入人喜欢网球

3、大款喜欢高尔夫球 本质:收入越高,喜欢的球越小,数据特征,统计学中充满辩证法 既是不确定的,又是可靠的; 既是模糊的,又是清晰的; 从偶然中探询必然; 从现象中探询本质(规律); 是科学,又是艺术。,三. 数据功能 泰坦尼克号相关数据(全船共2208 人),The Titanic Data,DeVeaux,Gender By Survived,Class By Survived,Age By Survived,Survival by gender,c2 Test Odd Ratio Test,按性别划分,Tree model,Data = $,案例: 1. 谁首先打长途电话? 2. 谁是商家感

4、兴趣的客户?(会员卡),Statistics Information About State 强国需知十三数 -商鞅 (390 B.C.) 我们每天产生大量的数据,用不好就变成数据垃圾,Descriptor Data Set Size in Bytes Storage Mode 很小 102 一页纸 小 104 几页纸 中等 106 几张软盘 大 108 硬盘 巨大 1010 几个硬盘 超巨大 1012 磁带存储架(Robotic Magnetic Tape Storage Silos) 海量数据 1015 数据存储室 我们面临海量数据的挑战,数据挖掘,数据 数据搜集 数据准备 数据质量,挖掘

5、 数据侦测 数据描述 数据分析,数据挖掘成为当前一个热门的话题,四. 关于抽样 样本和总体 调查的是样本,目标却是总体。 什么样的样本可以代表总体?,这是好的样本吗?,全球性调查报告:中国人均性伴侣数全球排第一 “近日,2004年杜蕾斯全球性调查报告向社会发布。引人注目的是报告 中显示中国人的平均性伴侣数最多,为193人,远远高于全球的平均 数105人;而中国人平均每年性生活的频率却只有90次,排全球倒数 第7位,低于全球平均水平103次。同时,报告还显示中国首次接受性教 育的年龄为137岁,最接近世界平均水平,然而却只有22的调查对 象认为青少年性教育由家人或监护人完成。” 资料来源:北京晨

6、报,2004年11月25日 矛盾: 为什么性伴侣最多,性频率却不高?首次接受性教育的年龄走低,却不 是由家长来完成性教育任务?,中国青年报社会调查中心通过民意中国网,对3032人进行了一项 调查,调查显示:91.2%的人认为目前青少年性教育缺失,其中 53.7%的人认为“严重缺失”,调查称青少年性教育缺失学校责 任最大 。 资料来源:中国青年报,2010年8月3日 问题在于,样本是怎样产生的?,去年中国91%民众受到尊重对待 6月末,盖洛普在北京将最近4年在中国的民调成绩单公布于众,其中最 主要的一项民调结果显示,2009年中国民众认为受到尊重对待的比例为 91%,比2008年提升了两个百分点

7、,高于87%这一全球平均比例。 资料来源:中国经济周刊 ,2010年08月03日 但是,这一“好成绩”不仅没有得到广泛的认同,反而招来不少质疑。 有媒体称,这跟现实感觉不符,有“被代表的嫌疑”。还有分析人士把 这份调查结果看作是盖洛普抛出的“橄榄枝”,是“政府公关”。,美国总统竞选预测: 民主党候选人 共和党候选人 实际 1968 汉佛莱(50%) 尼克松(50%) 尼(50.3%) 1972 尼克松(62%) 尼(61.8%) 1976 卡特(52%) 卡(53.6%) 1980 里根(52%) 里(52.6%) 1984 里根(56%) 里(53.1%) 布什(52%) 布(50.1%)

8、2000 戈尔(45%) 小布什(51%) 小布什(51.7%) 2004 克里(49%) 小布什(49%) 小布什(51.9%) 2008 奥巴马(55%) 麦凯恩(44%) 奥巴马(53%) 该预测的挑战在于: 不告诉 无法告诉,成功的案例,好样本是可以抽出的,但要花气力。 1. 概率抽样和非概率抽样 概率抽样 是严格意义上的抽样 特征:随机原则 单元入样概率已知 可以计算抽样误差 应用场合:用样本推断总体,描述性研究,非概率抽样 抽选样本时不是依据随机原则 几种有代表性的非概率抽样方式 重点调查: 有意选样: (个案研究) 方便选样:如拦截式调查,柜台调查等 自填式样本:如网上调查,非概

9、率抽样特点: 简单、方便、快捷、成本低,抽样技术要求不高,但不能用于对总体目标 量的估计,特别是不能对调查的精度进行评估。 目前问题: 把非概率抽样数据当概率抽样数据使用。,抽样框 总体的延伸,目标总体和抽样总体. 目标总体:要研究的总体 抽样总体:产生样本的总体 抽样总体的具体体现抽样框,是抽取样本,计算样本单位入样 概率的依据。 良好抽样框的标志:一对一联接 “随机”和“随便”的区别 随机要有程序实现。,3. 抽样误差与非抽样误差 抽样误差:抽样随机性带来的,无法避免 可以计算 可以控制 计算抽样误差的水平(误差计算正确)可以体现设计人员的专 业水准。,非抽样误差:什么是非抽样误差 主要体

10、现在三个方面: 抽样框误差 无回答误差(回答误差),无回答误差 更具一般性的理由 计量误差 非抽样误差特点:难以测度,成因复杂 非抽样误差的控制可以体现调查方的执行能力,完美的调查是科学和艺术的结合 科学体现在对抽样误差的把握 艺术体现在对非抽样误差的掌控 目前我国很多抽样调查项目,科学性不足, 艺术性欠缺。 误差的计算与控制是我们面临的严重挑战,4. 平衡的艺术精度与费用之关系,精度,100%,95%,60%,20%,40%,.,.,费用,5. 关于权数 用样本做统计推断是观察结果和样本单元权数的结合。 样本单元权数是入样概率的倒数,它反映了样本代表背后群体 的规模。 规范的数据处理程序是,

11、首先找到初始权数,然后结合调查情况 对初始权数进行调整,比较重要的有缺失数据的调整,样本结构 的调整。 目前问题:数据处理中不考虑权数和权数调整。,五.统计研究的特征 确定选题并提出假说,设计调查方法,搜集资料,分析和检验,解释结果或 假说。 案例一:人口密度和人的行为的关系研究 假说:人口密度过高可能产生负效应,引发犯罪和精神病 理论依据:马尔萨斯人口论,其论点有“人口过剩是贫困的主要原因”,“过剩人口会造成社会病态”, 实证依据:老鼠实验, 需研究的问题:这类现象在人类中是否存在? 难点:对人类无法使用象老鼠那样进行自相残杀的实验,组A:采用实验问卷法,具体做法是 1. 确定房间面积,招聘

12、应试人员 2. 设计调查问卷,反映受访者心态变化,如是否喜欢新增 加的陌生人,是否容忍活动区域的减小 3. 刚开始是一人一间房,以后逐次增加,每增加新人,就 回答一次问题 4. 实验结果发现,高密度人群增加了人与人之间相互厌恶 的倾向,组B:文档调查,具体做法是 1.按人口密度将分析区域划出若干块(实验区域为芝加哥市) 2.查阅“芝加哥地方公众记事录”,里面有人口密度,犯罪率,精 神病患者人数等宝贵资料 存在的问题,表象上看,人口密度和犯罪数量相关。 但人口密度和犯罪数量又与另外变量,如职业、种族、教育、 收入等要素相关,人口密度高的地方犯罪率高,但人口密度高 的地方居住者的教育水平、收入水平

13、偏低,黑人比例高,职业 差。是职业、文化程度、收入水平影响犯罪率?还是人口密度 影响犯罪率?,案例二 坏血病的原因调查 17世纪初,英国海军患坏血病 背景:海上帝国,坏血病的威胁,国防部进行研究 怀疑:维生素摄入量少 实验方法:四艘军舰离港,一艘有橙汁供应,三艘没有 结果:有橙汁供应水手身体状况良好,没有橙汁供应水手 开始成批生病 结论:缺乏维生素摄入是导致产生疾病的原因 如何完善上述实验?,问题一:患病原因可能是那三艘船上有导致 生病的物质 问题二:上有橙汁船的人可能就喜欢喝橙汁 问题三:上船之前水手身体状况一样吗?,实验法关键:分为实验组和对照组 两组其他情况相同,只有检测因素(是否喝橙汁

14、)不同。实验者 在哪个组应随机产生。 实验应采用“双盲”原则。如实验一种新药疗效,受试者不知道 自己是在服药还是服替代品,医生也不应知道受试者的分组情况。 社会调查中很难严格控制其他因素,如想知道饮料颜色对销量是 否有影响,如何设计实验就是一个挑战。,案例三. 软件陷阱 盲目使用统计软件的陷阱,抽样方法与分析方法不对应。 例:欲分析家庭有线电视与购买个人电脑是否相互独立,随机 抽取了500个家庭,调查结果如下表所示: 个人电脑 有 无 合计 有 119 188 307 无 88 105 193 合计 207 293 500,有线电视,运用传统的卡方检验,设原假设 :拥有个人电脑与拥有有线电视相互独立。 经计算 。因此没有充分理由拒绝,可 以认为家庭拥有个人电脑与拥有有线电视相互独立。,但如果是采用整群抽样,向500个家庭的夫妇同时进行 调查,得到的结果如下: 个人电脑 有 无 合计 有 238 376 614 无 176 210 386 合计 414 586 1000 这时可得检验统计量 因为p值较小,所以拒绝原假设。说明个人电脑与有线 电视有联系。,有线电视,对同一群体进行调查,却得到不同的结论,为什 么? 因为没有考虑群内单元之间的相关性。 盲目使用软件计算容易落入“软件陷阱”。,谢谢大家!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号