统计思维和哲学运用

上传人:ap****ve 文档编号:121727102 上传时间:2020-02-25 格式:PPT 页数:43 大小:595.50KB
返回 下载 相关 举报
统计思维和哲学运用_第1页
第1页 / 共43页
统计思维和哲学运用_第2页
第2页 / 共43页
统计思维和哲学运用_第3页
第3页 / 共43页
统计思维和哲学运用_第4页
第4页 / 共43页
统计思维和哲学运用_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《统计思维和哲学运用》由会员分享,可在线阅读,更多相关《统计思维和哲学运用(43页珍藏版)》请在金锄头文库上搜索。

1、统计思维和哲学运用 一 统计的定义英国大百科全书 datascience 关于数据的科学 与数据有关的学科有许多 会计与统计 会计侧重微观 是精密的 一角一分都要对上 统计侧重宏观 误差是统计特征 统计和数学数学 演绎思维 由一般到具体大前提海尔空调质量都是好的 小前提我买的空调是海尔牌的 结论我买的空调质量是好的 特征 前提正确 推理正确 结论必定正确 统计 基本是归纳思维 由具体到一般形式如 他买的空调是海尔牌 质量好 你买的空调是海尔牌 质量好 我买的空调是海尔牌 质量也好 所以海尔牌空调质量都是好的 有误差 结论有风险 但结论如果正确则提供新鲜信息 二 统计与哲学基本观点偶然与必然 任

2、何事情既是偶然又是必然 偶然包含在必然之中 回归模型回归模型是偶然和必然结合的体现 量变到质变 量变到一定的 度 就转为质变 假设检验 用统计量t与比较 作出是否拒绝原假设的决策 这里的就是 度 临界值 个别与一般以出生率为例 每个产妇生下的婴儿或男或女 但男婴女婴性别比约为107 100 这是世界各国普遍的统计规律 具有一般性 现象与本质美国人爱运动 表现为 数据特征 穷人喜欢篮球较穷的人喜欢保龄球收入中等的人喜欢橄榄球收入中等偏上的人喜欢棒球高收入人喜欢网球大款喜欢高尔夫球本质 收入越高 喜欢的球越小 数据特征 统计学中充满辩证法既是不确定的 又是可靠的 既是模糊的 又是清晰的 从偶然中探

3、询必然 从现象中探询本质 规律 是科学 又是艺术 三 数据功能泰坦尼克号相关数据 全船共2208人 TheTitanicData DeVeaux GenderBySurvived ClassBySurvived AgeBySurvived Survivalbygender c2TestOddRatioTest 按性别划分 Treemodel Data 案例 1 谁首先打长途电话 2 谁是商家感兴趣的客户 会员卡 StatisticsInformationAboutState强国需知十三数 商鞅 390B C 我们每天产生大量的数据 用不好就变成数据垃圾 DescriptorDataSetSiz

4、einBytesStorageMode很小102一页纸小104几页纸中等106几张软盘大108硬盘巨大1010几个硬盘超巨大1012磁带存储架 RoboticMagneticTapeStorageSilos 海量数据1015数据存储室我们面临海量数据的挑战 数据挖掘 数据数据搜集数据准备数据质量 挖掘数据侦测数据描述数据分析 数据挖掘成为当前一个热门的话题 四 关于抽样样本和总体调查的是样本 目标却是总体 什么样的样本可以代表总体 这是好的样本吗 全球性调查报告 中国人均性伴侣数全球排第一 近日 2004年杜蕾斯全球性调查报告向社会发布 引人注目的是报告中显示中国人的平均性伴侣数最多 为19

5、3人 远远高于全球的平均数10 5人 而中国人平均每年性生活的频率却只有90次 排全球倒数第7位 低于全球平均水平103次 同时 报告还显示中国首次接受性教育的年龄为13 7岁 最接近世界平均水平 然而却只有22 的调查对象认为青少年性教育由家人或监护人完成 资料来源 北京晨报 2004年11月25日矛盾 为什么性伴侣最多 性频率却不高 首次接受性教育的年龄走低 却不是由家长来完成性教育任务 中国青年报社会调查中心通过民意中国网 对3032人进行了一项调查 调查显示 91 2 的人认为目前青少年性教育缺失 其中53 7 的人认为 严重缺失 调查称青少年性教育缺失学校责任最大 资料来源 中国青年

6、报 2010年8月3日问题在于 样本是怎样产生的 去年中国91 民众受到尊重对待6月末 盖洛普在北京将最近4年在中国的民调成绩单公布于众 其中最主要的一项民调结果显示 2009年中国民众认为受到尊重对待的比例为91 比2008年提升了两个百分点 高于87 这一全球平均比例 资料来源 中国经济周刊 2010年08月03日但是 这一 好成绩 不仅没有得到广泛的认同 反而招来不少质疑 有媒体称 这跟现实感觉不符 有 被代表的嫌疑 还有分析人士把这份调查结果看作是盖洛普抛出的 橄榄枝 是 政府公关 美国总统竞选预测 民主党候选人共和党候选人实际1968汉佛莱 50 尼克松 50 尼 50 3 1972

7、尼克松 62 尼 61 8 1976卡特 52 卡 53 6 1980里根 52 里 52 6 1984里根 56 里 53 1 布什 52 布 50 1 2000戈尔 45 小布什 51 小布什 51 7 2004克里 49 小布什 49 小布什 51 9 2008奥巴马 55 麦凯恩 44 奥巴马 53 该预测的挑战在于 不告诉无法告诉 成功的案例 好样本是可以抽出的 但要花气力 1 概率抽样和非概率抽样概率抽样是严格意义上的抽样特征 随机原则单元入样概率已知可以计算抽样误差应用场合 用样本推断总体 描述性研究 非概率抽样抽选样本时不是依据随机原则几种有代表性的非概率抽样方式重点调查 有意

8、选样 个案研究 方便选样 如拦截式调查 柜台调查等自填式样本 如网上调查 非概率抽样特点 简单 方便 快捷 成本低 抽样技术要求不高 但不能用于对总体目标量的估计 特别是不能对调查的精度进行评估 目前问题 把非概率抽样数据当概率抽样数据使用 抽样框总体的延伸 目标总体和抽样总体 目标总体 要研究的总体抽样总体 产生样本的总体抽样总体的具体体现 抽样框 是抽取样本 计算样本单位入样概率的依据 良好抽样框的标志 一对一联接 随机 和 随便 的区别随机要有程序实现 3 抽样误差与非抽样误差抽样误差 抽样随机性带来的 无法避免可以计算可以控制计算抽样误差的水平 误差计算正确 可以体现设计人员的专业水准

9、 非抽样误差 什么是非抽样误差主要体现在三个方面 抽样框误差无回答误差 回答误差 无回答误差更具一般性的理由计量误差非抽样误差特点 难以测度 成因复杂非抽样误差的控制可以体现调查方的执行能力 完美的调查是科学和艺术的结合科学体现在对抽样误差的把握艺术体现在对非抽样误差的掌控目前我国很多抽样调查项目 科学性不足 艺术性欠缺 误差的计算与控制是我们面临的严重挑战 4 平衡的艺术 精度与费用之关系 精度 100 95 60 20 40 费用 5 关于权数用样本做统计推断是观察结果和样本单元权数的结合 样本单元权数是入样概率的倒数 它反映了样本代表背后群体的规模 规范的数据处理程序是 首先找到初始权数

10、 然后结合调查情况对初始权数进行调整 比较重要的有缺失数据的调整 样本结构的调整 目前问题 数据处理中不考虑权数和权数调整 五 统计研究的特征确定选题并提出假说 设计调查方法 搜集资料 分析和检验 解释结果或假说 案例一 人口密度和人的行为的关系研究假说 人口密度过高可能产生负效应 引发犯罪和精神病理论依据 马尔萨斯人口论 其论点有 人口过剩是贫困的主要原因 过剩人口会造成社会病态 实证依据 老鼠实验 需研究的问题 这类现象在人类中是否存在 难点 对人类无法使用象老鼠那样进行自相残杀的实验 组A 采用实验问卷法 具体做法是1 确定房间面积 招聘应试人员2 设计调查问卷 反映受访者心态变化 如是

11、否喜欢新增加的陌生人 是否容忍活动区域的减小3 刚开始是一人一间房 以后逐次增加 每增加新人 就回答一次问题4 实验结果发现 高密度人群增加了人与人之间相互厌恶的倾向 组B 文档调查 具体做法是1 按人口密度将分析区域划出若干块 实验区域为芝加哥市 2 查阅 芝加哥地方公众记事录 里面有人口密度 犯罪率 精神病患者人数等宝贵资料存在的问题 表象上看 人口密度和犯罪数量相关 但人口密度和犯罪数量又与另外变量 如职业 种族 教育 收入等要素相关 人口密度高的地方犯罪率高 但人口密度高的地方居住者的教育水平 收入水平偏低 黑人比例高 职业差 是职业 文化程度 收入水平影响犯罪率 还是人口密度影响犯罪

12、率 案例二坏血病的原因调查17世纪初 英国海军患坏血病背景 海上帝国 坏血病的威胁 国防部进行研究怀疑 维生素摄入量少实验方法 四艘军舰离港 一艘有橙汁供应 三艘没有结果 有橙汁供应水手身体状况良好 没有橙汁供应水手开始成批生病结论 缺乏维生素摄入是导致产生疾病的原因如何完善上述实验 问题一 患病原因可能是那三艘船上有导致生病的物质问题二 上有橙汁船的人可能就喜欢喝橙汁问题三 上船之前水手身体状况一样吗 实验法关键 分为实验组和对照组两组其他情况相同 只有检测因素 是否喝橙汁 不同 实验者在哪个组应随机产生 实验应采用 双盲 原则 如实验一种新药疗效 受试者不知道自己是在服药还是服替代品 医生

13、也不应知道受试者的分组情况 社会调查中很难严格控制其他因素 如想知道饮料颜色对销量是否有影响 如何设计实验就是一个挑战 案例三 软件陷阱盲目使用统计软件的陷阱 抽样方法与分析方法不对应 例 欲分析家庭有线电视与购买个人电脑是否相互独立 随机抽取了500个家庭 调查结果如下表所示 个人电脑有无合计有119188307无88105193合计207293500 有线电视 运用传统的卡方检验 设原假设 拥有个人电脑与拥有有线电视相互独立 经计算 因此没有充分理由拒绝 可以认为家庭拥有个人电脑与拥有有线电视相互独立 但如果是采用整群抽样 向500个家庭的夫妇同时进行调查 得到的结果如下 个人电脑有无合计有238376614无176210386合计4145861000这时可得检验统计量因为p值较小 所以拒绝原假设 说明个人电脑与有线电视有联系 有线电视 对同一群体进行调查 却得到不同的结论 为什么 因为没有考虑群内单元之间的相关性 盲目使用软件计算容易落入 软件陷阱 谢谢大家

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号