《从数据到结论(人民大学吴喜之教授)引言s》由会员分享,可在线阅读,更多相关《从数据到结论(人民大学吴喜之教授)引言s(51页珍藏版)》请在金锄头文库上搜索。
1、第一章 引言 统计漫谈,本章内容,一、什么是统计? 二 中国统计的独特历史环境 三 统计的内容和需要的知识 四 数据和模型的关系 五 统计 思维 六 简单的数理统计例子,一、什么是统计?,1 统计的定义,用以收集数据、分析数据和由数据得出结论的一组概念、原则和方法.,2 什么地方统计用得上呢?,任何领域.,运用统计的领域包括(1),精算 农业 动物学 人类学 考古学 审计学 晶体学 人口统计学 牙医学 生态学 经济计量学 教育学 选举预测和策划 工程 流行病学,金融 水产渔业研究 遗传学 地理学 地质学 历史研究 人类遗传学 水文学 工业 法律 语言学 文学 劳动力计划 管理科学 市场营销学
2、医学诊断,气象学 军事科学 核材料安全管理 眼科学 制药学 物理学 政治学 心理学 心理物理学 质量控制 宗教研究 社会学 调查抽样 分类学 气象改善 搏采,等等.,统计历史人物,Edmond Halley (哈雷) (1656-1742) Leonhard Euler (欧拉) (1707-1783) Thomas Robert Malthus (马尔萨斯) (1766-1834) Ronald Aylmer Fisher (费歇) (1890-1962), Moivre (棣美佛) (1667-1754) Pierre Simon Laplace (拉普拉斯) (1749-1827) Ja
3、cob Bernoulli (伯努利)(1654-1705) Thomas Bayes (贝叶斯) (1702-1761), Adrien Marie Legendre (勒让德) (1752-1833) Friedrich Gauss (高斯) (1777-1855) Johann Gregor Mendel (孟德尔) (1822-1884) Karl Pearson (皮尔森) (1857-1936) William Feller (费勒)(1906-1970). Jerzy Neyman (1894-1981) Egon Sharpe Pearson (1895-1980),3 你想过
4、下面的问题吗?,当你买了一台电视时,被告知三年内可以免费保修。你想过厂家凭什么这样说吗?说多了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢? 在同一年级中,同样统计学的课程可能由一些不同教师讲授。教师讲课方式当然不一样,考试题目也不一定相同。那么如何比较不同班级的统计学成绩呢? 大学排名是一个非常敏感的问题。不同的机构得出不同的结果;各自都说自己是客观、公正和有道理的。到底如何理解这些不同的结果呢?,任何公司都有一个信用问题。当然,在这些公司试图得到贷款时并没有不还贷的不良记录。如何根据它们的财务和商业资料来判断一个公司的信用等级呢? 我国东部和西部的概念是一个比较
5、笼统的概念。如何能够根据需要,选择一些指标来把各省,或各市县甚至村进行分类呢? 疾病传播时,如何能够通过感染者入院前后的各种因素得到一个疾病传染方式的模型呢?,如何通过大众调查来得到性别、年龄、职业、收入等各种因素与公众对某项事物(比如商品或政策)的态度的关系呢? 一个从来没有研究过红楼梦的统计学家如何根据比较写作习惯得出红楼梦从哪一段开始就不是曹雪芹的手笔了呢? 如何才能够客观地得到某个电视节目的收视率,以确定广告的价格是否合理呢?,4 你如何理解下面说法?,“明天降水概率为40” “我冬天去新加坡度假的概率为10” “该节目收视率是30%” “调查结果表明20%的观众喜欢某节目” “抽样调
6、查结果的误差为3%” “支持率的95置信区间为(25%,30%)” “某学校排名第一” “某县是贫困县”,5 你如何理解下面说法?,“某国的综合竞争力排名第43位” “该国家属于发展中国家” “该药品疗效99%” “该国贫富差距大” “这个县收入比那个县高” “该结果统计显著” “消费价格指数为120%” “他的血压已经正常了”,6 你相信统计结果吗?,数据可以有误或作假 统计方法(有意或无意)使用不当可以误导。有低级误导和高级误导。 常识判断和直觉是重要的,关于美国选举的两个例子(1),谁会在1936选举中获胜 ?Alf London还是 F.D.R.(罗斯福)? Literary Dige
7、st (文摘)送出一千万份问卷(返回二百四十万份)后,预测London 会赢. 而Gallop(盖洛普)只问了5000人说 Roosevelt (罗斯福)会赢. 最后罗斯福和盖洛普都赢了.文摘倒闭了.,谁会在1948选举中获胜 ? Thomas Dewey还是Harry Truman(杜鲁门)? Crossley, Gallop(盖洛普), Roper所有都预测Dewey 会赢(每个机构用了5000个问卷). 最后(包括盖洛普)他们都输了, 而杜鲁门赢了.,关于美国选举的两个例子(2),7 统计的一些做法,统计可以指导我们收集数据. 当拥有来自一些变量(指标)的数据或记录,但缺乏模型来描述这些
8、变量之间关系的情况下,可用统计方法建立模型. 在有了一定的模型时,统计可以确定手中数据是否令人信服地支持某种论点.模型也用来对未来进行预测. 统计直观的图表展示,可以使各个领域的专家容易理解,二 中国统计的独特 历史环境,中国统计过去分为“统计学”(文科的列宁主义统计)和“数理统计”(数学类的国际意义上的统计),国内一些学者把统计称为是经济学科的一部分,则是中国特有的与前苏联关联的国情所造成 这种经济学中的统计学的数学水平低于小学数学水平。与现代经济学所需的大量的统计和数学形成鲜明对照.,前苏联式的“统计学” 目前即使在俄国也无人问津 但其八股形式在中国仍然流行;而且存在于在官方的统一考试中,
9、2003年版的一本统计学原理说:统计学的理论基础是马列主义、毛泽东思想和邓小平理论(ISBN7-81029-073-8/C.22003-8-283232622.00) 1998年的一本理论统计学还说:统计为无产阶级政治服务(ISBN7-5046-2407-1/C.68),三 统计的内容和需要的知识,统计可能触及数学的几乎所有内容(你不一定事先知道需要什么) 但每一个统计问题或者分支可能只用数学的很小一部分 用计算机做统计计算 其他(对象)领域的知识(如生物医学、经济、行为、社会、金融等等),1 数学的重要性,真正严格的逻辑仅存在于数学之中,只能够从学习数学中获得。(哲学,法律?) 数学的逻辑服
10、务于现代理性社会的所有方面。(例如法律) 在一定的公理系统下,纯粹数学是唯一可以说得出绝对是非的世界。 为什么人们对数学家的印象是“呆”? (世界并不是完美的),2 统计和数学的区别,数学思维是以演绎为主 统计思维是以归纳为主,兼有演绎 统计各领域利用几乎所有存在的数学内容. 但统计本身的数学是为具体目标服务的,自己一般不形成数学体系,3 计算机的重要性,由于统计和数据打交道,没有计算机的发展统计就没有前途. 计算机和统计的发展相辅相成,四 数据和模型的关系,作为根据的数据(比如各地人均GDP,各种资源,自然条件等和航空旅客人数) 基于数据建立模型(回归模型) 模型用来指导未来, 预测未来(某
11、城市GDP达到某水平,是否需要建立或扩建机场等决策) 模型随时要根据新的数据来改进(新的飞机,新的消费理念,新的旅游景点等) 没有完美的模型 没有无误差的数据,五 统计 思维,类似于物理学,统计在否定中发展,统计的一个重要但又往往不易为人所理解的特点是统计从来不绝对地说“是”或者“不是”。 统计只能够说可能,而且往往提供某事可能发生的概率。,是非是人类社会的产物,大灰狼吃羊犯错误了吗? 人类社会之外的自然界有是非吗? 人类社会的“是非”是一成不变的吗?,统计只说可能性是实际世界的真实体现。真实世界充满了不确定性。 从某种意义来说,生活中唯一确定的事情就是其不确定性。,正是不确定性使得生活充满了
12、魅力和迷人的色彩。 有多少人会享受其未来每一时刻全部已经确定了的世界呢?,统计需要的是科学式的怀疑和发展的思维方式 而不是顺从、盲从和服从 也不能用固定的眼光来看自己和世界,六 简单的 数理统计例子,1 考试分数的t-检验之例,假定有两个班级进行考试。 从第一个班抽取2个观测值的一个样本,分数为(数据1 )(n=2):-100, -300分(样本均值-200分) 从第二个班抽取10个观测值的样本,分数为(数据2)(n=10):100, 100, 100, 100, 100, 100, 99, 99, 99, 99(样本均值99.6分) 哪个班平均成绩更接近100分?,考试分数的t-检验之例,H
13、0: m=100 对 Ha: m100 (假定分数可以多于100) 数据1 (n=2):-100, -300分(样本均值-200分) t = -3, df = 1, p-value = 0.1024 结论:在水平a=0.1下接受这-100分和-300分所代表的总体的均值为100的零假设(你同意吗?)。 数据2 (n=10):100,100,100,100,100,100,99,99,99,99(样本均值99.6分) t = -2.4495, df = 9, p-value = 0.0184 结论:在水平a=0.05下拒绝由这六个100分四个99分所代表的总体均值为100的零假设。,假设检验的企
14、图是否定零假设(H0). 何时能说“接受零假设”? 越学越糊涂吗? 下面再看一个例子,2 利用KS检验看数据 1、2、3、4、5 是否为正态、Poisson、均匀或指数分布(这是四个检验的零假设H0). 后面是检验结果(SPSS输出),按照某些统计教科书,看来应该接受该数据有正态总体的零假设 但是,按照某些统计教科书,看来还应该接受该数据有Poisson总体的零假设。但是,按照某些统计教科书,看来还应该接受该数据有指数分布总体的零假设。但是,按照某些统计教科书,看来还应该接受该数据有均匀分布总体的零假设。,谁的也不听。 证据不足以拒绝任何一个零假设,但绝不意味着接受任何一个(或所有的?!)。 ,到底听哪一个?,3 两个变量X和Y的相关检验(各有51个观测值),看来相关.,X和Y的回归的方差分析和对斜率b1的t-检验(还有R2值等).看来显著.,查看正态性: (PP图与残差图和Kolmogorov-Smirnov 检验: ks = 0.098, p-value = 0.5), 未发现问题.,但是实际数据的X和Y没有一点关系 (一个点除外),所有使得回归看上去“合理”的根源就是这一个点,H=X(XX)-1X的对角线元素hi,究竟是接受、拒绝、还是怀疑我们被灌输的东西?,我们肩膀上长着自己的脑袋.,谢谢大家,