从数据到结论(人民大学吴喜之教授)03统计推断S.ppt

上传人:F****n 文档编号:115170871 上传时间:2019-11-12 格式:PPT 页数:56 大小:276.50KB
返回 下载 相关 举报
从数据到结论(人民大学吴喜之教授)03统计推断S.ppt_第1页
第1页 / 共56页
从数据到结论(人民大学吴喜之教授)03统计推断S.ppt_第2页
第2页 / 共56页
从数据到结论(人民大学吴喜之教授)03统计推断S.ppt_第3页
第3页 / 共56页
从数据到结论(人民大学吴喜之教授)03统计推断S.ppt_第4页
第4页 / 共56页
从数据到结论(人民大学吴喜之教授)03统计推断S.ppt_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《从数据到结论(人民大学吴喜之教授)03统计推断S.ppt》由会员分享,可在线阅读,更多相关《从数据到结论(人民大学吴喜之教授)03统计推断S.ppt(56页珍藏版)》请在金锄头文库上搜索。

1、道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 统计推断 从数据得到对现实世界的结 论的过程 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 估计 总体代表我们所关心的那部分世界。 而在利用样本中的信息来对总体进行推断 之前人们往往对代表总体的变量假定了分 布族。(描述数据时不用假定) 比如假定人们的身高属于正态分布族;在 抽样调查时假定了二项分布族等等(这些假 定可能有风险!)。 这些模型基

2、本上是根据“经验”来假定的 ,仅仅是对现实世界的一个近似。 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 估计 在假定了总体分布族之后,进一步 对总体的认识就是要在这个分布族 中选择一个适合于我们问题的成员 由于分布族成员是由参数确定的, 如果参数能够估计,对总体的具体 分布就知道得差不多了。 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 估计量是用来估计的统计量 我们知道,统计量是样本的

3、不包含 未知参数的函数。样本均值、样本 标准差都是统计量。 由于样本是随机的,统计量也是随 机变量。 用于估计总体参数的统计量称为估 计量;样本均值和标准差都是总体 均值和标准差的常用估计量。 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 点估计和区间估计 点估计(point estimation)就是用估计量的实 现值来近似相应的总体参数。 区间估计(interval estimation) 是包括估计 量在内(有时是以估计量为中心)的一个 区间;被认为很可能包含总体参数。 点估计给出一个

4、数字,用起来很方便;而 区间估计给出一个区间,说起来留有余地 ;不象点估计那么绝对。 无偏估计(大样本性质) 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 区间估计 注意置信区间的论述是由区间和置信 度两部分组成。 置信区间是对参数给出的一个范围 置信度为其可信程度(大样本意义) 有些新闻媒体报道一些调查结果只给 出百分比和误差(即置信区间),比 如 “收视率为53%3%”; 不给出置信度 ,也不给出被调查的人数 这是不负责的表现。 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与

5、自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 区间估计 降低置信度可以使置信区间变窄(显 得“精确”),有误导读者之嫌。 如果给出被调查的人数,则内行可以 由此推算出置信度,反之亦然。 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 一个描述性例子 一个有10000个人回答的调查显示,同 意某种观点的人的比例为70%(有 7000人同意),可以算出总体中同意 该观点的比例的95%置信区间为( 0.691,0.709); 另一个调查声称有70%的比例

6、反对该 种观点,还说总体中反对该观点的置 信区间也是(0.691,0.709)。 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 一个描述性例子 实际上,第二个调查隐瞒了置信 度(等价于隐瞒了样本量)。 如果第二个调查仅仅调查了50个 人,有35个人反对该观点。根据 后面的公式可以算出,第二个调 查的置信区间的置信度仅有11% 。 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 区间估计的意义

7、 置信度的概念大量重复抽样时的一 个渐近概念。 类似于“我们目前得到的置信度为 95%的置信区间(比如上面的 75%3%)以概率0.95覆盖真正的 比例p”的说法是错误的。 实际上应该说“重复类似的抽样所 得到的大量区间中有大约95%的覆 盖真实比例(其值可能永远未知)。 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 区间估计的意义 这里的区间(72%,78%)是固定 的,而总体比例p也是固定的值。 因此只有两种可能:或者该区间包 含总体比例,或者不包含;这当中 没有任何概率可言。 至于区间

8、(72%,78%)是否覆盖 真实比例,除非一个不漏地调查所 有的人,否则永远也无法知道。 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 均值m的区间估计 (正态分布) 总体标准差s已知 总体标准差s未知 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 区间估计的例子(1) 例5.1 (数据:noodle.txt, noodle.sav, noodle.sas7bdat)某 厂家生产的挂面包装

9、上写明“净含量450克”。在用天平称 量了商场中的48包挂面之后,得到样本量为48的关于挂面 重量(单位:克)的一个样本(我们假定,挂面重量所代 表的总体分布服从正态分布。 ): 449.5 461.1 457.5 444.7 456.1 454.7 441.5 446.0 454.9 446.2 457.3 446.1 456.7 451.4 452.5 452.4 442.0 452.1 452.8 442.9 449.8 452.4 458.5 442.7 447.9 450.5 448.3 451.4 449.7 446.7 441.7 455.6 442.9 451.3 452.9

10、457.2 448.5 444.5 443.1 442.3 439.6 446.5 447.2 445.8 449.4 441.6 444.7 441.4 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 w=scan(“D:/booktj1/data/noodle.txt“);hist(w,10) summary(w) Min. 1st Qu. Median Mean 3rd Qu. Max. 439.6 444.6 448.9 449.0 452.6 461.1 道德是一定社会、一定阶级调节

11、人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 SPSS 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 不同样本量和不同置信度的置信区间的长短和覆盖状况 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 例5.2 (数据:height2.txt, height2.sav, height21.sav, height22.s

12、as7bdat)这是两个地区 大学生的高度数据;这里,我们假定身高服从 正态分布。在height2.sav数据中这两个地区学生 的高度分别用变量x1和x2表示。而在 height21.sav数据中,它们为一个变量height,但 用另一个变量group来标明它们属于哪个地区。 区间估计的例子(2) 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 (a)我们想要分别得到这两个总体均值和标准 差的点估计(即样本均值和样本标准差)和各 自总体均值的95%置信区间。利用height2.sav, SPS

13、S得到:作为两个总体均值估计量的样本均 值分别为170.56和165.60,而样本标准差分别为 6.97857和7.55659;还得到均值的置信区间分别 是(168.5767, 172.5433)及(163.4524, 167.7476)。 (计算机输出很容易明白,这里不显示。) (b)求两个均值差m1-m2的点估计和95%置信区间 。根据数据height2.sav,利用软件很容易得到下 面结果 区间估计的例子(2) 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 输出表的头两列是检验(见下面

14、一章的检验)是否方差相等,如果 Sig下面的数目(下一章的p值概念)较大(比如大于0.05)则没有 证据认为这两个数据总体的方差不等,则看表的第一行结果,否则 认为方差不等,则看表的第二行结果。这里Sig(p值)等于0.556 ,因此看第一行结果。于是,我们得到两个样本均值的差(4.9600) ,另外还给出了两总体均值差的95%置信区间(2.073,7.847)。 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 总体比例(Bernoulli试验成功概率)p的 区间估计 (大总体、大样本) 道德

15、是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 例5.3 在一个大都市中对1341人的随机调查结果显示,有934个人 支持限制小轿车的政策。假定该样本为简单随机样本,希望找出 总体中支持限制小轿车的人的比例的点估计及其置信度为95%的 置信区间。 n=1341;x=934 CI1=function(n,x,alpha)p=x/n;za=qnorm(alpha/2,low=F) a=sqrt(p*(1-p)/n);b=za*a;L1=p-b;L2=p+b;list(1-alpha,L1,L2) CI

16、1(n,x,.05) 得到(0.672, 0.721) 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 总体比例(Bernoulli试验成功概率)之差 p1 -p2的区间估计 (大样本、大总体) 例5.4 在两个地区对于某商品认可与否的调查结果显示,第一个地 区被调查的950人中有423人认可,而在第二个地区的被调查的1102 人中只有215人认可。求这两个总体比例之差p1 -p2的95%置信区间 。得到(0.211,0.289) 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 假设检验 在假设检验中,一般要设立一个原 假设; 而设立该假设的动机主要是企图利 用人们掌握的反映现实世界的数据 来找出假设和现实的矛盾

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 幼儿/小学教育 > 小学教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号