从数据到结论(人民大学吴喜之教授)03统计推断S.ppt

资源描述

《从数据到结论(人民大学吴喜之教授)03统计推断S.ppt》由会员分享，可在线阅读，更多相关《从数据到结论(人民大学吴喜之教授)03统计推断S.ppt（56页珍藏版）》请在金锄头文库上搜索。

1、道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。统计推断从数据得到对现实世界的结论的过程道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。估计总体代表我们所关心的那部分世界。而在利用样本中的信息来对总体进行推断之前人们往往对代表总体的变量假定了分布族。(描述数据时不用假定) 比如假定人们的身高属于正态分布族；在抽样调查时假定了二项分布族等等(这些假定可能有风险!)。这些模型基

2、本上是根据“经验”来假定的，仅仅是对现实世界的一个近似。道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。估计在假定了总体分布族之后，进一步对总体的认识就是要在这个分布族中选择一个适合于我们问题的成员由于分布族成员是由参数确定的，如果参数能够估计，对总体的具体分布就知道得差不多了。道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。估计量是用来估计的统计量我们知道，统计量是样本的

3、不包含未知参数的函数。样本均值、样本标准差都是统计量。由于样本是随机的，统计量也是随机变量。用于估计总体参数的统计量称为估计量；样本均值和标准差都是总体均值和标准差的常用估计量。道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。点估计和区间估计点估计(point estimation)就是用估计量的实现值来近似相应的总体参数。区间估计(interval estimation) 是包括估计量在内（有时是以估计量为中心）的一个区间；被认为很可能包含总体参数。点估计给出一个

4、数字，用起来很方便；而区间估计给出一个区间，说起来留有余地；不象点估计那么绝对。无偏估计(大样本性质) 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。区间估计注意置信区间的论述是由区间和置信度两部分组成。置信区间是对参数给出的一个范围置信度为其可信程度(大样本意义) 有些新闻媒体报道一些调查结果只给出百分比和误差（即置信区间），比如 “收视率为53%3%”; 不给出置信度，也不给出被调查的人数这是不负责的表现。道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与

5、自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。区间估计降低置信度可以使置信区间变窄（显得“精确”），有误导读者之嫌。如果给出被调查的人数，则内行可以由此推算出置信度，反之亦然。道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。一个描述性例子一个有10000个人回答的调查显示，同意某种观点的人的比例为70%（有 7000人同意），可以算出总体中同意该观点的比例的95%置信区间为（ 0.691，0.709）；另一个调查声称有70%的比例

6、反对该种观点，还说总体中反对该观点的置信区间也是(0.691，0.709)。道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。一个描述性例子实际上，第二个调查隐瞒了置信度（等价于隐瞒了样本量）。如果第二个调查仅仅调查了50个人，有35个人反对该观点。根据后面的公式可以算出，第二个调查的置信区间的置信度仅有11% 。道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。区间估计的意义

7、置信度的概念大量重复抽样时的一个渐近概念。类似于“我们目前得到的置信度为 95%的置信区间（比如上面的 75%3%）以概率0.95覆盖真正的比例p”的说法是错误的。实际上应该说“重复类似的抽样所得到的大量区间中有大约95%的覆盖真实比例(其值可能永远未知)。道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。区间估计的意义这里的区间（72%，78%）是固定的，而总体比例p也是固定的值。因此只有两种可能：或者该区间包含总体比例，或者不包含；这当中没有任何概率可言。至于区间

8、（72%，78%）是否覆盖真实比例，除非一个不漏地调查所有的人，否则永远也无法知道。道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。均值m的区间估计（正态分布）总体标准差s已知总体标准差s未知道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。区间估计的例子（1）例5.1 （数据：noodle.txt, noodle.sav, noodle.sas7bdat）某厂家生产的挂面包装

9、上写明“净含量450克”。在用天平称量了商场中的48包挂面之后，得到样本量为48的关于挂面重量（单位：克）的一个样本(我们假定，挂面重量所代表的总体分布服从正态分布。 )： 449.5 461.1 457.5 444.7 456.1 454.7 441.5 446.0 454.9 446.2 457.3 446.1 456.7 451.4 452.5 452.4 442.0 452.1 452.8 442.9 449.8 452.4 458.5 442.7 447.9 450.5 448.3 451.4 449.7 446.7 441.7 455.6 442.9 451.3 452.9

10、457.2 448.5 444.5 443.1 442.3 439.6 446.5 447.2 445.8 449.4 441.6 444.7 441.4 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 w=scan(“D:/booktj1/data/noodle.txt“);hist(w,10) summary(w) Min. 1st Qu. Median Mean 3rd Qu. Max. 439.6 444.6 448.9 449.0 452.6 461.1 道德是一定社会、一定阶级调节

11、人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。 SPSS 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。不同样本量和不同置信度的置信区间的长短和覆盖状况道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。例5.2 （数据：height2.txt, height2.sav, height21.sav, height22.s

12、as7bdat）这是两个地区大学生的高度数据；这里，我们假定身高服从正态分布。在height2.sav数据中这两个地区学生的高度分别用变量x1和x2表示。而在 height21.sav数据中，它们为一个变量height，但用另一个变量group来标明它们属于哪个地区。区间估计的例子（2）道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。（a）我们想要分别得到这两个总体均值和标准差的点估计（即样本均值和样本标准差）和各自总体均值的95%置信区间。利用height2.sav， SPS

13、S得到：作为两个总体均值估计量的样本均值分别为170.56和165.60，而样本标准差分别为 6.97857和7.55659；还得到均值的置信区间分别是(168.5767, 172.5433)及(163.4524, 167.7476)。（计算机输出很容易明白，这里不显示。） (b)求两个均值差m1-m2的点估计和95%置信区间。根据数据height2.sav，利用软件很容易得到下面结果区间估计的例子（2）道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。输出表的头两列是检验（见下面

14、一章的检验）是否方差相等，如果 Sig下面的数目（下一章的p值概念）较大（比如大于0.05）则没有证据认为这两个数据总体的方差不等，则看表的第一行结果，否则认为方差不等，则看表的第二行结果。这里Sig（p值）等于0.556 ，因此看第一行结果。于是，我们得到两个样本均值的差(4.9600) ，另外还给出了两总体均值差的95%置信区间(2.073，7.847)。道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。总体比例（Bernoulli试验成功概率）p的区间估计（大总体、大样本）道德

15、是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。例5.3 在一个大都市中对1341人的随机调查结果显示，有934个人支持限制小轿车的政策。假定该样本为简单随机样本，希望找出总体中支持限制小轿车的人的比例的点估计及其置信度为95%的置信区间。 n=1341;x=934 CI1=function(n,x,alpha)p=x/n;za=qnorm(alpha/2,low=F) a=sqrt(p*(1-p)/n);b=za*a;L1=p-b;L2=p+b;list(1-alpha,L1,L2) CI

16、1(n,x,.05) 得到(0.672, 0.721) 道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。总体比例（Bernoulli试验成功概率）之差 p1 -p2的区间估计（大样本、大总体）例5.4 在两个地区对于某商品认可与否的调查结果显示，第一个地区被调查的950人中有423人认可，而在第二个地区的被调查的1102 人中只有215人认可。求这两个总体比例之差p1 -p2的95%置信区间。得到（0.211，0.289）道德是一定社会、一定阶级调节人与人之间、个体与社会、个体与自然之间各种关系的行为规范的总和。这种规范是靠社会舆论、传统习惯、教育和内心信念来维持的。假设检验在假设检验中，一般要设立一个原假设；而设立该假设的动机主要是企图利用人们掌握的反映现实世界的数据来找出假设和现实的矛盾

展开阅读全文