统计推断或假设检验的常见问题

上传人:汽*** 文档编号:564842135 上传时间:2023-01-14 格式:DOC 页数:10 大小:176KB
返回 下载 相关 举报
统计推断或假设检验的常见问题_第1页
第1页 / 共10页
统计推断或假设检验的常见问题_第2页
第2页 / 共10页
统计推断或假设检验的常见问题_第3页
第3页 / 共10页
统计推断或假设检验的常见问题_第4页
第4页 / 共10页
统计推断或假设检验的常见问题_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《统计推断或假设检验的常见问题》由会员分享,可在线阅读,更多相关《统计推断或假设检验的常见问题(10页珍藏版)》请在金锄头文库上搜索。

1、统计推断或假设检验的常见问题统计推断或假设检验的常见问题连续变量和分类变量1所有测量值可以分为四水平症类(NOMINAL),定序(ORDINAL),定距(INTERVAL),和定比(RATIO).前面两类是分类变量后面两类是连续变量2定类变量是只能决定类别例如白人和黑人,民主党和共和党,男人和女人等.定序变量比定类变量进了一步,因为不但可以决定类别,还可以决定各水平的次序例如高收入,中等收入,和低收入;非常满意,比较满意,比较不满意,和非常不满意等等但是各个水平间的距离并无意义例如痛苦程度用1到10表示用7表示的痛苦大于5,后者又大于3但你不能说7和5表示的痛苦和5和3表示的痛苦是等距离的.定

2、距变量又进了一步,不但可以知道次序而且可以知道各个水平间距离,而且各个水平间距离有意义如100度的开水和90度的温水之间等于90度和80度之间的差别但是注意0度的水不等于无温度而定比变量则是最高级水平,具有所有定距变量的特性还加上一个0是本身有意义的例如重量0克等于0重量凡是定比变量都可以比较两个量的比值例如重量:4克的物质是2克物质的2倍但100度的水不是50度水的两倍热,因为它不是定比变量社会科学中最好的定比变量例子是收入年薪十万就是五万的两倍.0收入就是没有收入.可讪进疔的剽乍定类定距宦比频率分布YesYe?Ves中垃数和百分点XoYes|加减No伽平欢数一挤;准差,标帘俣%.丸竺Yes

3、匕恻或变异系数.%NcNoYes5有人做了一个实验以决定抗生素是否会增加小牛体重下列变量是每头牛的测量值:性别,初始体重,体重增加数,肉质品位等级,其中肉质品位等级以A,B,或C表示这些变量的测量类型是:a) 定类,定比,定距,定类b) 定类,定比,定比,定类c) 定类,定比,定比,定序d) 定序,定比,定比,定序e) 定序,定比,定比,定类6有一项研究调查的是火力发电厂对水质的影响研究人员先抓鱼并加以标记再把它们放了对每条鱼都作了下列记录:性别(0=雌鱼,1=雄鱼),鱼身长度(cm),成熟度(0=幼小,1=成熟),体重(g)这些测量值属于:a. 定类,定比,定类,定比b. 定类,定距,定序,

4、定比c. 定类,定比,定序,定比d. 定序,定比,定类,定比e. 定序,定距,定序,定比无效和备择(或对立)假设7无效假设和备择(或对立)假设的内容应该由管理决策问题决定.一般来说是由无效假设当稻草人,而真正目的是看备择(或对立)假设能否成立.8既然无效假设是稻草人,在设立时要使它可能被推翻.办法是令无效假设等于,大于或小于一个具体的数值(如销售额增加15,广告效应=0,今天的市场分额=昨天的分额,或婴儿出生体重=8斤,)而不是模棱两可的(如销售额增加不等于0,广告效应不等于0,今天的市场分额不等于昨天的分额,或婴儿出生体重不等于8斤).9.备择(或对立)假设一定要和无效假设对应,使得一旦无效

5、假设推翻以后就只能接受备择(或对立)假设10参看Excel”统计复习2”H作簿Solution一表中关于假设的例题.11. 为了保证对应性,一般说来备择(或对立)假设和无效假设符号要相反,内容要一致,即他们是关于同一事件的不同可能性12. 何时作出假设?研究者应该事先决定假设再作检验.这相当于先设立靶子再射击.不能先测验假设中途又改变它!13. *当假设表示为一个等号后面跟具体数值的时候就称为简单假设.反之不是等号而是大于,小于,或不等号时就称为合成假设.所有两尾备择(或对立)假设都是合成假设.一尾备择(或对立)假设也是合成假设.多数无效假设都是简单假设*14参看Excel”统计复习2”H作簿

6、Solution一表关于假设的题目一尾测验还是两尾测验?15.当你对某事件了解不多,或无清楚的理论指导,或无过去经验可供参照,或常识/逻辑不能帮忙时,一般都应该用两尾测验.反之可以用一尾.16.例如加了工资以后消费支出一般不大可能降低,公路加宽后不大可能增加交通事故,打了广告后不大可能减低销售额等等都可以用一尾测验.17. 能从假设中看出用一尾还是两尾吗?答案是肯定的.要看备择(或对立)假设.如果备择(或对立)假设是带方向性的(如销售额300,000,进口车耗油量国产车,广告后市场份额广告前等等=就用尾.反之不带方向性用两尾.18. 什么是临界值?临界值就是门槛值就是在概率分布的横轴上的一个或

7、几个关键值没有越过那个值就属于大概率事件,而一旦越过那个值就变成小概率事件,就认为那里的事件是由机会引起的而不是真实(即大概率)事件.19. 为什么要重视临界值?因为在概率分布给定时,每个概率值都对应于一个确定的临界值概率值用概率曲线下的面积表示,而临界值用直线即横轴上的值表示后者比前者更方便求取故在假设检验时都把概率值化为临界值.20. 与两尾测验相比,一尾测验需要比较小的临界值即可以达到显著统计上把这个现象称为高检验力度(Power).直观的说,一尾测验相当于把两个尾部的概率集中到一个尾部比如两尾测验时你需要z=1.96才能达到5%的显著水平,而一尾时只要z=1.645即可后者比1.96更

8、加接近概率分布的中部而不是尾部也就是说我们把门槛值向左移动了21参看Excel”统计复习2”工作簿Solution表中”下列情况的t或z的临界值是什么”那一节中的例题22. 在用Excel函数求临界值时,都是假定你已经决定了显著水平而要求相应临界值.这时需要用Normsinv,Tinv,orChiinv.注意前两个函数要考虑一尾还是两尾测验.而卡方测验只有一尾.因为卡方分布没有负数.23. 一定记得把显著水平即概率值除以2以便得到两尾检验的临界值而如果是一尾检验直接代入显著水平即可例如求5%显著水平的正态分布一尾临界值其公式是Normsinv(0.05),而求两尾临界值则用Normsinv(0

9、.05/2).注意不是Normsinv(0.05)/2,因为不是临界值的1/2,而是概率即显著水平的1/2.再说一次:两尾检验其概率要除以2,一尾就不需要!24. 参看Excel”统计复习2”工作簿Solution一表中”下列情况应该用何检验”那一节中的例题.25. 决定用t测验还是正态z检验取决于两个条件,一是群体方差是否已知,二是样本大小一般大样本即大于50人以上都可以用正态检验.否则用t检验.26参看Excel”统计复习2”工作簿Solution一表关于何种检验的总结表I类错误和II类错误27类错误称为拒真错误,II类错误则是纳伪错误其中的拒真和纳伪都是指无效假设而言即当无效假设是真实时

10、你推翻它(I类错误),或当无效假设是错误时你未能推翻它(II类错误).28.II类错误概率用B表示,而I类错误的概率就是显著水平,用a表示.I类错误的概率可以人为控制;而II类错误则受三个因素影响:1显著水平(即I类错误概率),一般a越大B越小;2样本大小,一般样本越大B越小即犯II类错误的概率越小;和3效应大小后者是指群体真值和无效假设值的差数或两个样本间平均数或其它统计值的差异;一般效应越大则B越小.29.I类错误和II类错误的方向相反例如显著水平=0.05时犯II类错误的概率要比显著水平=0.10时要大所以一般而言你不能同时减少两类错误的概率但是如果你有大样本就可以达到这一目标30.检验

11、力度(Power)等于1-beta,其中beta是II类错误的概率.虽然求II类错误也有公式,但求起来比较难,因为我们必须知道对立假设下的分布所以我们一般不去求它只需要知道I类和II类错误的关系,知道II类错误和检验力度的关系即可.31.1类错误概率,11类错误概率,检验力度,以及效应大小的关系看Churchill的PPT最好理解.关于概率分布32. 连续变量常常服从正态分布或其它连续分布,例如对数正态(LOGNORMAL),T分布,F分布等分类变量服从二项分布,多项分布等.33. 样本统计值常常用比例表示,比例常常服从二项分布.例如抽烟和不抽烟,听过(或见过)广告和没有见过广告,喜欢和不喜欢

12、某产品,以及是大学生和不是大学生等等二项分布有两个特点第一它可以用正态分布逼近其原因用抛硬币实验很容易理解如果我们抛一枚硬币6次,纪录正面出现次数,则N=6,P=0.5因为硬币每次出现正面和负面的概率应该相等则在6次中有3次是正面的概率是33!6!()(1)(3)0.5*0.5!()!3!(3!)6*5*4*3*2*(.125)*(.125).3125(3*2)*(3*2)rnrnPrPrnrnn-类似地其它概率,比如出现1次,0次,2次等等都可以按此公式计算出来请看EXCEL工作簿”EXCEL统计推断”中”如何计算事件概率那个表格这些概率就形成概率分布,后者虽然服从二项分布但可以用正态分布逼

13、近34样本比例的方差特别容易计算直接等于P*Q(其中Q=1-P).有了方差则标准差和标准误就都好计算了我们在假设检验中常常要用到这个特性来求方差,标准差和标准误,非常方便!(寸(1一貫、其标准误捷径公式是po=标准”网F差捷径公式是。=方差捷径公式是(1)Vnn=-其中的n和1-n是指群体的”成功”比例,即某事件出现次数占总次数的比例对样本来说就是P和Q.请见EXCEL”统计推断2”工作簿中”SOLUTION”一表,其中关于可锐职业顾问公司的例子35. 如果变量服从正态分布则大约68%的值位于正负一个标准差之间,大约95%的值位于正负两个标准差之间,大约99%的值位于正负三个标准差之间.其全距

14、(即极大值和极小值之间差数)是大约六个标准差(最后这一点对于计算样本容量很有用)36. 对于服从二项分布的变量,不必用”全距等于6个标准差”这一点来求标准差应该直接代入样本比例求标准差.自由度问题37. 自由度是指样本个体中可以自由变化的程度每当你的样本增加一个个体你就多了一个自由度,反之每当你模型中增加一个变量就用去了一个自由度在求标准差时要计算平均数,所以N-1就是标准差的自由度.38. 计算自由度的方法要看你的检验方法而定下列是常见公式.a如果你有表格数据,又只有一个变量,则应该用分类变量水平数目减去一即是自由度例如你用表格列出收入变量该变量有六类,则你的自由度等于6-1=5b如果你有表

15、格数据,又有两个变量交叉列表,则应该用行数减一乘以列数减一得到表格自由度.例如你用表格列出收入和教育水平.收入有六水平,教育5水平,那么你的表格自由度就是(6-1)(5-1)=20.c. 求样本方差和标准差时,其分母都是N-1,这是因为标准差和方差都是以平均数为基础,而求平均数要用去一个自由度.当然求群体方差和标准差时则不需要自由度,因为群体大,用不用自由度关系不大.更主要的是群体参数是需要从样本估计的.虽然样本统计数要用去自由度,群体参数却不要.例如群体平均数等于所有样本平均数的平均数对于一个样本来说无需减去自由度以求群体平均数d. T测验一般是用来检验样本平均数是否等于某一群体平均数或者检验两个样本平均数是否相等.这些情况下常常只需要一个自由度来计算平均数.所以其自由度一般等于1.e. 对于回归模型,要看模型含有多少变量,总的原则是用了多少变量就失去多少自由度.不过要记住加上截距所用的

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号