2022年统计学知识点含计算

上传人:re****.1 文档编号:567268608 上传时间:2024-07-19 格式:PDF 页数:13 大小:219.12KB
返回 下载 相关 举报
2022年统计学知识点含计算_第1页
第1页 / 共13页
2022年统计学知识点含计算_第2页
第2页 / 共13页
2022年统计学知识点含计算_第3页
第3页 / 共13页
2022年统计学知识点含计算_第4页
第4页 / 共13页
2022年统计学知识点含计算_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《2022年统计学知识点含计算》由会员分享,可在线阅读,更多相关《2022年统计学知识点含计算(13页珍藏版)》请在金锄头文库上搜索。

1、知识点精编1.组数:一般为5-15 2.确定组距:组距(Class Width) 是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距 ( 最大值- 最小值 ) 组数3.统计出各组的频数并整理成频数分布表下限 (lower limit) :一个组的最小值2. 上限 (upper limit) :一个组的最大值3. 组距 (class width) :上限与下限之差4. 组中值 (class midpoint) :下限与上限之间的中点值封闭式组距数列:a) 组距上限下限b) 组中值(上限 +下限) /2 c) 缺下限开口组组中值上限1/2 邻组组距d) 缺上限开口组

2、组中值下限+1/2 邻组组距样本 平均数nfMxkiii1总体用 总体方差 (标准差 ),记为 s2(s);根据样本数据计算的,称为样本方差(标准差 ),记为 s2(s) 方差 未分组1)(122nxxsnii分组1)(122nfxMskiii经验法则 表明:当一组 数据对称分布时约有68%的数据在平均数加减1 个标准差的范围之内约有95%的数据在平均数加减2 个标准差的范围之内约有99%的数据在平均数加减3 个标准差的范围之内切比雪夫不等式1.如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用2.切比雪夫不等式提供的是“ 下界 ” ,也就是

3、“ 所占比例至少是多少” 3.对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2 的数据落在平均数加减k 个标准差之内。其中k是大于 1 的任意值,但不一定是整数对于 k=2,3, 4,该不等式的含义是1.至少有 75%的数据落在平均数加减2 个标准差的范围之内2.至少有 89%的数据落在平均数加减3 个标准差的范围之内3.至少有 94%的数据落在平均数加减4 个标准差的范围之内离散系数标准差与其相应的均值之比计算公式为xsvs统计量设 X1,X2 , , Xn 是从总体X 中抽取的容量为n 的一个样本,如果由此样本构造一个函数T(X1,X2 , , Xn), 不依赖于任何未知参数

4、,则称函数 T(X1,X2 , , Xn)是一个统计量样本均值、精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 13 页知识点精编) 1(ntnsxt样本比例、样本方差等都是统计量统计量是样本的一个函数统计量的分布称为抽样分布 。1.样本统计量的概率分布,是一种理论分布在重复选取容量为n 的样本时,由该统计量的所有可能取值形成的相对频数分布2.随机变量是样本统计量样本均值 , 样本比例,样本方差等3.结果来自容量相同的所有可能样本4.提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据几种常用的抽样分布:

5、 (正态分布中的几种统计量的分布)把2分布( z) ,t分布,F分布,点估计 用样本的估计量的某个取值直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计;区间估计 在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到1. 置信水平表示为(1-)为是总体参数未在区间内的比例3.常用的置信水平值有99%, 95%, 90% 相应的为 0.01,0.05,0.10 假定条件总体服从正态分布,且方差 (s) 已知如果不是正态分布,可由正态分布来近似(n 30) 2.使用正态分布统计量z 3.总体均值m 在 1-a 置信水平下的置信区间为置信水平aa/2Za

6、/290%0.10.051.64595%0.050.0251.96假定条件(小样本 )总体服从 正态分布 ,但方差 (s )未知(n ,结论为按 所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P,结论为按所取水准显著,拒绝H0,接受 H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。P 值的大小一般可通过查阅相应的界值表得到。1.P 值是一个概率值2.如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率左侧检验时,P-值为曲线上方小于等于检验统计量部分的面积右侧检验时,P-值为曲线上方大于等于检验统计量部分的

7、面积3.被称为观察到的(或实测的 )显著性水平H0 能被拒绝的最小值方差分析 通过检验各总体均值是否相等来判断分类型自变量对数值型因变量的是否有显著影响用于两个及两个以上样本均数差别的显著性检验。方差分析的基本假定1.每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本(1)每个总体都服从正态分布(2)观察值相互独立(3)各个总体样本方差必须相同1、建立检验假设;H0:多个样本总体均数相等;H1:多个样本总体均数不相等或不全等。检验水准为0.05。2、计算检验统计量F 值;3、确定 P 值并作出推断结果。kkiiikinjiji21111kkiiikinj

8、ijnnnnnxnnxxi21111式中:)1kinjijii), 2, 1(1kinxxinjijiikinjiiji112kinjiijixxSSE112kiiikinjixxi12112kiiikinjixxnxxSSAi12112kinjijix112kinjijixxSST112kinjiijkiiikinjijii11212112kinjiijkiiikinjijiixxxxnxx11212112精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3 页,共 13 页知识点精编), 2 , 1(1.kirxxrjiji), 2, 1(1.r

9、jkxxkiijjrjij1krxxkirjij11SST2kirjijxxSST112SSCkirjjxxSSC112.rjiSSR12.kirjixxSSR112.SSEkirjjiijxxxxSSE112. SST = SSA + SSE SST 的自由度为n-1,其中 n 为全部观察值的个数SSA 的自由度为k-1,其中 k 为因素水平 (总体 )的个数SSE 的自由度为n-k 组内方差组间方差双因素方差分析分析两个因素(行因素 Row 和列因素Column) 对试验结果的影响行平 均值列平均值总平均值计算平方和 (SS)误差来源平方和 (SS) 自由度 (df) 均方 (MS) F

10、值P值F 临界值组间 (因素影响 ) SSA 组建平方和k-1 MSA 组间方差MSA/MSE 组内 (误差 ) SSE 组内平方和 n-k MSE 组内方差总和SST 总平方和n-1 SSAMSA1kSSAMSASSEMSEknSSEMSE), 1(knkFMSEMSA), 1(knkFMSEMSAF2组间平方和)()(2总平方和组间平方和SSTSSAR精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页,共 13 页知识点精编MSR1kSSRMSRMSC1rSSCMSC) 1)(1(rkSSEMSEMSEMSR) 1)(1( , 1RrkkF

11、MSEMSRFMSEMSC) 1)(1( , 1CrkrFMSEMSCF行因素误差平方和SSR列因素误差平方和SSC随机误差项平方和SSE总误差平方和SSTSST = SSR +SSC+SSE 计算均方 (MS) 误差平方和除以相应的自由度三个平方和的自由度分别是?总误差平方和SST的自由度为kr-1 ?行因素平方和SSR的自由度为k-1 ?列因素平方和SSC的自由度为r-1 ?误差项平方和SSE的自由度为(k-1) (r-1)行因素的均方MSR,列因素的均方MSC,误差项的均方MSE,将统计量的值F与给定的显著性水平a 的临界值Fa进行比较,作出对原假设H0的决策根据给定的显著性水平a 在F

12、分布表中查找相应的临界值Fa若FRFa,拒绝 原假设H0,表明均值之间的差异是显著的,即所检验的行因素对观察值有显著影响若FC Fa,拒绝 原假设H0,表明均值之间有显著差异,即所检验的列因素对观察值有显著影响行因素的统计量列因素的统计量误差来源平方和 (SS)自由度 (df)均方 (MS) =ss/df F值P 值F 值临界值行因素SSR k-1MSR MSR/MSE 于 a=0.05 比较查表列因素SSC r-1 MSC MSC/MSE 小于 a 拒绝,大于不拒绝F 大于 Fa 拒绝 显著小于不拒绝不显著误差SSE (k-1)(r-1)MSE 总和SST SST = SSR +SSC+SS

13、Ekr-1 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 5 页,共 13 页知识点精编1. 一元线性回归模型描述因变量y 如何依赖于自变量x 和误差项e 的方程称为回归模型2. 一元线性回归模型可表示为 y = b0 + b1 x + eny 是x 的线性函数 ( 部分 ) 加上误差项n 线性部分反映了由于x 的变化而引起的y 的变化n 误差项e 是随机变量l 反映了除x 和y 之间的线性关系之外的随机因素对y 的影响l 是不能由x 和y 之间的线性关系所解释的变异性nb0 和 b1 称为模型的参数误差平方和1. 总平方和 (SST total

14、 sum of squares) n 反映因变量的n 个观察值与其均值的总误差2. 回归平方和 (SSRsum of squares of regression)n反映自变量x 的变化对因变量y 取值变化的影响,或者说,是由于x 与y 之间的线性关系引起的y 的取值变化,也称为可解释的平方和3. 残差平方和 (SSEsum of squares of error) n 反映除x 以外的其他因素对y 取值的影响,也称为不可解释的平方和或剩余平方和1. 总平方和 (SST total sum of squares) n 反映因变量的n 个观察值与其均值的总误差2. 回归平方和 (SSRsum of

15、 squares of regression)n反映自变量x 的变化对因变量y 取值变化的影响,或者说,是由于x 与y 之间的线性关系引起的y 的取值变化,也称为可解释的平方和3. 残差平方和 (SSEsum of squares of error) n 反映除x 以外的其他因素对y 取值的影响,也称为不可解释的平方和或剩余平方和判定系数R2回归平方和占总误差平方和的比例2. 反映回归直线的拟合程度3. 取值范围在 0 , 1 之间4. R2 ? 1,说明回归方程拟合的越好;R2? 0,说明回归方程拟合的越差5. 判定系数等于相关系数的平方,即R2r2niiniiniinii121212122

16、niiniiniiniiyyyyyyyySSTSSRR121212122?1?精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 6 页,共 13 页知识点精编1.统计量 P156 根据样本量构造出来的一个函数2.抽样分布 P160 3.点估计 P176 4.区间估计 P176 5.假设检验P 值的含义 P214 6.利用 P 值进行检验单侧检验 P 不拒绝 H0 P( /2) 不拒绝 H0 P|2z| 拒绝 Ho. 不符合标准711 某企业生产的袋装食品采用自动打包机包装,每袋标准重量为l00g。现从某天生产的一批产品中按重复抽样随机抽取50 包进行

17、检查,测得每包重量(单位: g)如下:每包重量( g)包数9698 98100 100102 102104 104106 2 3 34 7 4 合计50 已知食品包重量服从正态分布,要求:(1)确定该种食品平均重量的95的置信区间。解:大样本,总体方差未知,用z 统计量xzsn0,1N样本均值 =101.4,样本标准差s=1.829 置信区间:22,ssxzxznn1=0.95,2z=0.025z=1.96 22,ssxzxznn=1.8291.829101.4 1.96,101.4 1.965050=(100.89,101.91)(2)如果规定食品重量低于l00g 属于不合格,确定该批食品合

18、格率的95的置信区间。解:总体比率的估计大样本,总体方差未知,用z 统计量精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 9 页,共 13 页知识点精编1pzppn0,1N样本比率 =(50-5) /50=0.9 置信区间:2211,pppppzpznn1=0.95,2z=0.025z=1.96 2211,pppppzpznn=0.9 1 0.90.9 10.90.9 1.96,0.91.965050=(0.8168,0.9832)上网的那个, 225 个样本,均值 =6.5 S=2.5 n=225(这个没抄全)1.以 95%的置信水平建立样本区间

19、估计2.20 岁以下 90 个人, 20 岁以下 上网比例用户区间同 7.11 第二问大样本,总体方差已知,用z 统计量1pzppnp=90/225=0.4 1=0.95,2z=0.025z=1.96 置信区间:2211,pppppzpznn0.41.96*0.4* (1-0.4)/2250.5 0.40.064013332 (0. 464,0.336) 样本 30 个,精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 10 页,共 13 页知识点精编1.销售价格2.各地区年均收入因变量:地区产品销售额线性回归列出方程,解释费用人均收入对费用的影响P

20、 357 判定系数11.9 某汽车生产商欲了解广告费用(x)对销售量 (y)的影响,收集了过去12 年的有关数据。通过计算得到下面的有关结果:方差分析表变差来源dfSSMSFSignificanceF回归1 1602708.6 1602708.6 399.1000065 2.17E 09残差10 40158.074015.807 总计111642866.67参数估计表Coefficients标准误差tStatPvalueIntercept363.689162.455295.8231910.000168XVariable11.4202110.07109119.977492.17E 09要求:(1

21、)完成上面的方差分析表。(2)汽车销售量的变差中有多少是由于广告费用的变动引起的? (3)销售量与广告费用之间的相关系数是多少? (4)写出估计的回归方程并解释回归系数的实际意义。(5)检验线性关系的显著性(a 0.05)。解: (2)R2=0.9756,汽车销售量的变差中有97.56%是由于广告费用的变动引起的。(3) r=0.9877。(4) y=363.6891+1.1420211x 回归系数的意义:广告费用每增加一个单位,汽车销量就增加1.42 个单位。(5)回归系数的检验:p=2.17E 09 ,回归系数不等于0,显著。回归直线的检验:p=2.17E 09 ,回归直线显著。12.4

22、一家电器销售公司的管理人员认为,每月的销售额是广告费用的函数,并想通过广告费用对月销售额作出估计。下面是近8 个月的销售额与广告费用数据:月销售收入y(万元 ) 电视广告费用工:x1 (万元 ) 报纸广告费用x2(万元 ) 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 11 页,共 13 页知识点精编96 90 95 92 95 94 94 94 50 2 0 4 0 2 5 3 0 3 5 2 5 3 0 1.5 20 15 2.5 33 23 42 25 要求:(1)用电视广告费用作自变量,月销售额作因变量,建立估计的回归方程。(2)用电视广

23、告费用和报纸广告费用作自变量,月销售额作因变量,建立估计的回归方程。(3)上述 (1)和(2)所建立的估计方程, 电视广告费用的系数是否相同?对其回归系数分别进行解释。(4)根据问题 (2)所建立的估计方程,在销售收入的总变差中,被估计的回归方程所解释的比例是多少 ? (5)根据问题 (2)所建立的估计方程,检验回归系数是否显著(a=0.05)。解: (1)回归方程为:?88.64+1.6yx( 2)回归方程为:12?83.232.291.3yxx( 3)不相同,(1)中表明电视广告费用增加1 万元,月销售额增加1.6 万元;(2)SUMMARY OUTPUT回归统计Multiple R0.9

24、58663444R Square0.9190356Adjusted R Square0.88664984标准误差0.642587303观测值8方差分析dfSSMSFSignificance F回归分析223.4354111.717728.377770.00186524残差52.0645920.412918总计725.5Coefficients标准误差t StatP-valueLower 95%Upper 95%Intercept83.230091691.57386952.882484.57E-0879.184339487.2758电视广告费用工:x1 ( 万元 )2.2901836210.30

25、40657.5318990.0006531.508562073.07180报纸广告费用x2( 万元 )1.3009890980.3207024.0566970.0097610.476600752.12537精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 12 页,共 13 页知识点精编中表明,在报纸广告费用不变的情况下,电视广告费用增加1 万元,月销售额增加2.29 万元。( 4)判定系数R2= 0.919,调整的2aR = 0.8866,比例为88.66%。(5)回归系数的显著性检验:Coefficients 标准误差t StatP-value

26、Lower 95% Upper 95%下 限 95.0%上限 95.0%Intercept83.23009 1.57386952.882484.57E-0879.1843387.2758579.1843387.27585电视广告费用工:x1 (万元 )2.290184 0.3040657.5318990.0006531.5085613.0718061.5085613.071806报纸广告费用x2(万元 )1.300989 0.3207024.0566970.0097610.4765992.1253790.4765992.125379假设: H0:1=0 H1:10 t=11S=2.290.304=7.53 0.0255t=2.57,t0.0255t,认为 y 与 x1线性关系显著。(3)回归系数的显著性检验:假设: H0:2=0 H1:20 t=22S=1.30.32=4.05 0.0255t=2.57,t0.0255t,认为 y 与 x2线性关系显著。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 13 页,共 13 页

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号