数据模型公式－金锄头文库

资源描述

《数据模型公式》由会员分享，可在线阅读，更多相关《数据模型公式（19页珍藏版）》请在金锄头文库上搜索。

1、真诚为您提供优质参考资料，若有不当之处，请指正。第三章：总体方差：；样本方差：样本协方差Sxy = 总体协方差皮尔逊积矩相关系数：rxy= 第五章：离散型概率分布数学期望，方差f(x)为概率二项概率函数：f(x)= 5.5 泊松概率分布f(x)=，在一个时间区间内事件发生x次的概率，为数学期望（与方差相差）第六章：连续型概率分布6.1均匀概率密度函数 axb f(x)=0 其他E(x)=， Var(x)=连续型概率分布63二项概率的正态近似均值=np，标准差，当取概率pp(x)时，x-0.5。6.4 指数概率分布f(x)=，表示两起事件之间的时间间隔累积概率：不超过X0分钟P(xx0) =1第

2、八章：总体均值区间估计8.1总体标准差已知，求总体均值的置信区间估计95%置信水平(confidence level)，0.95置信系数（confidence coefficient），置信区间(confidence interval)=，边际误差=，=1-0.95=0.05，/2=0.025（上侧面积）总体均值的区间估计=+8.2 总体标准差未知，求总体均值的置信区间估计(t分布)用样本标准差s代替总体标准差,t代替z=+，自由度df=n-18.3 样本容量的确定n=，E为所希望的总体均值的边际误差8.4 总体比率：只有z,没有t=，边际误差=E总体均值的区间估计=+n= ()2 p*(1p

3、*)/E2第九章：假设检验(一个)总体均值假设检验 H0：=0； Ha：0 ，0为假定值p-value，即z(上侧)或z(下侧)，则拒绝p(z1.96)=0.0259.3总体标准差已知，求zz=，为样本均值置信区间法：+，看0是否落在该区间内9.4总体标准差未知，求t，df=n-19.5 总体比率假设检验，求zH0：p=p0； Ha：pp0 ，p0为假定值z=9.7计算第二类错误的概率(1)在显著性水平下，根据临界值法确定临界值并建立拒绝法则(如，如果z，则拒绝)；(2)根据，解出样本均值取值范围(根据z=或)；(3)建立接受域，如a；(4)根据接受域(不变)与满足备择假设的新，计算概率(

4、z=)。第二类错误概率，做出拒绝H0的正确结论的概率称为功效，值为1-越接近原假设均值，发生第二类错误的风险越大。9.8 确定总体均值假设检验的样本容量n=为第一类错误概率，为第二类错误概率，0为原假设总体均值，a为第二类错误所用总体均值。双侧检验中，以Z/2代替Z第十章：两总体均值和比例的推断(两个)10.1两总体均值之差(1-2)的推断，总体方差1和2已知标准差= ，Margin of error=1-2的区间估计：1-2的假设检验：H0：1-2=D0； Ha：1-2D0，双侧，求z：10.2两总体均值之差(1-2)的推断，总体方差1和2未知1-2的置信区间估计：，df=，自由度取小的整数

5、1-2的假设检验，求t： t= 10.3匹配样本H0：d=0, Ha：d0，双侧t= ，df=n-1，为两组数值之差的平均值，d为总体数值之差的平均值(一般为0)，Sd为两组样本数值之差的标准差置信区间=10.4 两总体比例之差的推断H0：p1-p2=0； Ha：p1-p2D0，两总体比例之差的置信区间=第十一章：关于总体方差2的统计推断111一个总体方差的区间估计：假设检验：，双侧检验，df=n-1，做备择假设使取上侧112两个总体方差的统计推断：，双侧检验F=，s1是较大的样本方差 numerator degrees of freedom= n-1，denominator degrees

6、 of freedom=n-1取值都取右侧，如值越小，越大第十二章：拟合优度检验和独立性检验12.1拟合优度检验：多项总体(总体是否服从k类中每类都有指定的概率)H0: pA= .30, pB = .50, and pC= .20，单侧检验Ha:The population proportions are not pA= .30, pB= .50, and pC= .2012.2 独立性检验(两个因素是否相关)，单侧检验H0: Beer preference is independent of the gender of the beer drinkerHa:Beer preference i

7、s not independent of the gender of the beer drinker第十三章：实验设计与方差分析13.2方差分析和完全随机化实验设计（单因素）一个对应一个处理j列，多个比较是否相等，1=2=3）处理间估计处理平方和，处理均方MSTR=处理内估计误差平方和，误差均方k为处理数，n为每个处理中样本的个数，nT为总个数，上侧检验；SST=SSTR+SSEMSE=s2，s=+13.3 多重比较方法Fisher 的LSD方法(两个进行比较)H0：i=j ； Ha：ij ，df=nT-k，双侧第二种方法：H0：i=j ； Ha：ij 如果LSD，则拒绝H01-2的置信区

8、间估计=13.4 随机化区组设计13.4.2 ANOVA方法A：处理；B：区组；E：误差SST=SSTR+SSBL+SSE， SSE= SST- SSTR-SSBL，，行是i，列是j，j对应处理，i对应区组，上侧检验，判断“处理”均值是否相等(多个，一个对应一个处理)k= the number of treatments，b= the number of blocksn，nT= the total sample size (nT = kb)13.5 析因实验SSE=SST-SSA-SSB-SSABF检验体现的是每个因子的显著性行是i，列是j，A对应i,B对应j十四章：简单线性回归简单线性回

9、归方程：；=，总的平方和回归平方和误差平方和SST=SSR+SSE，自由度： n1=1 +(n2)判定系数，相当于，所以r2越接近1，就越接近y，拟合度就越好。The least squares line accounted for 74.6% of the total sum of squares.rxy=(b1的符号)，为正，表示正相关；负则负相关。均方误差，估计的标准误差t检验： H0：=0， Ha：0b1估计的标准差 t= ，自由度为n-2，双侧检验的置信区间：F检验：H0：=0， Ha：0 上侧检验MSR 均方回归； MSE 均方误差MSR=SSR/自变量个数= ，分子和分母自由

10、度分别为自变量个数和n-2，上侧检验y的平均值的置信区间：confidence interval，自由度为n-2的估计的标准差 y的一个个别值的预测区间：prediction interval,，自由度为n-2回归分析: yi 与 xi 回归方程为yi = 0.20 + 2.60 xi自变量系数系数标准误 T P常量 (b0)0.200 (sb0)2.132 0.09 0.931xi (b1)2.6000 (sb1)0.6429 (t)4.04 0.027S = 2.03306 R-Sq = 84.5% R-Sq（调整） = 79.3%方差分析来源自由度 SS MS F P回归 R 1

11、67.600 67.600 16.35 0.027残差误差E 3 12.400 4.133合计 4 80.000新观测值的预测值新观拟合值测值拟合值标准误 95% 置信区间 95% 预测区间 1 10.600 1.114 (7.056, 14.144) (3.223, 17.977)新观测值的自变量值新观测值 xi 1 4.00标准化残差：=s杠杆率大约有95%标准化残差介于-2和+2之间。简单线性回归，For the case of simple linear regression, Minitab identifies observations as having high leve

12、rage if hi 6/n or 0 .99, whichever is smaller.第十五章：多元回归R2=SSR/SST显著性检验：F检验用于确定在应变量和所有自变量之间是否存在一个显著性的关系，上侧检验；t检验用于确定每一个单个的自变量是不是显著的自变量，双侧检验。t检验：双侧15.8残差分析标准化残差：=s杠杆率跟自变量x有关学生化删除残差df=(n1)p1，异常值在t/2以外(t/2或3(p+1)/n库克距离，Di1第十六章：建立模型确定什么时候增加或删除变量上侧检验，检验增加的自变量是否是显著的df1=增加的自变量个数；df2=n-p-1第十八章：时间序列分析及预测平均绝对误

13、差 MAE=预测误差绝对值的平均数均方误差 MSE=预测误差平方和的平均数平均绝对百分数误差MAPE=百分数预测误差的绝对值的平均数指数平滑预测法：Ft+1=Yt+(1) Ft ，Yt 实际值，Ft预测值，F2 = Y1 , 从 F3 开始预测线性回归：，季节估计的回归方程：时间序列分解法：n个季度移动平均中心化移动平均(Trendt)Yt/ Trendt = Seasonal-Irregular Value按照季度将Seasonal-Irregular Value平均后得到季节指数（有必要则调整季节指数）将Yt/季节指数=消除季节影响的值求线性回归将预测值季节指数=有季节影响的数值第十九章：非参数方法19.1 总体中位数假设检验、匹配样本：H0: p = 0.50，Ha: p0.50H0: p 0.50，Ha: p0.50H0: p 0.50，Ha: p0.50n20，利用一元二项式分布的概率BINOMDIST计算累积概率，如果是双侧要乘以2若n20，利用二项概率正态分布近似，均值=np，标准差首先判断x与的关系，若x(表示pp(x)，则+0.5；若x，则0.5z=(x)/对于单侧

展开阅读全文