统计学必知知识点合集.doc

资源描述

《统计学必知知识点合集.doc》由会员分享，可在线阅读，更多相关《统计学必知知识点合集.doc（27页珍藏版）》请在金锄头文库上搜索。

1、统计学知识点合集1. 试验和事件：对某事物或现象所进行的观察或实验叫试验，把结果叫事件。2. 基本事件（elementary event）：如果一个事件不能分解成两个或更多个事件，就称为基本事件。一次观察只能有一个基本事件。3. 样本空间：一个试验中所有的基本事件的全体称为样本空间。4. 古典概型：如果某一随机试验的结果有限，而且各个结果出现的可能性相等，则某一事件A发生的概率为该事件所包含的基本事件个数m与样本空间中所包含的基本事件个数n的比值。5. 统计概型：在相同条件下随机试验n次，某事件A出现m次（mn），则m/n称为事件A发生的频率。随着n增大，该频率围绕某一常数p上下波动，且波动幅

2、度逐渐减小，趋于稳定，这个频率的稳定值就是该事件的概率。6. 概率加法：（1）两个互斥事件：P（A+B）=P（A）+P（B）；任意两随机事件：P（A+B）=P（A）+P（B）-P（AB）。7. 事件独立（independent）：一个事件发生与否不会影响另一个事件发生的概率，公式为：P（AB）=P（A）P（B）。互斥（相依赖）一定不独立，不独立不一定互斥（相依赖）。8. 全概率公式：根据某一事件发生的各种原因的概率，计算该事件的概率。计算公式为：。9. 贝叶斯公式：在条件概率的基础上寻找事件发生的原因。计算公式为：，分母就是全概率公式。也称为逆概率公式。该公式是在观察到事件B已发生的条件下，寻

3、找导致A发生的每个原因Ai的概率。P(Ai)称为验前概率，P(Ai |B)是验后概率。10. 0-1分布：。0-1分布也称为两点分布，即非A即B。关于是否的概率统统是0-1分布。性别。11. 二项分布：现实生活中，许多事件只是具有两种互斥结果的离散变量。如男性和女性、某种化验结果的阴性阳性，这就是二项分布。参数为n，p，记为XB(n，p)。E(X)=np，D(X)=npq。当成功的概率很小，而试验次数很大时，二项分布接近泊松分布，此时=np。即P0.25，n20，np5。二项定理近似服从正态分布。二项分布是0-1分布的n重实验，表示含量为n的样本中，有X个所需结果的概率。12. 二项分布的正态

4、近似：，其中a=，b=，q=1-p。13. 超几何分布：。即二项分布中，无放回的情况。14. 泊松分布（poisson distribution）：用来描述在一指定时间范围内或在指定的面积之内某事件出现的次数的分布。如某企业中每月发生的事故次数、单位时间内到达某一服务柜台需要服务的顾客人数、人寿保险公司每天收到的死亡声明个数、某种仪器每月出现故障的次数等。公式为：，E(X)=，D(X)=。是给定时间间隔内事件的平均数。15. 期望：各可能值xi与其对应概率pi的乘积之和为该随机变量X的期望，即。16. 概率密度满足的条件：（1）f(x)0；（2）。连续型随机变量的概率密度是其分布函数的倒数。；

5、。17. 正态分布（normal distribution）：正态分布的概率密度为：，xR。记作X()。18. 正态分布图形特点：（1）f(x)0，即整个概率密度曲线都在x轴上方；（2）f(x)相对于x= 对称，并在x=处取到最大值，最大值为；（3）曲线的陡缓由决定，越大，越平缓，越小，曲线越陡峭；（4）当x趋于无穷时，曲线以x轴为渐近线。19. 正态分布的例子：某地区同年龄组儿童的发育特征、某公司的销售量、同一条件下产品的质量以平均质量为中心上下摆动、特别差和特别好的都是少数，多数在中间状态，如人群中的高个子和矮个子都是少数，中等身材居多等。20. 标准正态分布，即在正态分布中，=0，=1，

6、有，即XN（0,1）。用表示分布函数，表示概率密度。(-x)=1-(x)。21. 方差：即每个随机变量取值与期望值的离差平方的期望值。随机变量的方差计算公式为：。22. 标准差：随机变量的方差的平方根为标准差，记。标准差与随机变量X有相同的度量单位。23. 期望、标准差、离散系数的使用：如果期望相同，那么比较标准差；如果期望不同，那么比较离散系数。24. 3准则：由标准正态分布得：当XN（0,1）时，P(|X|1)=2(1)-1=0.6826；P(|X|2)=2(2)-1=0.9545；P(|X|3)=2(3)-1=0.9973.这说明X的取值几乎全部集中在-3,3之间，超出这个范围的不到0.

7、3%。将结论推广到一般正态，即XN（,）时，有P(|X-|) =0.6826；P(|X-|2) =0.9545；P(|X-|3) =0.9973。可以认为X的值一定落在(-3, +3)内。25. 矩：（1）为样本k阶矩，其反映出总体k阶矩的信息，当k=1时，即均值；（2）为样本k阶中心矩，它反映出总体k阶中心矩的信息，当k=2时，即方差；（3）为样本偏度，它反映总体偏度的信息，偏度反映了随机变量密度函数曲线在众数两边的对称偏斜性；(4)为样本峰度，它反映出总体峰度的信息，峰度反映密度函数曲线在众数附近的峰的尖峭程度。26. 充分统计量：统计量加工过程中一点信息都不损失的统计量称为充分统计量。2

8、7. 因子分解定理：充分统计量判定方法。当X=（X1，X2，,Xn）是来自正态分布N（，2）的一个样本时，若已知，则是2的充分统计量，若2已知，则是的充分统计量。28. 精确抽样分布和渐近分布：在总体X的分布类型已知时，若对任一自然数n，都能导出统计量T=(X1,X2,Xn)的分布数学表达式，这种分布就是精确抽样分布，包括卡方、F，t分布；当n较大时，用极限分布作为抽样分布的一种近似，这种极限分布称为渐近分布，如中心极限定理。29. 卡方分布：设随机变量X1，X2，Xn相互独立，且Xi服从标准正态分布N(0,1)，则它们的平方和服从自由度为n的分布。E()=n；D()=2n；具有可加性；当自由

9、度增加到足够大时，分布的概率密度曲线趋于对称，当n趋于无穷时，的极限分布是正态分布。30. t分布：也称为学生氏分布。设随机变量XN（0,1），Y(n)，且X与Y独立，则，其分布称为t分布，记为t(n)，n是自由度。t分布的密度函数是偶函数。当n2时，E(t)=0,；当n3时，D(t)=n/(n-2)。t(n)的方差比N(0,1)大一些。自由度为1的分布称为柯西分布，随着n增加，t分布的密度函数越来越接近标准正态分布的密度函数。实际应用中，当n30时，t分布于标准正态分布很接近。另有一个关于t分布的抽样分布：，称为服从自由度为(n-1)的t分布。31. F分布：设随机变量Y与Z独立，且Y和Z分

10、别服从自由度为m和n的分布，随机变量X如下：。则成X服从第一自由度为m，第二自由度为n的F分布，记为XF(m,n)。E(X)=n/(n-2),n2；D(X)=,n4。32. t分布与F分布的关系：如果随机变量X服从t(n)分布，则X2服从F(1,n)的F分布。这在回归系数显著性检验中有用。33. 的抽样分布（sampling distribution）：当总体分布为正态分布时，的抽样分布仍然是正态分布，此时E()=，D()=2/n，则。其说明当用样本均值去估计总体均值时，平均来说没有偏差（无偏性）；当n越来越大时，的散布程度越来越小，即用估计越来越准确。34. 中心极限定理（central

11、limit theorem）：不管总体的分布是什么，只要总体的方差2有限且要求n30，此时样本均值的分布总是近似正态分布，即N(，2/n)。35. 样本比例的抽样分布：如果在样本大小为n的样本中具有某一特征的个体数为X，则样本比例为：。是总体比例，即p=X/n=。36. 两个样本均值之差的分布：若为两个总体，则：；若是两个样本，则：；。37. 样本方差的分布：设X1，X2，Xn为来自正态分布的样本，则设总体分布为N(,2)，则样本方差S2的分布为：。38. 两个样本方差比的分布：设X1，X2，Xn是来自正态分布的样本，y1，y2，yn也是来自正态分布的样本，且Xi与yi独立，则。39. 参数估

12、计（parameter estimation）：用样本统计量去估计总体的参数。40. 点估计（point estimate）：用样本统计量的某个取值直接作为总体参数的估计值。41. 区间估计（interval estimate）：是在点估计的基础上，给出总体参数估计的而一个区间范围，该区间通常由样本统计量加减估计误差得到。42. 置信区间（confidence interval）：在区间估计中，由样本统计量所造成的总体参数的估计区间称为置信区间。43. 置信水平（confidence level）：如果将构造置信区间的步骤重复多次，置信区间中包含总体参数真值的次数所占的比例为置信水平，也称为置

13、信度或置信系数。其含义为：如果做了100次抽样，大概有95次找到的区间包含真值，而不是95%的可能落在区间，因为统计量不涉及概率问题。44. 无偏性（inbiasedenss）：指估计量抽样分布的期望等于被估计的总体参数。设总体参数为，估计量为，如果E()=，则称为的无偏估计量。45. 有效性（efficiency）：指对同一总体参数的两个无偏估计量，有更小标准差的估计量更有效。46. 一致性（consistency）：指随着样本量的增大，点估计量的值越来越接近被估总体的参数，换个说法，一个大样本给出的估计量要比一个小样本给出的估计量更接近总体参数。47. 样本量与置信水平、总体方差和估计误差

14、的关系：样本量与置信水平成正比，在其他条件不变的情况下，置信水平越大，所需的样本量也就越大；样本量与总体方差成正比，总体的差异越大，所要求的样本量也越大；样本量与估计误差的平方成反比，即可接受的估计误差的平方越大，所需的样本量就越小。48. 圆整法则：将样本量取成较大的整数，也就是将小数点后面的数值一律进位成整数。49. 两类错误：一类是原假设H0为真却拒绝，这类错误用表示，称为弃真；另一类是原假设为伪而我们却接受，这种错误用表示，也称存伪。50. 两类错误的控制原则：如果减小错误，就会增大犯错误的机会；若减小错误，也会增大犯错误的机会。规则是：首先控制错误，这是因为原假设是什么常常是明确的，

15、而备择假设是什么则常常是模糊的。51. P值：P值是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。P值越小，拒绝原假设的理由就越充分。P值的长处是它反映了观察到的实际数据与原假设之间不一致的概率值。52. 双侧检验与单侧检验：双侧检验主要是检验是否相等，如90年的婴儿体重与89年婴儿体重是否相等；另一种是单侧检验，即关心的假设问题带有方向性，如灯泡的使用寿命，汽车行驶距离等；另一种是数值越小越好，如废品率、生产成本等。53. 统计量的选择：在一个总体参数的检验中，主要统计量有三个，z、t和。z和t用于均值和比例检验，用于方差检验。统计量选择步骤如下：（1）是否是大样本，如果是，那么如果总体呈正态分布，样本统计量也呈正态分布；如果总体不呈正态分布，样本统计量渐进服从正态分布；此时可以使用z统计量（2）如果是小样本，那么观察，如果已知，样本统计量将服从正态分布，此时可以用z统计量（3）如果未知，则只能使用样本标准差，样本统计量服从t分布，应采用t统计量。t统计量的精度不如z统计量，这是总体信息未知所需要付出的代价。54. 总体比例检验公式：。P为样本比例，0是总体比例的假设值。55. 总体（population）：包含所研究的全部个体的集合，组成总体的每一个元素称为个体。当总体的范围难以确定时，可根据研究的目的来定义总体。56. 样本（sa

展开阅读全文