中心极限定理,,-,27,-,中心极限定理,,,(,Central Limit Theorem,,),,Define,Measure,Analyze,Improve,Control,S,tep 8- Data,分析,Step 9- Vital Few X’,的选定,,多变量研究,,,中心极限定理,,,假设检验,,,置信区间,,,方差分析,均值检验,,,卡方检验,,,相关,/,回归分析,S,tep 7- Data,收集,路径位置,理论课,,定义,,,,中心极限定理的应用,,1.,正态分布的例子,,2.,Chi-Square,分布的例子,,,标准误差与样本大小的关系,目 录,定义,中心极限定理是阐述大量随机变量之和的极限分布是正态分布的一系列定理的总称最常用的有:,,独立同分布中心极限定理,:,,,“随机变量,x1,,,x2,,,…,独立,且服从同一分布,,,若存在有限的数学期望,E(xi,)=u,和方差,D(xi,)=σ,2,,,,当,n→∞,时,随机变量的总和,Σxi,趋于均值为,nu,,方差为,n σ,2,的正态分布即算术平均数,1/n,Σxi,=,xbar,趋于均值为,u,,方差为,σ,2,/n,的正态分布)”,,不论总体服从何种分布,只要它的数学期望和方差存在,,,从中抽取容量为,n,的样本,则这个样本的总和或平均数是随机变量,,,当,n,充分大时,,Σxi,或,xbar,趋于正态分布。
定义,德莫佛,-,拉普拉斯中心极限定理,:,,“如果用,X,表示,n,次独立试验中事件,A,发生,(“,成功,”),的次数,,P,是事件,A,在每次试验中发生的概率,,,则,X,服从二项分布,,B(n,p),,,当,n→∞,时,,X,趋于均值为,np,,方差为,npq,的正态分布 ”,,正态分布和泊松分布都是二项分布的极限分布,,当,n,足够大时, 可用正态分布近似计算,;,,,当,n,足够大且,p,小时,,,可用泊松分布近似计算中心极限定理是一种十分重要的现象,,,它是统计学中应用的许多方法的理论基础的组成部分,(,如,:,计算样本均值的置信区间,),,,,,,利用同样的数据画出两种不同的控制图,,,并仔细比较它们的差异,:,,,,打开文件,[,CENLIMIT.MTW,,],.,分别用下面的两个路径画出个体图和子群大小为,5,的均值图,,个体图路径 均值图路径,应用,图形输出,个体数据,样本平均,,仔细比较两个图上的控制上下线,(UCL,和,LCL),,有什么不同,?,应用,个体控制图和,,X bar,控制图的差异,μ,1,5,10,0,10,20,30,40,50,60,应用,平均值分布的标准偏差叫做,,均值标准误差,,,因,而其定义为,:,,,,,,,,,,,,,这个公式表明平均值比个体数据更稳定,稳定因子是样本数的平方根。
σ,s,x,=,=,均值标准误差,个体值的标准差,n,=,平均值的样本数,x,均值的标准误差(,Standard Error of the Mean),其中,我们经常依靠从测量系统中得到的一个数值来估计,输入,或,输出,变量的值,减小测量系统误差的简易方法就是把两个或更多的读数平均我们的测量系统的精密度自动增加,增加因子是平均值样本数的平方根,,,如果我们要想使测量系统的误差减小一半,我们就需要把4次的测量值平均才可以实际应用,测量系统的改善,当总体数据具备正态分布时,中心极限定理理解例题模拟,-1,假设你面前有一个大桶,,,桶里面装有相当多数量的白色纸条,,,每张纸条上都写,,有数字,且假定这些数字都来自一个具有特定平均值和标准偏差的正态分布,.,,,1),从中随机抽出9张白色纸条,,,并把其上面的9个数字求平均,,,,,2),然后把这个平均值写在一张绿色纸条上,,,,,3),把这9张白色纸条放回原来的桶里,,,,,4),把这张绿色纸条放入另外一个桶里,,,,,如此重复上面的步骤,直到盛有绿色纸条的桶放满为止白色纸条代表总体的数据;,,绿色纸条代表平均值的样本;,,我们用,MINITAB,来模拟做这个练习。
让我们用,MINITAB,产生一些模拟的数据来验证我们的理论首先用,MINITAB,产生9列各250个数据,假设这些数据来自一个,,平均值,=70、,标准偏差,=9,的正态分布:,,则列,C1-C9,代表白色纸条,,然后求出各行,9,个数据的平均值,其结果放在列,C10,,则,,C10,代表绿色纸条我们用描述统计的方法求出各列数据的平均和标准偏差仔细比较,C1-C9,列与,C10,列有什么差别?,,,[,例题1,],中心极限定理应用模拟,1,、用,MINITAB,随机产生样本数据,分别输入下列信息,2,、样本平均数计算,3,、输出:产生,10,列数据,[,注意:每次每个人操作产生的数据都不一样,],4,、描述统计路径,5,、描述统计结果比较,描述性统计,: C1, C2, C3, C4, C5, C6, C7, C8, C9, C10,,,,平均值,,变量,N N*,平均值 标准误 标准差 最小值 下四分位数 中位数 上四分位数,,C1 250 0 70.605 0.534 8.439 43.537 64.924 70.895 76.690,,C2 250 0 69.633 0.623 9.847 43.521 63.094 70.174 76.382,,C3 250 0 69.643 0.591 9.341 47.785 62.617 69.063 76.286,,C4 250 0 70.293 0.559 8.846 49.313 64.745 69.702 75.834,,C5 250 0 70.705 0.603 9.542 45.849 64.118 70.673 77.782,,C6 250 0 69.385 0.587 9.288 41.398 63.237 69.285 76.174,,C7 250 0 70.228 0.543 8.585 48.888 64.444 70.587 75.767,,C8 250 0 69.852 0.592 9.357 41.977 63.096 69.826 77.060,,C9 250 0 70.126 0.568 8.988 48.100 64.023 69.871 75.867,,C10 250 0 70.052 0.185 2.930 61.501 68.167 70.479 72.180,5,、描述统计结果比较(续),描述性统计,: C1, C2, C3, C4, C5, C6, C7, C8, C9, C10,,,,平均值,,变量,N N*,平均值 标准误 标准差 最小值 下四分位数 中位数 上四分位数,,C1 250 0 70.605 0.534 8.439 43.537 64.924 70.895 76.690,,C2 250 0 69.633 0.623 9.847 43.521 63.094 70.174 76.382,,C3 250 0 69.643 0.591 9.341 47.785 62.617 69.063 76.286,,C4 250 0 70.293 0.559 8.846 49.313 64.745 69.702 75.834,,C5 250 0 70.705 0.603 9.542 45.849 64.118 70.673 77.782,,C6 250 0 69.385 0.587 9.288 41.398 63.237 69.285 76.174,,C7 250 0 70.228 0.543 8.585 48.888 64.444 70.587 75.767,,C8 250 0 69.852 0.592 9.357 41.977 63.096 69.826 77.060,,C9 250 0 70.126 0.568 8.988 48.100 64.023 69.871 75.867,,C10 250 0 70.052 0.185 2.930 61.501 68.167 70.479 72.180,现在开始比较。
样本的散布,(,C,9),和样本平均的散布,(,C10),进行比较散布,,减少了很多,.,σ,=,,8.988,σ,=,2.,930,6,、,直方图,结果比较,用点图比较频度数,则,能够更明确的了解,散布,7,、,点图,结果比较,,样本平均值分布的,平均值,和总体的平均值十分接近,;,,样本平均值分布的,标准偏差,等于总体的标准偏差除以样本数的平方根,;,,样本平均值的分布十分接近正态分布8,、,结论,,当总体数据是非正态分布时,若从中随机抽样,n,个并计算其平均,,,同样如此反复若干次,然后比较这些平均的散布与这些个体值的,,散布,你会发现,当,n,→∞,时,,x-bar,的散布也具有正态分布为了验证,,,我们在非正态分布中随机选择一个偏移较大的分布,-,,“,Chi-Square,分布,”,,求其,x-bar,来体会一下中心极限定理当总体数据不具备正态分布时,中心极限定理理解例题模拟,-2,1,、用卡方分布随机产生,9,列,每列各有,250,个数据,2,、用产生的数据进行,点图,描绘和,正态检验,,在这里看到,这是一个很偏移的分布,,,我们用它来验证中心极限定理,C10,项是对,,C1~C9,的平均值的数据统计,,,同样样本大小为,9,,其散布明显变得小多了。
描述性统计,: C1, C2, C3, C4, C5, C6, C7, C8, C9, C10,,,平均值,,变量,N N*,平均值 标准误 标准差 最小值 下四分位数 中位数 上四分位数,,C1 250 0 1.917 0.122 1.932 0.002 0.543 1.252 2.602,,C2 250 0 2.038 0.112 1.768 0.003 0.602 1.453 3.068,,C3 250 0 2.072 0.130 2.050 0.009 0.558 1.402 2.853,,C4 250 0 2.005 0.139 2.204 0.002 0.551 1.327 2.875,,C5 250 0 1.854 0.109 1.726 0.009 0.534 1.283 2.595,,C6 250 0 1.954 0.129 2.039 0.003 0.477 1.347 2.743,,C7 250 0 1.965 0.122 1.935 0.011 0.516 1.412 2.759,,C8 250 0 2.074 0.138 2.178 0.011 0.597 1.379 2.755,,C9 250 0 2.008 0.136 2.149 0.022 0.599 1.283 2.680,,C10 250 0 1.9875 0.0436 0.6894 0.4733 1.5253 1.9290 2.4214,3,、用产生的数据进行,描述统计,比较,,s,s,s,x,x,x,n,=,=,=,=,2,0,9,2,0,3,0.67,.,.,个体值的分布,样本平均的分布,,4,、,点图,描绘比较,验证中心极限定理,个体值的概率图,,样本平均的分布,5,、,正态概率图,描绘比较,验证中心极限定理,3,0,2,0,1,0,0,1,0,9,8,7,6,5,4,3,2,S,a,m,p,l,e,n,S,t,a,n,E,r,r,标准误差和样本大小关系,标准误差与样本大小的关系,。