南农统课本示稿第4章正态分布起

上传人:cl****1 文档编号:567705497 上传时间:2024-07-22 格式:PPT 页数:32 大小:934.53KB
返回 下载 相关 举报
南农统课本示稿第4章正态分布起_第1页
第1页 / 共32页
南农统课本示稿第4章正态分布起_第2页
第2页 / 共32页
南农统课本示稿第4章正态分布起_第3页
第3页 / 共32页
南农统课本示稿第4章正态分布起_第4页
第4页 / 共32页
南农统课本示稿第4章正态分布起_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《南农统课本示稿第4章正态分布起》由会员分享,可在线阅读,更多相关《南农统课本示稿第4章正态分布起(32页珍藏版)》请在金锄头文库上搜索。

1、试验设计与统计分析试验设计与统计分析第四章第四章 理论分布和抽样分布理论分布和抽样分布本课程使用盖钧镒主编的试验统计方法一书作为课本。全程为38学时,占2学分。 第二章 试验设计与实施第三章 次数分布和平均数、变异数第五章 统计假设测验第八章 参数估计方法第六章 方差分析第七章 卡方测验第九章 直线回归和相关第一章 科学实验及其误差控制第十章 多元回归和相关第十四章 不完全区组设计和统计分析第十二章 单因素试验的统计分析第十三章 多因素试验结果的统计分析第十五章 抽样调查第十一章 曲线回归第四章 理论分布和抽样分布第二节 二项分布第一节 事件、概率和随机变量第三节 正态分布第四节 抽样分布第五

2、节 几种常用的分布第三节 正态分布l 既然连续性随机变量有无数个连续的可能的值,因 此无法象对待离散型随机变量那样,对每个可能的 值计算出其发生的概率。事实上,连续型随机变量 刚好等于某一个值的概率为0。l 如果随机事件在某一范围内有无数个连续的可能结 果,则相应的随机变量叫做连续型随机变量。l 对连续型随机变量只能计算调查的对象其观察值落 在某一个区间范围内的概率。l 方法是:为某一种连续型随机变量寻找一个合适的 函数,利用这函数在某一区间内的定积分来表示该 变量落在该区间的概率。这样的函数称为该随机变 量的分布密度函数。第三节 正态分布l 如果对于某一个随机变量x,找到一个函数f(x),它

3、具有下列性质: 当 x 为任何实数时,f(x)0,即 f(x)为非负函数; x 在区间(-,)中的广义积分 ,即 f(x)与 x 轴之间的总面积为1; ,即 x 落在区间(x1,x2) 之间的概率刚好等于这区间内的定积分。 则称函数 f(x)为该随机变量 x 的分布密度函数。它的原函数 称为概率分布函数,简称分布函数。x1x2 不同的随机变量可能具有不同的分布,因而有不同的密度函数。以下介绍几种最常用的连续型随 机变量的分布。第三节 正态分布l 于是,随机变量y落在区间(y1,y2)内的概率为:l 若随机变量y的概率密度函数为: 则称随机变量y服从具有参数和的正态分布。记 为 。其中为y的平均

4、数, 为y 的方差。l 其概率分布函数为:第三节 正态分布l 利用密度函数 可以作出正态分 布曲线的图像。 -2 +2 -3 - + +3 f(y)y第三节 正态分布 -2 +2 -3 - + +3 f(y)yl 正态曲线的特性: 单峰,倒钟状,当y= 时,f(y)达最大值; 当y时,f(y)0; 以y=为轴左右对称; 曲线与横轴间面积为1; 在y= 处有两个拐点; 若 不变, 改变使曲线左右平移, 形状不变;=0时, 对称轴与纵轴重合;说明 代表了数据的中心位置; 当 不变, 改变使曲线形状改变,对称轴不变; 当 变小时,曲线变高瘦,中部的面积变大;当 变 大时,曲线变矮胖,中部的面积变小;

5、说明 衡量了 资料的变异程度。面积占68.27%面积占95.45% y的某区间内曲线 与横轴之间的面积就是随机变量y落在该区间 的概率。这部分的面 积是如何计算的呢?第三节 正态分布 所以,随机变量y落在区间(y1,y2)内的概率为:l 因为正态分布函数为: 计算这些定积分不是件容易的事,因此要寻求更为简 单易行的方法。第三节 正态分布 ,那么将有:l 如果将服从 分布的随机变量y进行变换: 于是原变量y在区间(y1,y2)之间的概率就可以用u在区 间(u1,u2)之间的概率来计算。 这个u称为正态离差 u的密度函数记为:并称为标准正态分布密度函数。相应地记标准正态分布的概率函数为:因为y的平

6、均数为,方差为2,所以 的平均数为:方差为:l 统计学家已经将标准正态分布的概率计算出来,我们 只要学会查表就可以计算对应于不同的u的(u)值。第三节 正态分布查p.357附表2得:(1)=0.15866,(1)=0.84134,于是算得P(30y40)=0.841340.15866 = 0.68268 = 68.268%。l 例题:已知某品种玉米单株产量 y 服从正态分布, ,其中=35g, = 5g。现从此总体中随机抽取一株,问产量落在(30, 40)g之间的概率是多少?l 解:因为30 35 40 -1 0 1 换个方 式提问第三节 正态分布查p.357附表2得:(1)=0.15866,

7、(1)=0.84134,于是算得P(30y40)=0.841340.15866 = 0.68268 = 68.268%。l 例题:已知某品种玉米单株产量 y 服从正态分布, ,其中=35g, = 5g。现从此总体中随机抽取一株, 问产量落在(30, 40)g之间的概率是多少?l 解:因为有95%的可能落在什么区间?l p.359附表3列出了两尾概率之和为 的u值。l 若要用99%的把握作判断,要在附表3查得当=0.01 时的u值(2.58),用它代入上式,重新计算。得: P( 2.58 u 2.58 ) = P( 22.1 y 47.9 )。显然,你要说话更有把握,就要把区间扩得宽些。22.1

8、 35 47.999% =0.01 =0.0525.2 35 44.895%第四节 抽样分布l 统计学一个主要任务是研究总体和样本之间的关系l 总体和样本之间的关系可以从两个方向进行研究: 从总体到样本:即研究 从总体中抽出的所有可能样本的统计量的分布及其与原总体的关系。即抽样分布的情况。 从样本到总体:即研究 从总体中抽出的一个随机样本,并用样本的统计量对总体的参数作出推断。即统计假设测验。本节讨论这个问题。下一章讨论这个问题。l 抽样又分为复置抽样和不复置抽样。 复置抽样 将抽得的个体放回总体继续参加抽样。不复置抽样 抽得的个体不放回总体参加后续的抽样。 本章中,讨论抽样分布时,只考虑复置

9、抽样的情况。第四节 抽样分布l 如果有一个总体,大小为N,平均数为,方差为 2。从这总体中抽取一个大小为 n 的样本,可以算出样本平均数 。l 样本平均数的总体参数 这个 不是常数,而是一个随机变量。因为你下次再从这总体中抽取一个大小为 n 的样本,这个 的值就不同了。如果N是个有限大的数,将一共有m=N n种可能的样本。如果N是个无限大的数,则m是个无限大的整数。这m个 可以构成一个总体。称为样本平均数总体。l 统计学已经证明,样本平均数总体的平均数等于原总 体的平均数,样本平均数总体的方差等于原总体方差 的n分之一。即 , 我们不打算证明它,我们只想用简单的实例来验证它。第四节 抽样分布l

10、 如果原总体大小为N =3,观察值分别为2,4,6。可以算出它的总体平均数和总体方差。可以算出它的总体平均数=4,总体方差 。现在从中抽取一个大小为n=1的样本。共有m=31=3种可能的抽法。样本的构成和样本平均数如下表:l 因此,l 验证 ,等于原总体平均数等于原方差的1/n。第四节 抽样分布l 如果原总体大小为N =3,观察值分别为2,4,6。可以算出它的总体平均数=4,总体方差 。现在从中抽取一个大小为n=2的样本。共有m=32=9种可能的抽法。样本的构成和样本平均数如下表:l 因此,l 验证 ,等于原总体平均数等于原方差的1/n。第四节 抽样分布l 如果原总体大小为N =3,观察值分别

11、为2,4,6。可以算出它的总体平均数=4,总体方差 。现在从中抽取一个大小为n=4的样本。共有m=34=81种可能的抽法。样本的构成和样本平均数如下表:l 因此,l 验证 ,等于原总体平均数等于原方差的1/n。第四节 抽样分布l 如果原总体大小为N =3,观察值分别为2,4,6。可以算出它的总体平均数=4,总体方差 。现在从中抽取一个大小为n=8的样本。共有m=38=6561种可能的抽法。l 验证 ,样本构成和样本平均数如下p.67表4.6。可以算得:等于原总体平均数等于原方差的1/n。l 对于任意的样本大小n,情况都可以同样得到验证。p.67图4.15展示了随着n的增大, 分布向正态的逼近。

12、n=1n=4n=8n=2 记住: 对于样本 平均数总体,有:n=16第四节 抽样分布l 如果有一个总体,大小为N,平均数为,方差为 2。从这总体中抽取一个大小为 n 的样本,可以算出样本总和数y。这个总和数也是一个随机变量。因而也构成一个总和数总体。l 样本总和数的总体参数l 可以证明,总和数总体的参数与原总体的参数之间有以下关系:证明:如果x, y是变量,a是常数,并且y=ax,则:现在,样本总和数y=n 。并且 的均数和方差为 , 。根据下面的公式就有关系: ,第四节 抽样分布l 两个独立样本平均数差数的总体参数l P.68例4.8用两个简单的总体来验证这个关系。l 如果从一个具有参数1,

13、12的总体中抽取大小为n1的 样本,样本平均数为 ;又从另一个具有参数2,22 的总体中抽取大小为n2的样本,样本平均数为 。则 两样本平均数之差数 的总体平均数为 总体方差为 第四节 抽样分布l 请注意,上面讨论到的抽样总体,不论是 样本平均数总体、 样本总和数总体、还是 两样本平均数之差数的总体 其样本平均数和方差与原总体的平均数和方差都有相应的关系,与原总体的分布无关。l 如果原总体的分布为已知,则相应的抽样总体的分布 就更为清楚了。l 以下讨论原总体的分布为正态分布时,相应的抽样总 体的分布。第四节 抽样分布l 实际应用中,当n30时,就可以应用此定理。l 如果原总体服从正态分布 ,则

14、无论样本容 量n是大是小,样本平均数 将服从平均数为 , 方差为 的正态分布。即l 如果原总体不是正态分布的,但已知其总体均数为 , 方差为 ,则当从中抽取的样本容量n足够大时,中心 极限定理指出,样本平均数 将服从平均数为 , 方差为 的正态分布。即l 将 转换为正态离差 u,就可以计算出 落在某区间的 概率。 回忆以前的例子, 稍改动变成现在的例子。看如何计算平均数 落在某区间的概率。第三节 正态分布(回忆)查p.357附表2得:(1)=0.15866,(1)=0.84134,于是算得P(30y40)=0.841340.15866 = 0.68268 = 68.268%。l 例题:已知某品

15、种玉米单株产量 y 服从正态分布, ,其中=35g, = 5g。现从此总体中随机抽取一株, 问产量落在(30, 40)g之间的概率是多少?l 解:因为有95%的可能落在什么区间?l p.359附表3列出了两尾概率之和为 的u值。l 若要用99%的把握作判断,要在附表3查得当=0.01 时的u值(2.58),用它代入上式,重新计算。得: P( 2.58 u 2.58 ) = P( 22.1 y 47.9 )。 换个方 式提问第三节 正态分布(回忆)查p.357附表2得:(1)=0.15866,(1)=0.84134,于是算得P(30y40)=0.841340.15866 = 0.68268 =

16、68.268%。l 例题:已知某品种玉米单株产量 y 服从正态分布, ,其中=35g, = 5g。现从此总体中随机抽取一株, 问产量落在(30, 40)g之间的概率是多少?l 解:因为有95%的可能落在什么区间?l p.359附表3列出了两尾概率之和为 的u值。l 若要用99%的把握作判断,要在附表3查得当=0.01 时的u值(2.58),用它代入上式,重新计算。得: P( 2.58 u 2.58 ) = P( 22.1 y 47.9 )。l 例题:已知某品种玉米单株产量 y 服从正态分布, ,其中=35g, = 5g。现从此总体中随机抽取一个容量为 n =25 株的样本,问样本平 均产量 有

17、95%的可能落在什么区间?第四节 抽样分布l 例题:已知某品种玉米单株产量 y 服从正态分布, ,其中=35g, = 5g。现从此总体中随机抽取一株, 问产量落在(30, 40)g之间的概率是多少?有95%的可能落在什么区间?l p.359附表3列出了两尾概率之和为 的u值。l 若要用99%的把握作判断,要在附表3查得当=0.01 时的u值(2.58),用它代入上式,重新计算。得: P( 2.58 u 2.58 ) = P( 22.1 y 47.9 )。l 例题:已知某品种玉米单株产量 y 服从正态分布, ,其中=35g, = 5g。现从此总体中随机抽取一个容量为 n =25株的样本,问样本平

18、 均产量 有95%的可能落在什么区间?第四节 抽样分布l 因为 ,于是:P( 2.58 u 2.58 ) = P( 32.42 37.58)。 如果将样本 大小增加到 n=100呢?显然,你要说话更有把握,就要把区间扩得宽些。33.04 35 36.9695% =0.0532.42 35 37.5899% =0.01第四节 抽样分布l 当n=25时,l当n=100时,l 例题:已知某品种玉米单株产量 y 服从正态分布, ,其中=35g, = 5g。现从此总体中随机抽取一个容量为 n =25 株的样本,问样本平 均产量 有95%的可能落在什么区间?n=100株的样本, 显然,大样本比小样本估计出

19、的区间更为 精确些。33.04 35 36.9695% n =2534.02 35 35.9895%n=100 再看课本 p.70例4.9第四节 抽样分布l 两个独立样本平均数差数的总体分布l 如果从一个具有参数1,12的正态总体中抽取大小为 n1的样本,样本平均数为 ;又从另一个具有参数2, 22 的正态总体中抽取大小为n2的样本,样本平均数 为 。则两样本平均数之差数 将服从总 体平均数为 ,总体方差为 的正态分布。l 将 转换为正态离差 就可以计算出差数 落在某区间的概率。l 如果两个独立样本来自同一非正态总体,即具有相同 的参数和 2,则只有当n1n2都足够大时,两样本平 均数之差数

20、才服从上述的正态分布。l 如果两个独立样本来自不同的非正态总体,只有当 12 22 ,且n1n2都足够大时,两样本平均数之差数 才近似服从正态分布。否则分布很难确定。 再看从二项总体进行抽样的 情况(p.71)。第二节 二项分布(回忆)l 考察一种常见的随机事件,用一个随机变量来表示它的结果,并看看这种随机变量的概率分布。可以用一个随机变量(例如 y )来表示它,当出现某种情况时,记 y0,出现另一种情况时,记 y。试验或调查中常见到一种只有两种结果的随机事件。如调查一个人的性别、一株作物是否有病、丢一个硬币是否正面朝天等等。调查所有的(个)研究对象,得个 y 值,构成一个总体。这种由个0或1

21、构成的总体称为“二项总体”。l先计算出这样的总体的平均数和方差。若事件出现的概率为p,其对立事件出现的概率为q=1-p,则其概率分布表如上。利用此表可以计算出总体平均数=p和总体方差 2=pq。l 从此总体中抽取大小为n的样本,样本总和数y将服 从平均数为np,方差为npq的二项分布。(p72) 因为样本观察值只有0和1两种。所以样本总和数y 等于样本中含1的个数,其分布就是先前讨论的独立 重复试验的例子。(p56)l 从此总体中抽取大小为n的样本,样本平均数 y/n 将服从平均数为p,方差为pq/n的二项分布。(p71) 这里所说的样本平均数也就是先前说二项百分数。 所以其分布与样本总和数x

22、的分布一样。但其平均 数要除以n,而方差则需要除以n2。 当n足够大而且np和nq都大于5时,可用正态分布来近似计算。 p.72的例4.9第五节 几种常用的分布l 学生氏分布l 若随机变量t的概率密度函数为: 则称随机变量t服从自由度为n-1的t分布。l 分布曲线的特性: 单峰,倒钟状,以 t = 0为轴左右对称; 不同的df有不同的曲线,当df小时,曲线肥矮,当df大 时,曲线高瘦,当df时,曲线与标准正态曲线重合; 曲线与横轴间面积为1。f(t)tdf=5df=10df=30正态例:随机变量t服从df=3的分布,它在区间(-t0.05,t0.05) 的概率为95%,即在此区间以外的概率为5

23、%,查表求 t0.05的值。p.360附表4列出了不同自由度的t分布表值。第五节 几种常用的分布l 2分布(卡平方分布)l 若随机变量2的概率密度函数为: 则称随机变量2服从自由度为n的2分布。l 2分布曲线的特性: 20,图象都在第一象限; 不对称的单尾型曲线,随着自由度增加变得稍对称, 但顶峰变矮; df3时,曲线与横轴间面积为1;df 3时,曲线与 纵横两轴间面积为1。例:随机变量2服从df =3的2分布,它在区间(0, 20.05)的概率为95%,即在此区间以外的概率为5%,查表求20.05的值。p.367附表6列出了若干常用概率下()的2分布表值。df =1df =3df =5f(

24、2) 2第五节 几种常用的分布l 分布l 若随机变量的概率密度函数为: 则称随机变量服从第一自由度为n1的、第二自由度 为n的分布。l 分布曲线的特性: 0,图象都在第一象限; 曲线受两个自由度n1、n的影响; 不对称的单尾型曲线,曲线与横轴间面积为1。例:某随机变量F服从df1=5, df2=10的F分布,它在区间 (0,F0.05)的概率为95%,即在此区间以外的概率为5%,查表求F0.05的值。p.361366附表5列出了=0.05和=0.01的分布表值。df1=1, df2= 5df1=2, df2= 5df1=5, df2= 4f(F)F第四章 理论分布和抽样分布第二节 二项分布第一节 事件、概率和随机变量第三节 正态分布第四节 抽样分布第五节 几种常用的分布第四章 理论分布和抽样分布

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号