第三章分布函数的计算PPT优秀课件

上传人:新** 文档编号:578168571 上传时间:2024-08-23 格式:PPT 页数:89 大小:621.50KB
返回 下载 相关 举报
第三章分布函数的计算PPT优秀课件_第1页
第1页 / 共89页
第三章分布函数的计算PPT优秀课件_第2页
第2页 / 共89页
第三章分布函数的计算PPT优秀课件_第3页
第3页 / 共89页
第三章分布函数的计算PPT优秀课件_第4页
第4页 / 共89页
第三章分布函数的计算PPT优秀课件_第5页
第5页 / 共89页
点击查看更多>>
资源描述

《第三章分布函数的计算PPT优秀课件》由会员分享,可在线阅读,更多相关《第三章分布函数的计算PPT优秀课件(89页珍藏版)》请在金锄头文库上搜索。

1、1、密度函数和分布函数、密度函数和分布函数2、分布函数的一般计算方法、分布函数的一般计算方法3、标准正态分布的计算方法、标准正态分布的计算方法4、统计工具箱的各种分布计算、统计工具箱的各种分布计算5、统计推断原理、统计推断原理6、非参数统计分析、非参数统计分析7、习题、习题第三章第三章分布函数的计算分布函数的计算1分布函数的计算在整个信息统计分析应用中起着基础性的作用,分布函数的计算在整个信息统计分析应用中起着基础性的作用,当我们建立了某个统计模型后,会产生很多的统计量,用它们对某当我们建立了某个统计模型后,会产生很多的统计量,用它们对某个假设进行检验。这时必须知道这些统计量的分布,某一点的概

2、率、个假设进行检验。这时必须知道这些统计量的分布,某一点的概率、某概率的分位点。在学习概率论时我们已经知道用查表的方法进行某概率的分位点。在学习概率论时我们已经知道用查表的方法进行计算。本章介绍分布函数的计算方法,以及如何用计算。本章介绍分布函数的计算方法,以及如何用MATLAB的统计的统计工具箱计算各种分布的概率与分位点的计算。工具箱计算各种分布的概率与分位点的计算。21、密度函数和分布函数、密度函数和分布函数密度函数和分布函数是反映随机变量的总体规律的函数,当密度函数和分布函数是反映随机变量的总体规律的函数,当一个变量一个变量X在没有抽样之前不知会有什么结果,但结果的范围是在没有抽样之前不

3、知会有什么结果,但结果的范围是知道的,这样的变量称为随机变量。随机变量可以分为:知道的,这样的变量称为随机变量。随机变量可以分为:(1)连续型随机变量)连续型随机变量(2)离散型随机变量)离散型随机变量(1)连续型随机变量)连续型随机变量随机变量的结果空间是实数,例如服从(随机变量的结果空间是实数,例如服从(0,1)上的均匀分布随)上的均匀分布随机数、人体身高随机数等。机数、人体身高随机数等。例例3.1.1续型随机变量的例子:续型随机变量的例子:大学生男性身高大学生男性身高X、随机抽一个大学生量其身高得随机变量的、随机抽一个大学生量其身高得随机变量的一个实现,例如一个实现,例如x=1.75米。

4、则米。则X是一个连续型的随机变量。这种是一个连续型的随机变量。这种随机变量服从正态分布。正态分布是统计分析中极其重要的分布。随机变量服从正态分布。正态分布是统计分析中极其重要的分布。3(2)离散型随机变量)离散型随机变量当一个随机变量当一个随机变量X的结果空间有有限个元素或可列个元素时,的结果空间有有限个元素或可列个元素时,称该随机变量为离散型随机变量。称该随机变量为离散型随机变量。例例3.1.2离散型随机变量的例离散型随机变量的例设某汽车站设某汽车站7点到点到7点点05分等车的人数为一变量分等车的人数为一变量X,显然,显然X可取可取值值0,1,2,3,。则。则X是一个离散型的随机变量。事实上

5、这种随是一个离散型的随机变量。事实上这种随机变量称为服从泊松分布规律的随机变量。机变量称为服从泊松分布规律的随机变量。投一硬币,正面为投一硬币,正面为1,反面为,反面为0。记该随机变量为。记该随机变量为X,则其结果,则其结果空间为空间为0,1。也是一个离散随机变量。也是一个离散随机变量。(一)密度函数和分布律(一)密度函数和分布律随机变量随机变量X在没有发生时我们不知到,也不能预测其结果,看在没有发生时我们不知到,也不能预测其结果,看似随机变量没有规律。但是我们进行大量抽样或实验时,却可以看似随机变量没有规律。但是我们进行大量抽样或实验时,却可以看见明显的规律。见明显的规律。4例例3.1.3:

6、对男性大学生随机抽检,共抽对男性大学生随机抽检,共抽400名大学生测量其身高。名大学生测量其身高。将身高区间(将身高区间(1.50,2.1)分划分成若干段,计算每段学生身高的数)分划分成若干段,计算每段学生身高的数量,并作直方图。量,并作直方图。%第三章,例第三章,例3.1.3R=normrnd(1.7,0.1,400,1);%产生正态分布的随机数产生正态分布的随机数histfit(R,12)%作直方图并建立拟合曲线作直方图并建立拟合曲线5从例从例3.1.3可以看出,大学生身高的一些特点。可以看出,大学生身高的一些特点。1)首先身高在平均值附近的人数特别多。)首先身高在平均值附近的人数特别多。

7、2)从直方图中我们可以看出身高的趋势具有对称性。)从直方图中我们可以看出身高的趋势具有对称性。3)离平均值越远数量越少。)离平均值越远数量越少。这是典型的正态分布的特点。可以想象当我们抽样量增大应该这是典型的正态分布的特点。可以想象当我们抽样量增大应该有一个理论函数作为极限。有一个理论函数作为极限。密度函数(密度函数(inv)称这个理论函数为连续型随机变量的密度函数,上图中的红线所显称这个理论函数为连续型随机变量的密度函数,上图中的红线所显示的就是密度函数的图形。在示的就是密度函数的图形。在MATLAB这密度函数用这密度函数用inv来表示。来表示。正态分布的密度函数正态分布的密度函数p 表达式

8、为:表达式为:6其中参数:其中参数:为平均值。是随机变量中心趋势的描述。:为平均值。是随机变量中心趋势的描述。:为标准差。是随机变量离散程度的描述。:为标准差。是随机变量离散程度的描述。分布律(分布律(inv)对于离散型随机变量,分布律相当于连续型随机变量的密度函数。对于离散型随机变量,分布律相当于连续型随机变量的密度函数。例例3.1.4:作泊松分布随机变量的分布律图形。:作泊松分布随机变量的分布律图形。这里这里为参数,表示随机变量的平均值和方差。为参数,表示随机变量的平均值和方差。7设平均值为设平均值为5,算出,算出0到到10的分布律的分布律X=0:10;Y=poissinv(X,5);%计

9、算泊松分布每点的概率计算泊松分布每点的概率stem(X,Y)%作分布律图形作分布律图形8(二)分布函数(二)分布函数cdf分布函数是对密度函数进行积分,其表达式为:分布函数是对密度函数进行积分,其表达式为:分布函数函数具有以下性质:分布函数函数具有以下性质:1)对任意)对任意x有有2)单调不降,)单调不降,利用分布函数我们可以计算随机变量利用分布函数我们可以计算随机变量X落在某一范围的概率,落在某一范围的概率,或者说我们掌握了该随机变量的规律了。或者说我们掌握了该随机变量的规律了。连续型连续型离散型离散型9例例3.1.5:分别作出连续型和离散型随机变量的:分别作出连续型和离散型随机变量的inv

10、和和cdf(1)设男性大学生的身高)设男性大学生的身高X的平均值为的平均值为1.7米,标准差为米,标准差为0.1米。米。作密度函数和分布函数。利用作密度函数和分布函数。利用MATLAB中的正态分布中的正态分布norminv和和normcdf命令进行计算命令进行计算X=linspace(1.4,2.1,100);P=normcdf(X,1.7,0.1);p=norminv(X,1.7,0.1);subplot(1,2,1),plot(X,p),title(身高密度函数身高密度函数)subplot(1,2,2),plot(X,P),title(身高分布函数身高分布函数)10(2)设)设X服从均值为

11、服从均值为5的泊松分布,作分布律和分布函数图形。的泊松分布,作分布律和分布函数图形。X=0:10;Y=poissinv(X,5);Y1=poisscdf(X,5)subplot(1,2,1),stem(X,Y),title(泊松分布律泊松分布律)subplot(1,2,2),stairs(X,Y1),title(泊松分布函数泊松分布函数)11(三)下侧概率、上侧概率和分位点(三)下侧概率、上侧概率和分位点下侧概率的定义:下侧概率的定义:上侧概率的定义:上侧概率的定义:12利用分布函数我们可以计算随机变量利用分布函数我们可以计算随机变量X落在某一范围的概率,落在某一范围的概率,或者说我们掌握了该

12、随机变量的规律了。例如随机变量或者说我们掌握了该随机变量的规律了。例如随机变量X小于分位小于分位点的概率即下侧概率,大于分位点的概率即上侧概率。而随机变量点的概率即下侧概率,大于分位点的概率即上侧概率。而随机变量落入落入x1和和x2之间的概率可用以下公式计算。之间的概率可用以下公式计算。13例例3.1.6:男性大学生身高:男性大学生身高X的平均值为的平均值为1.7米,标准差为米,标准差为0.1米。米。1)计算身高小于)计算身高小于1.8米大于米大于1.6米发生的概率,即随机变量米发生的概率,即随机变量X落入落入区间(区间(1.6,1.8)的概率。)的概率。2)求下侧概率为)求下侧概率为0.95

13、的分位点。的分位点。解:本题利用分布函数进行计算解:本题利用分布函数进行计算P(1.6X1.8)=F(1.8)-F(1.6)%例例3.1.6计算身高小于计算身高小于1.8米大于米大于1.6米发生的概率米发生的概率P=normcdf(1.8,1.7,0.1)-normcdf(1.6,1.7,0.1)计算结果为:计算结果为:P=0.6827X=norminv(0.95,1.70,0.1)%计算下侧概率的分位点计算下侧概率的分位点计算结果为:计算结果为:X=1.8645,即有,即有95%的人身高在的人身高在1.86以下。以下。14例例3.1.7:设某车站:设某车站7:00到到7:05分等车人数为服从

14、泊松分布的随分等车人数为服从泊松分布的随机变量机变量X,均值为,均值为5。求。求1)人数小于等于)人数小于等于12发生的概率。发生的概率。2)人数大于等于)人数大于等于8发生的概率。发生的概率。3)计算上侧概率为)计算上侧概率为0.05的分位点。的分位点。解:本题利用分布函数进行计算解:本题利用分布函数进行计算1)小于)小于12的计算公式为:的计算公式为:P=poisscdf(12,5)%小于小于12的概率的概率计算结果为:计算结果为:P=0.9982)大于)大于8的计算公式为:的计算公式为:1-F(8)P=poisscdf(12,5)%小于小于12的概率的概率153)按题义命令为:按题义命令

15、为:x=poissinv(0.95,5)计算结果为:计算结果为:x=916(一)(一)积分计算的一般方法积分计算的一般方法分布函数的一般形式为:分布函数的一般形式为:问题实际归为求积分,问题实际归为求积分,当当密密度度函函数数非非常常复复杂杂或或用用解解析析方方法法不不能能积积分分时时,我我们们常常常常使使用用数值积分的方法来处理。数值积分的方法来处理。(3.2.1)2、分布函数的一般计算方法、分布函数的一般计算方法17其基本思想是,用简单函数来代替复杂的被积函数。例如在被其基本思想是,用简单函数来代替复杂的被积函数。例如在被积函数的定义域内选一系列的点。积函数的定义域内选一系列的点。然后求在

16、该点处的函数值然后求在该点处的函数值定义插值多项式如下:定义插值多项式如下:(3.1.2)其中其中18这里这里称为拉格朗日插值多项式称为拉格朗日插值多项式,其具有以下性质:,其具有以下性质:1)。2)在上点与点之间为线性函数。在上点与点之间为线性函数。显然有以下关系式成立:显然有以下关系式成立:(3.1.3)其中其中是误差函数。是误差函数。19可以证明,当可以证明,当有有n+1阶有界导数时,阶有界导数时,(3.1.4)当当时,时,即当,即当是不高于是不高于n阶的多项式时,有阶的多项式时,有对对(3.1.3)两边积分,我们有两边积分,我们有(3.1.5)20从而我们可以得到积分的一般近似公式从而

17、我们可以得到积分的一般近似公式:(3.1.7)其中,其中,(3.1.7)称为称为NewtonCotes型积分公式,型积分公式,而而Ai 为为Cotes系数,其误差为系数,其误差为这样我们就将一个复杂的积分问题,近似地用代数和的形式来这样我们就将一个复杂的积分问题,近似地用代数和的形式来代替了。关于计算的精度我们可以通过代替了。关于计算的精度我们可以通过 E来估计。来估计。目前一些目前一些数学软件如数学软件如Mathematica等,可以方便地获取等,可以方便地获取Cotes系数,系数,21x0x1x2x3x4f(x2)f(x4)红色折线为红色折线为拉格朗日拉格朗日插值插值多项式多项式22l l

18、代数精度概念代数精度概念定定义义3.1.1若若某某个个求求积积公公式式对对于于小小于于等等于于n的的多多项项式式均均能能准准确确地地成成立立,但但对对n+1次次多多项项式式则则不不能能。则则称称该该求求积积公公式式具具有有n次次代数精度。代数精度。例例3.1.1梯形求积公式梯形求积公式当当 时,左边时,左边=右边。准确地成立。右边。准确地成立。当当时,也准确成立。时,也准确成立。23当当时时,而,而所以梯形求积公式具有一次代数精度。所以梯形求积公式具有一次代数精度。例例3.1.2利用梯形、抛物线及利用梯形、抛物线及NewtonCotes求积公式求积公式(n=7)计算)计算解:(解:(1)梯形求

19、积公式)梯形求积公式Cotes系数为系数为1/2,1/2,24(2)抛物线求积公式)抛物线求积公式Cotes系数为系数为1/6,4/6,1/6(3)取)取7个点个点Cotes系数为系数为41/840,9/35,9/280,34/105,9/280,9/35,/41/84025复合求积公式复合求积公式对对于于一一个个求求积积公公式式,我我们们要要求求它它们们的的算算法法稳稳定定并并收收敛敛,但但不不幸幸的的是是NewtonCotes求求积积公公式式并并不不稳稳定定,在在某某些些情情况况下下计计算不收敛。算不收敛。例例3.1.3讨论函数讨论函数在区间在区间-1,1,用,用Cotes系系数计算的收敛

20、问题。数计算的收敛问题。如用如用 Newton-Cotes求积公式,则在该区间不收敛。请见以求积公式,则在该区间不收敛。请见以下结果下结果n=1时时NC=0.07692n=2时时NC=1.35897n=10时时NC=0.93466n=40时时NC=-4912.4226显然显然NewtonCotes求积公式有致命的弱点。求积公式有致命的弱点。为为改改善善求求积积公公式式,我我们们使使用用复复合合求求积积公公式式。其其基基本本思思想想是是把把积积分分区区间间分分成成若若干干小小区区间间,每每个个小小区区间间中中用用次次数数不不高高的的插插值值多项式近似逼近。多项式近似逼近。1)复合梯形求积公式)复

21、合梯形求积公式对区间对区间a,bn等份,基点等份,基点对每个小区间用梯形求积公式,则对每个小区间用梯形求积公式,则27Tn 称称为为复复合合梯梯形形公公式式。为为便便于于按按迭迭代代计计算算,在在原原有有的的分分划划基基础上把区间分为础上把区间分为2n等分,每个小区使用梯形公式,则有等分,每个小区使用梯形公式,则有这里这里2)复合抛物线求积公式)复合抛物线求积公式复复合合抛抛物物线线求求积积公公式式具具有有比比复复合合梯梯形形求求积积公公式式更更快快的的收收敛敛速速度度。抛抛物物线线公公式式用用到到了了区区间间的的中中点点,所所以以对对区区间间a,b进行划分时应该分成偶数个小区间。进行划分时应

22、该分成偶数个小区间。28令令n=2m,m为正整数,在每个小区间为正整数,在每个小区间 上用抛物线公式上用抛物线公式从而从而293)步长的自动选择与停止准则步长的自动选择与停止准则在在实实际际计计算算中中,往往往往是是先先给给出出误误差差精精度度,在在保保证证精精度度的的前前提提下,没有必要将区间无限的分下去。下,没有必要将区间无限的分下去。假设给出的误差精度为假设给出的误差精度为,若,若则对区间划分到则对区间划分到 2n等分即告停止。等分即告停止。例例3.1.3对对于于误误差差为为0.000001,我我们们来来看看用用复复合合梯梯形形积积分分公公式和复合抛物线求积公式计算结果式和复合抛物线求积

23、公式计算结果30复合梯形求积公式的结果复合梯形求积公式的结果结果为:结果为:n=12t=0.5496878eps=0.0004596结果为:结果为:n=24t=0.54927516eps=0.0004126结果为:结果为:n=48t=0.54933891eps=0.0000638结果为:结果为:n=96t=0.54935496eps=0.0001604结果为:结果为:n=192t=0.54936892eps=4.01210-6结果为:结果为:n=384t=0.54935997eps=1.003210-6结果为:结果为:n=768t=0.54936022eps=2.50810-7复合抛物线求积公

24、式的结果复合抛物线求积公式的结果结果为:结果为:n=12t=0.54036028eps=0.1036734结果为:结果为:n=24t=0.54913762eps=0.0087778结果为:结果为:n=48t=0.549360162eps=0.0002225结果为:结果为:n=96t=0.54936031eps=1.42910-731l高斯(高斯(Gauss)型求积公式)型求积公式我我们们已已经经知知道道用用NowtonCotes系系数数来来进进行行近近似似积积分分,其其一一般公式为:般公式为:其其基基点点是是等等距距离离的的,且且代代数数精精度度最最多多仅仅为为n+1,并并且且对对于于某某些些

25、积积分分步步收收敛敛。能能否否通通过过改改变变基基点点的的距距离离来来提高计算的精度和稳定性呢?回答是肯定的。提高计算的精度和稳定性呢?回答是肯定的。定定义义3.1.2如如果果区区间间a,b的的一一组组基基点点能能够够使使得得插插值值求求积积公公式式具具有有2n+1次次代代数数精精度度,则则称称其其为为高高斯斯型型插插值值求求积公式,其基点称为高斯点,而系数积公式,其基点称为高斯点,而系数Ai则称为高斯系数。则称为高斯系数。32高斯点与正交多项式的关系高斯点与正交多项式的关系定理定理3.1.3是区间是区间a,b上的高斯点的上的高斯点的充分必要条件为多项式充分必要条件为多项式是区间是区间a,b上

26、的上的n+1次正交多项式。次正交多项式。例例3.1.6我们仍然来看前面的例子,对积分我们仍然来看前面的例子,对积分利用高斯插值公式进行近似计算。利用高斯插值公式进行近似计算。解:这里我们取解:这里我们取35个高斯点进行计算,其结果为个高斯点进行计算,其结果为I=0.549362333 3、标准正态分布的数值计算、标准正态分布的数值计算任何正态分布的随机变量任何正态分布的随机变量X通过标准化即通过标准化即U=(X)/S其中其中=E(X)S=V(X)从而得到一个标准正态分布随机变量从而得到一个标准正态分布随机变量U。因此我们仅考虑标准正态。因此我们仅考虑标准正态分布函数的计算,随机变量分布函数的计

27、算,随机变量U以以34为为u的概率密度函数,记为的概率密度函数,记为UN(0,1)。对于标准正态分)。对于标准正态分布随机变量布随机变量U有有E(U)=0V(U)=1(一)(一)标准正态分布与误差函数标准正态分布与误差函数标准正态分布的下侧概率(即分布函数)为标准正态分布的下侧概率(即分布函数)为上侧概率为上侧概率为35上侧概率上侧概率分位点分位点标准正态分布的上侧概率与分位点:标准正态分布的上侧概率与分位点:36用于计算上侧概率的误差函数,定义为:用于计算上侧概率的误差函数,定义为:(0Xx)通过变换有通过变换有则分布函数的计算公式为:则分布函数的计算公式为:37(二)标准正态分布函数的数值

28、计算(二)标准正态分布函数的数值计算计算标准正态分布函数的近似公式很多,在此仅举一例。计算标准正态分布函数的近似公式很多,在此仅举一例。其中其中 a1=0.196854a2=0.115194a3=0.000344a4=0.019527其最大绝对误差是其最大绝对误差是2.5104,这是一个简单实用的近似公,这是一个简单实用的近似公式,在精度要求不高时用起来很方便。式,在精度要求不高时用起来很方便。38其中的一种近似公式为其中的一种近似公式为这里这里39其中其中c0=2.515517d1=1.432788c1=0.802853d2=0.189269c2=0.010328d3=0.001308上述近

29、似公式的最大绝对误差为上述近似公式的最大绝对误差为0.00044。其它随机变量的分。其它随机变量的分布函数也是按照某种近似公式计算的。布函数也是按照某种近似公式计算的。405、统计工具箱的各种分布计算、统计工具箱的各种分布计算(一)各种分布的概率计算(一)各种分布的概率计算MATLAB给出了各种分布的随机数的计算,部分列表如下:给出了各种分布的随机数的计算,部分列表如下:命令命令含义含义chi2cdf(X,V)卡方分布,卡方分布,v是自由度是自由度fcdf(X,V1,V2)F分布,分布,v1,v2,为自由度,为自由度expcdf(X,MU)指数分布,指数分布,MU为参数为参数poisscdf(

30、X,LMD)泊松分布,泊松分布,LMD为参数为参数normcdf(X,MU,SIGMA)正态分布正态分布tcdf(X,V)学生分布,学生分布,v是自由度是自由度unifcdf(X,A,B)区间区间A,B上的均匀分布上的均匀分布41命令命令含义含义chi2pdf(X,V)卡方分布,卡方分布,v是自由度是自由度fpdf(X,V1,V2)F分布,分布,v1,v2,为自由度,为自由度exppdf(X,MU)指数分布,指数分布,MU为参数为参数poisspdf(X,LMD)泊松分布,泊松分布,LMD为参数为参数normpdf(X,MU,SIGMA)正态分布正态分布tpdf(X,V)学生分布,学生分布,v

31、是自由度是自由度unifpdf(X,A,B)区间区间A,B上的均匀分布上的均匀分布部分随机变量的密度函数部分随机变量的密度函数pdf42部分随机变量的分位点计算部分随机变量的分位点计算inv命令命令含义含义chi2inv(P,V)卡方分布,卡方分布,v是自由度是自由度finv(P,V1,V2)F分布,分布,v1,v2,为自由度,为自由度expinv(P,MU)指数分布,指数分布,MU为参数为参数poissinv(P,LMD)泊松分布,泊松分布,LMD为参数为参数norminv(P,MU,SIGMA)正态分布正态分布tinv(P,V)学生分布,学生分布,v是自由度是自由度unifinv(P,A,

32、B)区间区间A,B上的均匀分布上的均匀分布43(二)分布函数各种计算命令的命名规则(二)分布函数各种计算命令的命名规则分布计算命令分为三部分,即分布名、计算名和参数。例如:分布计算命令分为三部分,即分布名、计算名和参数。例如:分布名分布名计算名计算名norminv(a1,a2,ak)参数部分参数部分例如:计算正态分布的分位点命令语法为:例如:计算正态分布的分位点命令语法为:X=norminv(P,MU,SIGMA)这里:这里:P:给定的正态分布下侧概率:给定的正态分布下侧概率MU:为均值:为均值SIGMA:为方差:为方差44(三)卡方分布(三)卡方分布:如果随机变量:如果随机变量X的密度函数为

33、:的密度函数为:则称随机变量则称随机变量X服从自由度为服从自由度为v的卡方分布,卡方分布在统计推断的卡方分布,卡方分布在统计推断中具有十分重要的作用,特别是在分布的拟合优度检验时。中具有十分重要的作用,特别是在分布的拟合优度检验时。例例3.5.1关于卡方分布和正态分布的关系关于卡方分布和正态分布的关系(1)作出自由度为作出自由度为4的卡方分布的密度和分布图形的卡方分布的密度和分布图形x=linspace(0,20,100);p=chi2inv(x,4);P=chi2cdf(x,4);subplot(1,2,1),plot(x,p),title(chi2inv)subplot(1,2,2),pl

34、ot(x,P),title(chi2cdf)45从密度图中可以看出卡方随机变量从密度图中可以看出卡方随机变量X的取值均大于的取值均大于0,自由度,自由度v就是就是该随机变量的均值,方差为该随机变量的均值,方差为2v。46(2)产生)产生1000个自由度为个自由度为4的卡方随机数,并估计均值和方差。的卡方随机数,并估计均值和方差。R=chi2rnd(4,1,1000);%产生自由度为产生自由度为4的卡方分布随机数的卡方分布随机数ER=mean(R)%估计估计1000个样本的均值个样本的均值Var=var(R)%估计估计1000个样本的方差个样本的方差结果为:结果为:ER=4.0362Var=8.

35、2509而理论值为:均值即为自由度而理论值为:均值即为自由度v,方差为,方差为2v。(3)设)设X为服从标准正态分布随机数。问统计量为服从标准正态分布随机数。问统计量KA服从何分布?服从何分布?解题思路:对统计量解题思路:对统计量KA抽抽1000次样,每次计算是抽次样,每次计算是抽4个标准正态个标准正态分布随机数,并按上面的公式计算出一个统计量的值。对分布随机数,并按上面的公式计算出一个统计量的值。对1000个个样本作直方图,看其趋势。再调用分布检验命令来确定属于那一分样本作直方图,看其趋势。再调用分布检验命令来确定属于那一分布。布。47%对(对(3)进行实验)进行实验fori=1:1000R

36、=normrnd(0,1,4,1);KA(i)=R*R;End%以上抽以上抽1000个按公式计算的样本个按公式计算的样本hist(KA,20)%调用直方图命令作图调用直方图命令作图kstest(KA,KAchi2cdf(KA,4)%检验数据是否来自卡方分布检验数据是否来自卡方分布ans=0接受原假设来接受原假设来自自由度为自自由度为4的卡方分布。的卡方分布。48(4)计算卡方下侧概率为)计算卡方下侧概率为0.05和和0.95的分位点。的分位点。q1=chi2inv(0.05,4)q2=chi2inv(0.95,4)计算结果为:计算结果为:q1=0.7107q2=9.487749(四)(四)F分

37、布分布:如果随机变量:如果随机变量X的密度函数为:的密度函数为:例例3.5.2作出第一自由度为作出第一自由度为7,第二自由度为,第二自由度为4的的F分布的密度和分分布的密度和分布图形布图形x=linspace(0,20,100);v1=7;v2=4P=fcdf(x,v1,v2);p=fpdf(x,v1,v2);subplot(1,2,1),plot(x,p),title(fpdf)subplot(1,2,2),plot(x,P),title(fcdf)5051(五)随机变量的数字特征计算(五)随机变量的数字特征计算DescriptiveStatistics命令命令含义含义mean(X)求样本的

38、平均值求样本的平均值median(X)求样本的中位数求样本的中位数var(X)求样本的方差求样本的方差std(X)求样本的标准差求样本的标准差skewness(X)求样本的偏度求样本的偏度kurtosis(X)求样本的峰度求样本的峰度corrcoef(X)求多变量样本的相关系数求多变量样本的相关系数随机变量随机变量X的数字特征,也是随机变量性质的一种描述。它们反映的数字特征,也是随机变量性质的一种描述。它们反映了诸如随机变量的中心趋势(如均值、中位数、模等),和离差程了诸如随机变量的中心趋势(如均值、中位数、模等),和离差程度(如方差、标准差、极差等),还描述随机变量的分布特性(如度(如方差、

39、标准差、极差等),还描述随机变量的分布特性(如偏度和峰度等)偏度和峰度等)52(1) (1) 样本均值的计算样本均值的计算meanmean计算公式为:计算公式为: 中心趋势度量的数字特征中心趋势度量的数字特征设一组样本为:设一组样本为:X X1 1,X X2 2,X Xn n(2) (2) 样本的样本的50%50%中位数计算中位数计算median计算公式为:计算公式为:(3) (3) 样本的几何均值计算样本的几何均值计算geomean计算公式为:计算公式为:53(1) (1) 样本方差的计算样本方差的计算varvar计算公式为:计算公式为: 离散程度度量的数字特征离散程度度量的数字特征设一组样

40、本为:设一组样本为:X X1 1,X X2 2,X Xn n(2) (2) 样本的标准差的计算样本的标准差的计算stdstd计算公式为:计算公式为:(3) (3) 样本的极差样本的极差rangerange计算公式为:计算公式为:54例例3.5.3计算计算200个服从正态分布的样本的方差、标准差和极差。个服从正态分布的样本的方差、标准差和极差。X=normrnd(0,1,1,200)VAR=var(X)STD=std(X)RANG=range(X)计算结果为:计算结果为:VAR=0.9519STD=0.9757RANG=4.821755描述该样本分布形态的数字特征统计量有描述该样本分布形态的数字

41、特征统计量有(1) (1) 样本偏度的计算样本偏度的计算skewness计算公式为:计算公式为:56(2) (2) 样本峰度的计算样本峰度的计算kurtosis计算公式为:计算公式为:57(1) (1) 样本矩阵协方差的计算样本矩阵协方差的计算covcov计算公式为:计算公式为: 多变量之间相关程度的度量多变量之间相关程度的度量(2) (2) 样本矩阵的相关系数计算样本矩阵的相关系数计算corrcoef计算公式为:计算公式为:设二维数据为设二维数据为58例例3.5.4计算计算64矩阵的协方差阵和相关矩阵。矩阵的协方差阵和相关矩阵。X=rand(6,4)C=cov(X)R=corrcoef(X)

42、计算结果为:计算结果为:X=0.13890.01530.84620.68130.20280.74680.52520.37950.19870.44510.20260.83180.60380.93180.67210.50280.27220.46600.83810.70950.19880.41860.01960.428959C=0.02870.04010.0133-0.00650.04010.0986-0.0088-0.02760.0133-0.00880.11640.0115-0.0065-0.02760.01150.0318R=1.00000.75530.2306-0.21490.75531.0

43、000-0.0818-0.49320.2306-0.08181.00000.1884-0.2149-0.49320.18841.0000605、统计推断基本原理、统计推断基本原理有了随机变量分布的概念以后,我们就可以利用随机变量或者有了随机变量分布的概念以后,我们就可以利用随机变量或者构造出的统计量的分布特性来进行假设检验了。统计推断或称假设构造出的统计量的分布特性来进行假设检验了。统计推断或称假设检验是统计方法中最为重要的手段之一,可以应用于参数统计推断,检验是统计方法中最为重要的手段之一,可以应用于参数统计推断,非参数统计推断等领域。在统计分析的各种模型中,最后判别模型非参数统计推断等领域

44、。在统计分析的各种模型中,最后判别模型的好坏,我们都要在一定的假设下构造各种统计量然后进行统计推的好坏,我们都要在一定的假设下构造各种统计量然后进行统计推断。在各类商用统计软件中都输出各种统计量的推断结果,因此只断。在各类商用统计软件中都输出各种统计量的推断结果,因此只有掌握了推断的结果才能很好地使用商用统计软件。有掌握了推断的结果才能很好地使用商用统计软件。61(一)实际统计推断原理:(一)实际统计推断原理:小概率事件实际不可能发生小概率事件实际不可能发生。即事件发生可能性很小时,实际上我们认为不可能发生。例如:即事件发生可能性很小时,实际上我们认为不可能发生。例如:1)设姚明在罚球线投篮进

45、与不进是一随机变量)设姚明在罚球线投篮进与不进是一随机变量X,进的可能性是,进的可能性是95%,不进的可能性是,不进的可能性是5%。则在一次投篮时不进这一事件是一个。则在一次投篮时不进这一事件是一个小概率事件,则我们认为他投篮不会不进。小概率事件,则我们认为他投篮不会不进。2)设每个人上街发生交通事故的可能性为)设每个人上街发生交通事故的可能性为0.01%,这是一个小概,这是一个小概率事件。但实际我们认为不可能发生,周末我们照样逛街购物。率事件。但实际我们认为不可能发生,周末我们照样逛街购物。事实上我们并不知道,姚明的命中率。我们是用统计推断的方法来事实上我们并不知道,姚明的命中率。我们是用统

46、计推断的方法来决定的。按以下步骤进行推断:决定的。按以下步骤进行推断:1)H0:进球的概率为:进球的概率为95%2)对)对X进行抽样,即观测投篮结果。进行抽样,即观测投篮结果。3)如果进了接受原假设)如果进了接受原假设H0,进球的概率为,进球的概率为95%。如果没有进,按。如果没有进,按小概率事件实际不可能发生原理,认为不进球不是小概率事件。因小概率事件实际不可能发生原理,认为不进球不是小概率事件。因此推翻原假设。此推翻原假设。62例例3.4.1中国大学生男性身高的平均值是中国大学生男性身高的平均值是1.70米吗?对某大学男生米吗?对某大学男生抽抽20个样,数据为:个样,数据为:1.66 1.

47、53 1.71 1.73 1.59 1.82 1.82 1.69 1.73 1.66 1.53 1.71 1.73 1.59 1.82 1.82 1.69 1.73 1.72 1.68 1.77 1.641 1.92 1.69 1.71 1.80 1.71 1.72 1.68 1.77 1.641 1.92 1.69 1.71 1.80 1.71 1.69 1.621.69 1.62答:现在进行统计推断程序:答:现在进行统计推断程序:1)H0:假定中国男性大学生身高为:假定中国男性大学生身高为1.70米米2)计算统计量)计算统计量按假定该统计量服从均值为按假定该统计量服从均值为1.70,标准差

48、为,标准差为的的T分布分布3)按显著性水平为)按显著性水平为计算该统计量的拒绝域计算该统计量的拒绝域63R=1.661.531.711.731.591.821.821.691.731.72.1.681.771.6411.921.691.711.801.711.691.62ex=mean(R)%计算平均值计算平均值h,p,ci=ttest(R,1.70)%进行均值检验进行均值检验结果为:结果为:ex=1.7116%平均值落在接受域平均值落在接受域1.6706,1.7525h=0%这个结果表示接受原假设,这个结果表示接受原假设,1表示拒绝表示拒绝p=0.5615%概率大于概率大于0.025,表示落

49、在接受域,表示落在接受域ci=1.67061.7525%该结果是接受域该结果是接受域对平均值进行对平均值进行T检验命令的语法:检验命令的语法:h=ttest(x,m)h=ttest(x,m,alpha)h=ttest(x,m,alpha,tail)h,p,ci=ttest(.)这里这里x:表示样本表示样本m:在:在0假设下的平均值假设下的平均值alpha:显著性水平:显著性水平h:0接受,接受,1拒绝。拒绝。p:计算出的概率计算出的概率ci:平均值的置信区间。:平均值的置信区间。64接受域接受域拒绝域拒绝域统计量计算结果统计量计算结果显著性水平显著性水平0.05下下65(二)统计推断中的一些术

50、语(二)统计推断中的一些术语置信水平:拒绝域的概率。置信水平:拒绝域的概率。置信区间置信区间:接受域:接受域显然接受域和置信水平有关,显然接受域和置信水平有关,越小则接受域越大,反之奕然!越小则接受域越大,反之奕然!H0:0假设,或称初始假设,如:假设,或称初始假设,如:H0:x=1.70H1:备择假设,:备择假设,1)双侧假设)双侧假设2)右侧假设)右侧假设3)左侧假设)左侧假设前面,例前面,例3.1.4就是备择假设是双侧的情况,对同样的问题进行右就是备择假设是双侧的情况,对同样的问题进行右侧和左侧检验,作为习题进行计算和推断。侧和左侧检验,作为习题进行计算和推断。66(三)统计推断分类(三

51、)统计推断分类统计推断方法可以分为三类,参数统计推断、分布的拟合优度统计推断方法可以分为三类,参数统计推断、分布的拟合优度统计推断和非参数统计推断。当已知分布的情况下,对分布的各种统计推断和非参数统计推断。当已知分布的情况下,对分布的各种参数进行推断称为参数统计推断。对样本服从某种分布进行假设,参数进行推断称为参数统计推断。对样本服从某种分布进行假设,并进行检验称分布进行分布的拟合优度统计推断。当对某个参数进并进行检验称分布进行分布的拟合优度统计推断。当对某个参数进行统计推断而事先不知其分布时称为非参数统计推断。行统计推断而事先不知其分布时称为非参数统计推断。(1)参数的统计推断)参数的统计推

52、断一个服从某种分布的随机数,其参数是多种多样的。例如均值、方一个服从某种分布的随机数,其参数是多种多样的。例如均值、方差、偏度、峰度、最大值和最小值等等。在大样本的情况下,根据差、偏度、峰度、最大值和最小值等等。在大样本的情况下,根据中心极限定理我们可以统一构造标准正态分布统计量进行统计推断,中心极限定理我们可以统一构造标准正态分布统计量进行统计推断,在下一章中将详细介绍这种构造方法。在下一章中将详细介绍这种构造方法。67MATLAB提供的提供的T检验和检验和Z检验。命令见下表检验。命令见下表【例【例3.5.1】设有两组样本】设有两组样本X,Y。假定来自正态分布,标准差未知,。假定来自正态分布

53、,标准差未知,抽检验它们的均值是否一样。产生抽检验它们的均值是否一样。产生X为均值为为均值为0,标准差为,标准差为1的的30个个样本和样本和Y均值为均值为0.5,标准差为,标准差为1的的40个样本。我们可以构造一个个样本。我们可以构造一个T-统计量统计量68命令语法为:命令语法为:h,significance,ci,stats=ttest2(x,y,alpha,tail)这里:这里:alpha:输入变量,给定的显著性水平,如果没有这一项,内定:输入变量,给定的显著性水平,如果没有这一项,内定alpha=0.05。tail:输入变量,假设类型。当:输入变量,假设类型。当:tail=both,为双

54、尾检验,即备择假设。当没有,为双尾检验,即备择假设。当没有tail项时系统内项时系统内定此选择定此选择tail=right,为右单尾检验,即备择假设。,为右单尾检验,即备择假设。tail=left,为左单尾检验,即备择假设。,为左单尾检验,即备择假设。h:输出变量,统计推断最后结果,:输出变量,统计推断最后结果,h=0接受原假设,接受原假设,h=1拒绝原拒绝原假设。假设。Significance:输出变量,统计量的拒绝域概率。:输出变量,统计量的拒绝域概率。ci:计算出统计量的上下限。:计算出统计量的上下限。stats:有关的其他统计量。:有关的其他统计量。69我们的程序如下:我们的程序如下:

55、%产生产生X均值为均值为0,标准差为,标准差为1的的30个样本,个样本,%产生产生Y均值为均值为0.5,标准差为,标准差为1的的40个样本,检验均值。个样本,检验均值。X=normrnd(0,1,30,1);Y=normrnd(0.5,1,40,1);h,significance,ci=ttest2(X,Y)计算结果为:计算结果为:h=1significance=8.9577e-005ci=-1.4686-0.5173结果告诉我们拒绝原假设,即来自均值不同的正态分布。结果告诉我们拒绝原假设,即来自均值不同的正态分布。对服从其他分布的随机数,进行参数检验时,在大样本的情况下,对服从其他分布的随机

56、数,进行参数检验时,在大样本的情况下,利用中心极限定理我们可以构造一个服从标准正态分布的统计量进利用中心极限定理我们可以构造一个服从标准正态分布的统计量进行检验。行检验。70(2)分布的拟合优度检验)分布的拟合优度检验一组样本一组样本我们关心的是它们来自那一种分布,这时首先假定是服从某一分布,我们关心的是它们来自那一种分布,这时首先假定是服从某一分布,然后用样本构造其分布特性,并和假设的理论分布拟合的好坏进行然后用样本构造其分布特性,并和假设的理论分布拟合的好坏进行检验,这就是分布的拟合优度检验。描述随机变量的分布特性有两检验,这就是分布的拟合优度检验。描述随机变量的分布特性有两种方法,一是随

57、机变量的分布函数,另一个是随机变量的密度函数,种方法,一是随机变量的分布函数,另一个是随机变量的密度函数,我们可以分别构造不同的统计量进行检验。我们可以分别构造不同的统计量进行检验。科尔莫格诺夫科尔莫格诺夫-斯米尔诺夫检验斯米尔诺夫检验Kolmogorov-Smirnovtest这是一个著名的检验方法,可对服从任何分布的随机数进行分布这是一个著名的检验方法,可对服从任何分布的随机数进行分布的拟合优度检验。设样本的经验分布函数为的拟合优度检验。设样本的经验分布函数为,样本的理论分,样本的理论分布为布为F(x)。我们可以构造。我们可以构造K-S统计量统计量71显然显然D0越小表示经验分布和理论分布

58、拟合的较好,利用越小表示经验分布和理论分布拟合的较好,利用D0很我们很我们可以构造可以构造Kolmogorov-Smirnov统计量统计量KS,KS大则表示经验分布大则表示经验分布和理论分布相差很远,即样本不是来自原假设的理论分布,示意见和理论分布相差很远,即样本不是来自原假设的理论分布,示意见图。图。72【例【例3.5.1】对一组来自由度为】对一组来自由度为5的卡方分布随机数进行分布的拟合的卡方分布随机数进行分布的拟合优度检验,用同样的数据进行参数为优度检验,用同样的数据进行参数为5的指数分布检验。利用科尔的指数分布检验。利用科尔莫格诺夫莫格诺夫-斯米尔诺夫检验命令斯米尔诺夫检验命令kste

59、st,其语法为:,其语法为:H=kstest(X)%进行正态分布检验进行正态分布检验H=kstest(X,cdf)%进行给定分布函数进行给定分布函数cdf的拟合优度检验的拟合优度检验H=kstest(X,cdf,alpha,tail)%进行给定显著性水平、分布进行给定显著性水平、分布cdf及备择假设的拟合优度检验及备择假设的拟合优度检验H,P,KSSTAT,CV=kstest(X,cdf,alpha,tail)%同上,并多同上,并多输出拒绝域概率,输出拒绝域概率,KS统计量等统计量等这里:这里:X:为原始数据,注意为列向量。:为原始数据,注意为列向量。cdf:原假设的分布。:原假设的分布。H:

60、检验结果,:检验结果,H=0接受样本来自假设的分布,接受样本来自假设的分布,H=1拒绝原假设。拒绝原假设。P:KS统计量的上侧概率。统计量的上侧概率。KSSTAT:计算出的格诺夫:计算出的格诺夫-斯米尔诺夫统计量的值。斯米尔诺夫统计量的值。73程序如下:程序如下:%例例3.5.1,抽抽200个服从自由度为个服从自由度为5的卡方分布的卡方分布,检验:检验:%1)是否服从自由度为)是否服从自由度为5的卡方分布的卡方分布%2)是否服从参数为)是否服从参数为5的指数分布的指数分布x=chi2rnd(5,200,1);%抽抽200个自由度为个自由度为5的卡方分布的卡方分布h1=kstest(x,xchi

61、2cdf(x,5)%卡方检验卡方检验h2=kstest(x,xexpcdf(x,5)%指数分布检验指数分布检验最后的结果为:最后的结果为:h1=0接受原假设,样本来自自由度为接受原假设,样本来自自由度为5的卡方分布。的卡方分布。h2=1拒绝原假设,样本不是来自参数为拒绝原假设,样本不是来自参数为5的指数分布。的指数分布。74统计量检验随机数的密度函数拟合优度检验统计量检验随机数的密度函数拟合优度检验将样本将样本定义域分为定义域分为k个相等的区间,记个相等的区间,记i区间的区间的观测频数为观测频数为ni(i=1,,k),若随机变量),若随机变量X落于第落于第i区间的概率为区间的概率为Pi,则得理

62、论频数,则得理论频数mi=NPi,由,由ni,mi构造统计量。构造统计量。=渐近服从自由度为渐近服从自由度为k-1的卡方分布,简记为的卡方分布,简记为。一般要。一般要求样本数求样本数N30。75【例【例3.5.3】对参数为】对参数为4的指数分布抽的指数分布抽200个样,假设样本来自参数个样,假设样本来自参数为为4的指数密度函数,构造自由度为的指数密度函数,构造自由度为7卡方统计量进行假设检验。思卡方统计量进行假设检验。思路,将随机数的定义域分为路,将随机数的定义域分为8个等区间,计算落入每个区间的频数个等区间,计算落入每个区间的频数ni(i=1,,8),再根据落入每个区间的理论概率计算出理论频

63、),再根据落入每个区间的理论概率计算出理论频数数mi=NPi,(,(i=1,,8),按公式(),按公式(3.6.2)计算出自由度)计算出自由度为为7的卡方分布统计量,判断该统计量是否落入拒绝域,最终判断的卡方分布统计量,判断该统计量是否落入拒绝域,最终判断检验结果。检验结果。%例例3.6.5抽标准正态分布机数抽标准正态分布机数200个,对密度函数进行统计推断个,对密度函数进行统计推断X=normrnd(0,1,200,1)%抽抽200个正态分布随机数个正态分布随机数histfit(X,8);%作示意图作示意图%构造卡方统计量构造卡方统计量k=8;kk=linspace(-3,3,k+1);%对

64、区间分成对区间分成8个等区间个等区间P=normcdf(kk,0,1);%计算每个区间的概率计算每个区间的概率n=(P(2:k+1)-P(1:k)*200%计算每个区间的理论频数计算每个区间的理论频数m=hist(X,k)%计算每个区间的观测频数计算每个区间的观测频数kf_7=sum(n-m).2)./m)%计算卡方统计量计算卡方统计量76%进行统计推断进行统计推断chi2_p=chi2cdf(kf_8,k-1)%计算下侧概率计算下侧概率ifchi2_p0.95chi2_str=接受接受;elsechi2_str=拒绝拒绝;endchi2_str结果为接受原假设结果为接受原假设77我们计算出的

65、理论频率与样本频率见表我们计算出的理论频率与样本频率见表3-6-3表表3-6-3理论频率与样本频率计算结果理论频率与样本频率计算结果自由度为自由度为7的卡方统计量结果为:的卡方统计量结果为:kf_7=9.8806最后的检验结果为接受原假设,样本来自标准正态密度函数。最后的检验结果为接受原假设,样本来自标准正态密度函数。786 6、非参数统计推断、非参数统计推断在参数统计推断中,我们是在知道样本服从某分布的前提下进在参数统计推断中,我们是在知道样本服从某分布的前提下进行的,例如在知道总体为正态分布的情况下,构造行的,例如在知道总体为正态分布的情况下,构造T统计量具有良统计量具有良好的估计性质。高

66、但在很多实际问题中我们得到的样本并不知道其好的估计性质。高但在很多实际问题中我们得到的样本并不知道其分布特性,而是只利用样本本身进行统计推断,这样的参数推断称分布特性,而是只利用样本本身进行统计推断,这样的参数推断称为非参数统计推断。由于非参数统计推断不需要预先知道样本的分为非参数统计推断。由于非参数统计推断不需要预先知道样本的分布,虽不能达到最优的统计性质,方法却具有简单、稳定的特点,布,虽不能达到最优的统计性质,方法却具有简单、稳定的特点,因此广泛使用于生物、化学、医学和社会科学各领域。因此广泛使用于生物、化学、医学和社会科学各领域。MATLAB提提供的非参数检验命令见表供的非参数检验命令

67、见表3-6-179(1)两种处理方法好坏比较的两种处理方法好坏比较的Wilcoxon秩和检验秩和检验秩的定义为:设有两种样本,秩的定义为:设有两种样本,将它们放在一起进行排序,得由小到大的顺序序列:将它们放在一起进行排序,得由小到大的顺序序列:(3.6.1)如果如果xi位于数据(位于数据(3.6.1)的第五个位置,则称它的秩为)的第五个位置,则称它的秩为5,这样数,这样数据,中的每一个元素都对应一个秩。据,中的每一个元素都对应一个秩。秩和的定义为:将第一组数据的每个元素的秩相加得秩和的定义为:将第一组数据的每个元素的秩相加得R1,将第二组,将第二组数据每个元素的秩相加得数据每个元素的秩相加得R

68、2,R1和和R2就分别是各组的秩和,显然就分别是各组的秩和,显然它们是统计量。如果两组数据来自一个总体,那么我们计算出的秩它们是统计量。如果两组数据来自一个总体,那么我们计算出的秩和统计量和就不应该相差太大。我们可以构造统计量和统计量和就不应该相差太大。我们可以构造统计量T。80T 与平均秩和应相差不大,在大样本的情况下根据中心极限定理可与平均秩和应相差不大,在大样本的情况下根据中心极限定理可以构造标准正态分布统计量。以构造标准正态分布统计量。Wilcoxon秩和检验秩和检验H0:设两独立样本来自等中位数的分布。:设两独立样本来自等中位数的分布。H1:中位数不同。:中位数不同。根据上面计算出的

69、统计量就可以进行统计推断了。根据上面计算出的统计量就可以进行统计推断了。81【例【例3.6.1】某运动队引进新的训练方法,从队中抽一批队员用新】某运动队引进新的训练方法,从队中抽一批队员用新方法训练,留一批使用老方法。一个月后进行测试,问两方法训练方法训练,留一批使用老方法。一个月后进行测试,问两方法训练结果有无明显区别,见表结果有无明显区别,见表3-6-1%例例3.6.6两组运动成绩样本的两组运动成绩样本的wilcoxon检验检验X=4138354532;Y=564960433958;p,h=ranksum(X,Y)计算结果为:计算结果为:p=0.0303h=1拒绝原假设,即新方法与老方法训

70、练出的结果有明显的差别的。拒绝原假设,即新方法与老方法训练出的结果有明显的差别的。82(2)Wilcoxon符号秩和检验符号秩和检验signrank设样本设样本X,Y个数相同,个数相同,C=X-Y,则,则C中的元素或为正或为负。中的元素或为正或为负。对对C的绝对值进行排序得顺序序列,再按正负号进行分组并分别计的绝对值进行排序得顺序序列,再按正负号进行分组并分别计算两组的秩和,按上面的方法构造统计量,然后进行检验。例如训算两组的秩和,按上面的方法构造统计量,然后进行检验。例如训练方法的另一组数据,某跳水队前后两种方法测试的数据。见表练方法的另一组数据,某跳水队前后两种方法测试的数据。见表其中秩栏

71、加负号表示第二组,正表示第一组。秩和其中秩栏加负号表示第二组,正表示第一组。秩和R1=3,R2=33,统计量,统计量T=383【例【例3.6.2】对跳水队的数据,编程计算。】对跳水队的数据,编程计算。%例例3.6.7跳水数据的跳水数据的wilcoxon符号检验符号检验X=2624283035242721;Y=3034362840353320;ph=signrank(X,Y)计算结果计算结果p=0.0391h=1否定原假设,新老方法训练结果有明显的区别。否定原假设,新老方法训练结果有明显的区别。84(3)多种处理方法好坏比较的)多种处理方法好坏比较的kruskal-wallis秩和检验秩和检验对

72、于多组资料比较,如果不满足方差分析的条件,即每组均来对于多组资料比较,如果不满足方差分析的条件,即每组均来自正态分布总体,我们可以构造自正态分布总体,我们可以构造F统计量进行统计推断,放松这一统计量进行统计推断,放松这一条件,可采用条件,可采用Kruskal-Wallis秩和检验。此法的基本思想与秩和检验。此法的基本思想与Wilcoxon-Mann-Whitney法相近:如果各组处理效应相同,混法相近:如果各组处理效应相同,混合编秩号后,各组的秩和应近似相等。合编秩号后,各组的秩和应近似相等。【例【例3.6.3】利用三种不同的合金材料制造出型材,并对型材进行】利用三种不同的合金材料制造出型材,

73、并对型材进行破坏性拉力实验。破坏性拉力实验。85%例例3.6.7三组不同材料的型材强度样本的三组不同材料的型材强度样本的kruskal-wallis检验检验strength=828679838485868774827875767779.7977788279;%alloy=st,st,st,st,st,st,st,st,.al1,al1,al1,al1,al1,al1,.al2,al2,al2,al2,al2,al2;p=kruskalwallis(strength,alloy,off)计算结果为计算结果为p=0.0018统计量落入了拒绝域,即不同材料的型材强度具有明显的区别。统计量落入了拒绝域

74、,即不同材料的型材强度具有明显的区别。867、习题、习题一、产生一、产生200个均值为个均值为6的泊松分布随机数,计算所有的数字特征。的泊松分布随机数,计算所有的数字特征。二、产生二、产生200个自由度为个自由度为6的卡方分布分布随机数,计算所有的数的卡方分布分布随机数,计算所有的数字特征。字特征。三、产生三、产生200个第一自由度为个第一自由度为6,第二自由度为,第二自由度为5的的F分布随机数,分布随机数,计算所有的数字特征。计算所有的数字特征。四、产生四、产生200个(个(0,1)上的均匀分布随机数,计算所有的数字)上的均匀分布随机数,计算所有的数字特征。特征。五、设服从标准正态分布,验证

75、服从自由度为五、设服从标准正态分布,验证服从自由度为5的卡方分布。的卡方分布。六、对本班男生的身高、体重进行抽样,并进行参数的统计推断。六、对本班男生的身高、体重进行抽样,并进行参数的统计推断。七、对本班女生的身高、体重进行抽样,并进行参数的统计推断。七、对本班女生的身高、体重进行抽样,并进行参数的统计推断。八、抽八、抽10个女生的身高数据,个女生的身高数据,15个男生身高数据。利用个男生身高数据。利用Wilcoxon秩和非参数统计方法推断两组身高的中位数是否一秩和非参数统计方法推断两组身高的中位数是否一致。致。87九、对安徽三个地区淮北、江淮和江南分别抽九、对安徽三个地区淮北、江淮和江南分别

76、抽10个男大学生身高数个男大学生身高数据,利用多种处理方法好坏比较的据,利用多种处理方法好坏比较的kruskal-wallis秩和检验,秩和检验,判断三地区同学的身高中位数是否一样。判断三地区同学的身高中位数是否一样。十、抽十、抽10个女生的身高数据,个女生的身高数据,15个男生身高数据。利用个男生身高数据。利用Wilcoxon符号秩和非参数统计方法推断两组身高的中位数是否一致。符号秩和非参数统计方法推断两组身高的中位数是否一致。十一、开发一个小界面,可以计算一些分布的概率和分位点,并可十一、开发一个小界面,可以计算一些分布的概率和分位点,并可以作密度图和分布图。如下图。以作密度图和分布图。如下图。8889

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号