matlab数学建模数据分析

上传人:hs****ma 文档编号:569942565 上传时间:2024-07-31 格式:PPT 页数:96 大小:786.50KB
返回 下载 相关 举报
matlab数学建模数据分析_第1页
第1页 / 共96页
matlab数学建模数据分析_第2页
第2页 / 共96页
matlab数学建模数据分析_第3页
第3页 / 共96页
matlab数学建模数据分析_第4页
第4页 / 共96页
matlab数学建模数据分析_第5页
第5页 / 共96页
点击查看更多>>
资源描述

《matlab数学建模数据分析》由会员分享,可在线阅读,更多相关《matlab数学建模数据分析(96页珍藏版)》请在金锄头文库上搜索。

1、L/O/G/O第四单元第四单元第四单元第四单元 数据分析数据分析数据分析数据分析MatlabMatlab统计工具箱统计工具箱一一:统计工具箱简介统计工具箱简介二二:概率分布概率分布三三:参数估计参数估计四四:描述性统计描述性统计五五:假设检验假设检验六六:统计绘图统计绘图一一. .matlabmatlab统计工具箱统计工具箱( (statistics toolbox)statistics toolbox)简介简介 统计学是处理数据的艺术和科学,通过收集,分析,解释和表达数据来探索事物中蕴含的规律.随着科技水平的迅猛发展,知识经济的时代来临,海量的数据需要人们处理.matlab统计工具箱为人们提

2、供了一个强有力的统计分析工具. 统计工具箱基于matlab数值计算环境,支持范围广泛的统计计算任务.它包括200多个处理函数(m文件)主要应用于以下几方面:1.1 1.1 统计工具箱的几大功能统计工具箱的几大功能 *概率分布概率分布 *参数估计参数估计 *描述性统计描述性统计 *假设检验假设检验 *统计绘图统计绘图 统计工具箱提供了20种概率分布类型,其中包括离散型离散型分布:(如binomial二项分布, 即n次贝努里试验中出现k次成功的概率.poisson 分布, 和 分布等). 1.1.1概率分布-离散型例:试分别绘制出例:试分别绘制出 =1,2,5,10=1,2,5,10时,时, x=

3、0:15;y1=;y2=;lam1=1,2,5,10; for i=1:length(lam1) y1=y1,poisspdf(x,lam1(i);y2=y2,poisscdf(x,lam1(i); end stem(x,y1),line(x,y1),figure;plot(x,y2)1.1.2 1.1.2 概率分布概率分布连续型连续型连续型分布如正态分布F(x)=beta分布,uniform平均分布等.每种分布提供5类函数: 1 概率密度 2 (累积)分布函数 3 逆累积分布函数 4 随机数产生器 5 均值和方差函数.1.1.31.1.3另外另外4 4大功能大功能*参数估计参数估计-依据原始

4、数据计算参数估计值置信区域依据原始数据计算参数估计值置信区域.*描述性统计描述性统计-方差方差,期望等数字特征期望等数字特征.*假设检验假设检验-提供最通用的假设检验函数提供最通用的假设检验函数t-检验检验,z-检验检验.*统计绘图统计绘图- box图函数图函数,正态概率图函数等正态概率图函数等.注意:统计工具箱中的所有函数都可用 type function_name语句查看其代码,也可进行修改,从而变为己用,加入到工具箱中. 二二 概率分布概率分布随机变量的统计行为取决于其概率分布,而分布函数常用连续和离散型分布。统计工具箱提供20种分布。每种分布有五类函数。1: 概率密度(pdf) ; 2

5、: 累积分布函数(cdf); 3:逆累积分布函数(icdf);4: 随机数产生器 5: 均值和方差函数;一:离散型概率密度函数:为观察到的特定值的概率。连续型概率密度函数定义为:如存在非负函数p(x) 0,使对任意ba,X 在(a,b)上取值概率为paXy =random(norm,2,0.3,3,4)y =2.1613 2.2587 1.8699 2.83082.5502 2.0956 2.1028 1.59501.3223 1.6077 3.0735 2.9105 matlabmatlab中中中中randrand函数和函数和函数和函数和randomrandom函数函数函数函数的区别的区别的

6、区别的区别 rand() 生成(0,1)区间上均匀分布的随机变量。基本语法:rand(M,N,P .)生成排列成M*N*P. 多维向量的随机数。如果只写M,则生成M*M矩阵;如果参数为M,N可以省略掉方括号。一些例子:rand(5,1) %生成5个随机数排列的列向量,一般用这种格式rand(5) %生成5行5列的随机数矩阵rand(5,4) %生成一个5行4列的随机数矩阵生成的随机数大致的分布。x=rand(100000,1);hist(x,30); 由此可以看到生成的随机数很符合均匀分布. randn()生成服从标准正态分布(均值为0,方差为1)的随机数。基本语法和rand()类似。rand

7、n(M,N,P .)生成排列成M*N*P. 多维向量的随机数。如果只写M,则生成M*M矩阵;如果参数为M,N可以省略掉方括号。一些例子:randn(5,1) %生成5个随机数排列的列向量,一般用这种格式randn(5) %生成5行5列的随机数矩阵randn(5,4) %生成一个5行4列的随机数矩阵 均值和方差和以上其他函数不同的是均值和方差的运算没有通用的函数,只能用各个分布的函数计算。对应于正态分布的计算函数为normstat();它返回两个参数的向量,分别为均值和方差。举例:m,n=normstat(mu,sigma)2.5例:试生成一组30000个正态随机数,使其均值为0.5,标准差为1

8、.5,试分析这些数据实际的均值、方差和标准差。如果减少随机数的个数,会有什么结果?p=normrnd(0.5,1.5,30000,1);mean(p),var(p),std(p)若减小随机数个数,得出的随机数标准差与理论值相差较大,所以在进行较精确的统计分析时不能选择太少的样本点。例:利用matlab生成的随机数做蒲丰(buffon)投针问题解:以x 表示针的中点与最近一条平行线的距离,以 j表示针与此线间的交角显然0xa/20jpi针与平行线相交的充要条件是xlsin(j)/2大量得投针实验,利用大数定理知:随着实验次数的增加,针与平行线相交的频率依概率收敛到概率p那么以频率代替相应的概率p

9、,则可以获得圆周率p的近似值下面的程序是用matlab语言编写的计算机模拟投针以计算pi的近似值的程序 a=1; %两平行线间的宽度l=0.6; %针长counter=0; %计数器,用以统计针与线相交的次数n=10000; %投针次数x=unifrnd(0,a/2,1,n); %投出的针的中点到线的距离,在此设其服从%区间(0,a/2)上的均匀分布.fi=unifrnd(0,pi,1,n); %投出的针与平行线的交角,在此设其服从%区间(0,p)上的均匀分布.for i=1:nif x(i) X=binornd(20,0.75) %产生二项分布的随机数X =16 p,pci=mle(bino

10、,X,0.05,20) %求概率的估计值和置信区间,置信度为95%p =0.8000pci =0.56340.9427命令 正态分布的参数估计函数 normfit格式 muhat,sigmahat,muci,sigmaci = normfit(X) muhat,sigmahat,muci,sigmaci = normfit(X,alpha)说明 muhat,sigmahat分别为正态分布的参数和的估计值,muci,sigmaci分别为置信区间,其置信度为;alpha给出显著水平,缺省时默认为0.05,即置信度为95%。http:/ = normrnd (10,2,100,2); %产生两列正态

11、随机数据mu,sigma,muci,sigmaci = normfit(r)则结果为mu =10.1455 10.0527 %各列的均值的估计值sigma =1.9072 2.1256 %各列的均方差的估计值muci =9.7652 9.6288 10.5258 10.4766sigmaci =1.6745 1.86632.2155 2.4693说明 muci,sigmaci中各列分别为原随机数据各列估计值的置信区间,置信度为95%。对数似然函数对数似然函数 统计工具箱提供了分布,分布,正态分布和威布尔分布的负对数似然函数值的求取函数.正态分布的负对数似然函数正态分布的负对数似然函数调用方法调

12、用方法 L=normlike(params,data) Params为正态分布参数:params(1)为,params(2)为 其他负对数似然函数其他负对数似然函数分布的负对数似然函数分布的负对数似然函数 logL=betalike(params,data)分布的负对数似然函数分布的负对数似然函数 logL=gamlike(params,data)威布尔分布的负对数似然函数威布尔分布的负对数似然函数 logL=weiblike(params,data) 参数设置与正态分布的负对数似然函数类似,不加冗述.四四四四 描述性统计描述性统计描述性统计描述性统计概述:人们希望用少数样本来体现样本总体的规

13、律。描述性统计就是收集、整理、加工和分析统计数据,使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。根据统计量特征性质的不同,工具箱提供了位置度量、散布度量、自助法以及在缺失数据情况下处理方法等方面的描述性统计工具函数。4.14.1中心趋势(位置)度量中心趋势(位置)度量中心趋势(位置)度量中心趋势(位置)度量数据样本中心度量的目的在于对数据样本的数据分布线上分布的中心予以定位,即中心位置的度量。均值是对位置的简单和通常的估计量。但野值的存在往往影响位置的确定。而中位数和修正的均值则受野值的干扰很小。中位数是样本的50%分位点。而修正的均值所蕴涵的思想则是剔除样本中最高值和最低值来确

14、定样本的中心位置。几何均值和调和均值对野值都较敏感。当样本服从对数正态分布或偏斜程度很大时,它们也都是有效的方法。以下介绍位置度量有关函数。4.2.1: 4.2.1: 几何平均数(几何平均数(几何平均数(几何平均数(geomeangeomean)功能:样本的几何均值。格式:m=geomean(X)说明:几何均值的定义为 m= (1.4.1) geomean 函数计算样本的几何均值 。X若为矢量,它返回X中元素的几何均值;X若为矩阵,它的结果为一个行矢量,每个元素为X对应列元素的几何均值。举例: x=exprnd(1,10,6); geometric=geomean(x); average=me

15、an(x)4.2.2: 4.2.2: (调和均值)(调和均值)(调和均值)(调和均值)harmmeanharmmean功能:样本数据的调和均值。格式:m=harmmean(X)说明:调和均值定义为举例:样本均值大于或等于调和均值。 x=exprnd(1,10,6); harmonic=harmmean(x) average=mean(x) 4.2.34.2.3(平均值)(平均值)(平均值)(平均值)meanmean功能:样本数据的平均值。说明:平均值定义为举例:x=normrnd(0,1,100,5); xbar=mean(x)4.2.4:4.2.4:medianmedian功能:样本数据的中

16、值。说明:中值即数据样本的50%中位数。中位数对野值出现的影响较小。举例:xodd=1:5; modd=median(xodd) xeven=1:6; meven=median(xeven)4.2.5:4.2.5:trimmeantrimmean功能:剔除极端数据的样本均值。格式:m=trimmean(X,percent)说明:函数计算剔除观测量中最高百分比和最低百分比数据后的均值。 函数中percent代表百分比。举例:X=normrnd(0,1,100,100); m=mean(X) trim=trimmean(X,10) sm=std(m) strim=std(trim) efficie

17、ncy=(sm/strim).24.34.3散布度量散布度量散布度量散布度量散布度量可以理解为样本中的数据偏离其数值中心的程度,也称离差。极差,定义为样本最大观测值与最小观测值之差。标准差和方差为常用的散布度量,对正态分布的样本描述是最优的。但抗野值干扰能力较小。平均绝对值偏差对野值也敏感。四分位数间距为随机变量的上四分位数 和下四分位之差。 在Matlab里,有关散布度量计算的函数为:1:计算样本的内四分位数间距的 iqr(X).2:求样本数据的平均绝对偏差的 mad(X).3:计算样本极差的 range(X).4: 计算样本方差的 var(X,w).5: 求样本的标准差的 std(X).6

18、: 求协方差矩阵的cov(X).这些函数的详细说明可以参见Matlab的帮助文档。4.4 Matlab里有关散布度量计算的函数里有关散布度量计算的函数4.54.5处理缺失数据的函数处理缺失数据的函数处理缺失数据的函数处理缺失数据的函数在对大量的数据样本进行处理分析时,常会遇到一些数据无法找到或不能确定的情况。这时可用NaN标注这个数据。而工具箱中有一些函数自动处理它们。如 :忽视NaN, 求其他数据的最大值的nanmax.格式:m=nanmax(X)举例:m=magic(3); %产生3阶魔方阵 m(1 6 8)=NaN NaN NaN %替换3阶魔方阵中第1,6,8个元素为NaN nmax,

19、maxidx=nanmax(m)4.64.6中心矩中心矩中心矩中心矩中心矩是关于数学期望的矩。对于任意的r 0,称 为随机变量X的r阶中心矩。一阶中心矩为0,二阶中心矩为方差: 函数moment计算任意阶中心矩。 格式:m=moment(X,order) 说明:order确定阶。 4.74.7协方差与相关系数协方差与相关系数命令 协方差函数 cov格式 cov(X) %求向量X的协方差cov(A) %求矩阵A的协方差矩阵,该协方差矩阵的对角线元素是A的各列的方差,即:var(A)=diag(cov(A).cov(X,Y) %X,Y为等长列向量,等同于cov(X Y).例 X=0 -1 1;Y=

20、1 2 2; C1=cov(X) %X的协方差 C2=cov(X,Y) %列向量X,Y的协方差矩阵,对角线元素为各列向量的方差相关系数是两个随机变量间线性相依程度的度量。可用函数corrcoef计算它。 格式 corrcoef(X,Y) %返回列向量X,Y的相关系数,等同于corrcoef(X Y).corrcoef (A) %返回矩阵A的列向量的相关系数矩阵例 A=1 2 3;4 0 -1;1 3 9 C1=corrcoef(A) %求矩阵A的相关系数矩阵 C1=corrcoef(A(:,2),A(:,3) %求A的第2列与第3列列向量的相关系数矩阵五五. .假设检验假设检验假设检验假设检验

21、 是统计的基本问题.旨在应用得到的少量信息,判断整体是否满足给定条件或达到给定的标准. 回顾一下我们以前在统计学中所学的假设检验.其步骤为:5.1 5.1 假设检验步骤假设检验步骤1.设: 零假设.(成立则h=0,否则h=1).2.取得一组观测值(子样).3.给定显著型水平(一般取0.05). 4.应用子样的某些统计量特征.5.在 成立前提下,若出现已知观测值的概率小于5%,则拒绝,否则认为观测值与假设无显著差别. 5.2 5.2 假设检验调用的函数假设检验调用的函数1,已知,单个正态总体的均值的假设检验(U检验法)函数 ztest格式 h = ztest(x,m,sigma) % x为正态总

22、体的样本,m为均值0,sigma为标准差,显著性水平为0.05(默认值)h = ztest(x,m,sigma,alpha) %显著性水平为alphah,sig,ci,zval = ztest(x,m,sigma,alpha,tail) %sig为观察值的概率,当sig为小概率时则对原假设提出质疑,ci为真正均值的1-alpha置信区间,zval为统计量的值.说明 若h=0,表示在显著性水平alpha下,不能拒绝原假设;若h=1,表示在显著性水平alpha下,可以拒绝原假设.原假设:,若tail=0,表示备择假设:(默认,双边检验);tail=1,表示备择假设:(单边检验);tail=-1,表

23、示备择假设:(单边检验)., ,例:某车间用一台包装机包装葡萄糖,包得的袋装糖重是一个随机变量,它服从正态分布.当机器正常时,其均值为0.5公斤,标准差为0.015.某日开工后检验包装机是否正常,随机地抽取所包装的糖9袋,称得净重为(公斤)0.497, 0.506, 0.518, 0.524, 0.498, 0.511, 0.52, 0.515, 0.512问机器是否正常解:总体和已知,该问题是当为已知时,在水平下,根据样本值判断=0.5还是.为此提出假设:原假设:备择假设: X=0.497,0.506,0.518,0.524,0.498,0.511,0.52,0.515,0.512; h,s

24、ig,ci,zval=ztest(X,0.5,0.015,0.05,0)结果显示为h =1sig =0.0248 %样本观察值的概率ci =0.5014 0.5210 %置信区间,均值0.5在此区间之外zval =2.2444 %统计量的值结果表明:h=1,说明在水平下,可拒绝原假设,即认为包装机工作不正常.例: x=normrnd(0,1,100,1); m=mean(x); m=0.0727 h,sig,ci=ztest(x,0,1); h= 0 sig= 0.4669 ci= -0.1232 0.2687 2 未知,单个正态总体的均值的假设检验( t检验法)函数 ttest格式 h =

25、ttest(x,m) % x为正态总体的样本,m为均值0,显著性水平为0.05h = ttest(x,m,alpha) %alpha为给定显著性水平h,sig,ci = ttest(x,m,alpha,tail) %sig为观察值的概率,当sig为小概率时则对原假设提出质疑,ci为真正均值的1-alpha置信区间.说明 若h=0,表示在显著性水平alpha下,不能拒绝原假设;若h=1,表示在显著性水平alpha下,可以拒绝原假设.原假设:,若 tail=0,表示备择假设:(默认,双边检验);tail=1,表示备择假设:(单边检验);tail=-1,表示备择假设:(单边检验).例: 某种电子元件

26、的寿命X(以小时计)服从正态分布,2均未知.现测得16只元件的寿命如下159 280 101 212 224 379 179 264 222 362 168 250149 260 485 170问是否有理由认为元件的平均寿命大于225(小时)解:未知,在水平下检验假设:,: X=159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170; h,sig,ci=ttest(X,225,0.05,1)结果显示为:h =0sig =0.2570ci =198.2321 Inf %均值225在该置信区间内结果表明:H=0表示在水平下应该

27、接受原假设,即认为元件的平均寿命不大于225小时.3 两个正态总体均值差的检验(t检验)两个正态总体方差未知但等方差时,比较两正态总体样本均值的假设检验函数 ttest2格式 h,sig,ci=ttest2(X,Y) %X,Y为两个正态总体的样本,显著性水平为0.05h,sig,ci=ttest2(X,Y,alpha) %alpha为显著性水平h,sig,ci=ttest2(X,Y,alpha,tail) %sig为当原假设为真时得到观察值的概率,当sig为小概率时则对原假设提出质疑,ci为真正均值的1-alpha置信区间.说明 若h=0,表示在显著性水平alpha下,不能拒绝原假设;若h=1

28、,表示在显著性水平alpha下,可以拒绝原假设.原假设:, (为X为期望值,为Y的期望值)若 tail=0,表示备择假设:(默认,双边检验);tail=1,表示备择假设:(单边检验);tail=-1,表示备择假设:(单边检验).例: 在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的产率,试验是在同一只平炉上进行的.每炼一炉钢时除操作方法外,其他条件都尽可能做到相同.先用标准方法炼一炉,然后用建议的新方法炼一炉,以后交替进行,各炼10炉,其产率分别为(1)标准方法:78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3(2)新方法: 79.1

29、 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1设这两个样本相互独立,且分别来自正态总体和,均未知.问建议的新操作方法能否提高产率 (取=0.05)解:两个总体方差不变时,在水平下检验假设:,: X=78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3;Y=79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1; h,sig,ci=ttest2(X,Y,0.05,-1)结果显示为:h =1sig =2.1759e-004 %说明两个总体均值相等的概率很小ci =-

30、Inf -1.9083结果表明:H=1表示在水平下,应该拒绝原假设,即认为建议的新操作方法提高了产率,因此,比原方法好.4 两个总体一致性的检验秩和检验函数 ranksum格式 p = ranksum(x,y,alpha) %x,y为两个总体的样本,可以不等长,alpha为显著性水平p,h = ranksum(x,y,alpha) % h为检验结果,h=0表示X与Y的总体差别不显著h=1表示X与Y的总体差别显著p,h,stats = ranksum(x,y,alpha) %stats中包括:ranksum为秩和统计量的值以及zval为过去计算p的正态统计量的值说明 P为两个总体样本X和Y为一致

31、的显著性概率,若P接近于0,则不一致较明显.例: 某商店为了确定向公司A或公司B购买某种商品,将A和B公司以往的各次进货的次品率进行比较,数据如下所示,设两样本独立.问两公司的商品的质量有无显著差异.设两公司的商品的次品的密度最多只差一个平移,取=0.05.A:7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5B:5.7 3.2 4.1 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3解:设,分别为A,B两个公司的商品次品率总体的均值.则该问题为在水平=0.05下检验假设:,: A=7.0 3.5 9.6 8.1 6.2 5.

32、1 10.4 4.0 2.0 10.5; B=5.7 3.2 4.1 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3; p,h,stats=ranksum(A,B,0.05) 结果为:p =0.8041h =0stats =zval: -0.2481ranksum: 116结果表明:一方面,两样本总体均值相等的概率为0.8041,不接近于0;另一方面,H=0也说明可以接受原假设,即认为两个公司的商品的质量无明显差异.5 两个总体中位数相等的假设检验符号秩检验函数 signrank格式 p = signrank(X,Y,alpha) % X,Y为两个总体的样

33、本,长度必须相同,alpha为显著性水平,P两个样本X和Y的中位数相等的概率,p接近于0则可对原假设质疑.p,h = signrank(X,Y,alpha) % h为检验结果:h=0表示X与Y的中位数之差不显著,h=1表示X与Y的中位数之差显著.p,h,stats = signrank(x,y,alpha) % stats中包括:signrank为符号秩统计量的值以及zval为过去计算p的正态统计量的值.例: 两个正态随机样本的中位数相等的假设检验 x=normrnd(0,1,20,1); y=normrnd(0,2,20,1); p,h,stats=signrank(x,y,0.05)p =

34、0.3703h =0stats =zval: -0.8960signedrank: 81结果表明:h=0表示X与Y的中位数之差不显著6 两个总体中位数相等的假设检验符号检验函数 signtest格式 p=signtest(X, Y, alpha) % X,Y为两个总体的样本,长度必须相同,alpha为显著性水平,P两个样本X和Y的中位数相等的概率,p接近于0则可对原假设质疑.p, h=signtest(X, Y, alpha) % h为检验结果:h=0表示X与Y的中位数之差不显著,h=1表示X与Y的中位数之差显著.p,h,stats = signtest(X,Y,alpha) % stats中

35、sign为符号统计量的值例: 两个正态随机样本的中位数相等的假设检验 X=normrnd(0,1,20,1); Y=normrnd(0,2,20,1); p,h,stats=signtest(X,Y,0.05)p =0.2632h =0stats =sign: 7结果表明:h=0表示X与Y的中位数之差不显著7 正态分布的拟合优度测试正态分布的拟合优度测试函数 jbtest格式 H = jbtest(X) %对输入向量X进行Jarque-Bera测试,显著性水平为0.05。H = jbtest(X,alpha) %在水平alpha而非5%下施行 Jarque-Bera 测试,alpha在0和1之

36、间。H,P,JBSTAT,CV = jbtest(X,alpha) %P为接受假设的概率值,P越接近于0,则可以拒绝是正态分布的原假设;JBSTAT为测试统计量的值,CV为是否拒绝原假设的临界值。说明 H为测试结果,若H=0,则可以认为X是服从正态分布的;若X=1,则可以否定X服从正态分布。X为大样本,对于小样本用lillietest函数。例:调用MATLAB中关于汽车重量的数据,测试该数据是否服从正态分布 load carsmall h,p,j,cv=jbtest(Weight)h =1p =0.0267j =7.2448cv =5.9915说明 p=2.67%表示应该拒绝服从正态分布的假设

37、;h=1也可否定服从正态分布;统计量的值j = 7.2448大于接受假设的临界值cv =5.9915,因而拒绝假设(测试水平为5%)。8 正态分布的拟合优度测试正态分布的拟合优度测试函数 lillietest格式 H = lillietest(X) %对输入向量X进行Lilliefors测试,显著性水平为0.05。H = lillietest(X,alpha) %在水平alpha而非5%下施行Lilliefors测试,alpha在0.01和0.2之间。H,P,LSTAT,CV = lillietest(X,alpha) %P为接受假设的概率值,P越接近于0,则可以拒绝是正态分布的原假设;LST

38、AT为测试统计量的值,CV为是否拒绝原假设的临界值。说明 H为测试结果,若H=0,则可以认为X是服从正态分布的;若X=1,则可以否定X服从正态分布。例 Y=chi2rnd(10,100,1); h,p,l,cv=lillietest(Y)h =1p =0.0175l =0.1062cv =0.0886说明 h=1表示拒绝正态分布的假设;p = 0.0175表示服从正态分布的概率很小;统计量的值l = 0.1062大于接受假设的临界值cv =0.0886,因而拒绝假设(测试水平为5%)。hist(Y)从图中看出,数据Y不服从正态分布。9 单个样本分布的单个样本分布的 Kolmogorov-Smi

39、rnov 测试测试函数 kstest格式 H = kstest(X) %测试向量X是否服从标准正态分布,测试水平为5%。H = kstest(X,cdf) %指定累积分布函数为cdf的测试(cdf= 时表示标准正态分布),测试水平为5%H = kstest(X,cdf,alpha) % alpha为指定测试水平H,P,KSSTAT,CV = kstest(X,cdf,alpha) %P为原假设成立的概率,KSSTAT为测试统计量的值,CV为是否接受假设的临界值。说明 原假设为X服从标准正态分布。若H=0则不能拒绝原假设,H=1则可以拒绝原假设。例:产生100个威布尔随机数,测试该随机数服从的分

40、布 x=weibrnd(1,2,100,1); H,p,ksstat,cv=kstest(x,x weibcdf(x,1,2),0.05) %测试是否服从威布尔分布H =0p =0.3022ksstat =0.0959cv =0.1340说明 H=0表示接受原假设,统计量ksstat小于临界值表示接受原假设。 H,p,ksstat,cv=kstest(x,x expcdf(x,1),0.05) %测试是否服从指数分布H =1p =0.0073ksstat =0.1653cv =0.1340说明 H=1表明拒绝服从指数分布的假设。 H,p,ksstat,cv=kstest(x, ,0.05) %

41、测试是否服从标准正态分布H =1p =3.1285e-026ksstat =0.5380cv =0.1340说明 H=1表明不服从标准正态分布。10 两个样本具有相同的连续分布的假设检验两个样本具有相同的连续分布的假设检验函数 kstest2格式 H = kstest2(X1,X2) %测试向量X1与X2是具有相同的连续分布,测试水平为5%。H = kstest2(X1,X2,alpha) % alpha为测试水平H,P,KSSTAT = kstest(X,cdf,alpha) %与指定累积分布cdf相同的连续分布,P为假设成立的概率,KSSTAT为测试统计量的值。说明 原假设为具有相同连续分

42、布。测试结果为H,若H=0,表示应接受原假设;若H=1,表示可以拒绝原假设。这是Kolmogorov-Smirnov测试方法。例 x=-1:1:5; y=randn(20,1); h,p,k=kstest2(x,y)h =1p =0.0444k =0.5643说明 h=1表示可以认为向量x与y的分布不相同,相同的概率只有4.4%。方差分析方差分析方差分析方差分析 1 单因素方差分析单因素方差分析单因素方差分析是比较两组或多组数据的均值,它返回原假设均值相等的概率函数 anova1格式 p = anova1(X) %X的各列为彼此独立的样本观察值,其元素个数相同,p为各列均值相等的概率值,若p值

43、接近于0,则原假设受到怀疑,说明至少有一列均值与其余列均值有明显不同。p = anova1(X,group) %X和group为向量且group要与X对应p = anova1(X,group,displayopt) % displayopt=on/off表示显示与隐藏方差分析表图和盒图p,table = anova1() % table为方差分析表p,table,stats = anova1() % stats为分析结果的构造说明 anova1函数产生两个图:标准的方差分析表图和盒图。方差分析表中有6列:第1列(source)显示:X中数据可变性的来源;第2列(SS)显示:用于每一列的平方和;

44、第3列(df)显示:与每一种可变性来源有关的自由度;第4列(MS)显示:是SS/df的比值;第5列(F)显示:F统计量数值,它是MS的比率;第6列显示:从F累积分布中得到的概率,当F增加时,p值减少。 例: 设有3台机器,用来生产规格相同的铝合金薄板。取样测量薄板的厚度,精确至厘米。得结果如下:机器1:0.236 0.238 0.248 0.245 0.243机器2:0.257 0.253 0.255 0.254 0.261机器3:0.258 0.264 0.259 0.267 0.262检验各台机器所生产的薄板的厚度有无显著的差异?解: X=0.236 0.238 0.248 0.245 0

45、.243; 0.257 0.253 0.255 0.254 0.261;0.258 0.264 0.259 0.267 0.262; P=anova1(X)结果为:P =1.3431e-005运行结果还有一个方差分析表和盒图。2 双因素方差分析双因素方差分析函数 anova2格式 p = anova2(X,reps) p = anova2(X,reps,displayopt) p,table = anova2()p,table,stats = anova2()说明 执行平衡的双因素试验的方差分析来比较X中两个或多个列(行)的均值,不同列的数据表示因素A的差异,不同行的数据表示另一因素B的差异。

46、如果行列对有多于一个的观察点,则变量reps指出每一单元观察点的数目,每一单元包含reps行,如:reps=2其余参数与单因素方差分析参数相似。例: 一火箭使用了4种燃料,3种推进器作射程试验,每种燃料与每种推进器的组合各发射火箭2次,得到结果如下:推进器(B) B1 B2 B3A1 58.2000 56.2000 65.300052.6000 41.2000 60.8000A2 49.1000 54.1000 51.6000燃料A 42.8000 50.5000 48.4000A3 60.1000 70.9000 39.200058.3000 73.2000 40.7000A4 75.800

47、0 58.2000 48.700071.5000 51.0000 41.4000考察推进器和燃料这两个因素对射程是否有显著的影响?解:建立M文件X=58.2000 56.2000 65.300052.6000 41.2000 60.800049.1000 54.1000 51.600042.8000 50.5000 48.400060.1000 70.9000 39.200058.3000 73.2000 40.700075.8000 58.2000 48.700071.5000 51.0000 41.4000;P=anova2(X,2)结果为:P =0.0035 0.0260 0.0001六

48、六六六 统计绘图统计绘图统计绘图统计绘图1 正整数的频率表正整数的频率表命令 正整数的频率表函数 tabulate格式 table = tabulate(X) %X为正整数构成的向量,返回3列:第1列中包含X的值第2列为这些值的个数,第3列为这些值的频率。例: A=1 2 2 5 6 3 8A =1 2 2 5 6 3 8 tabulate(A)2 经验累积分布函数图形经验累积分布函数图形函数 cdfplot格式 cdfplot(X) %作样本X(向量)的累积分布函数图形h = cdfplot(X) %h表示曲线的环柄h,stats = cdfplot(X) %stats表示样本的一些特征例4

49、-50 X=normrnd (0,1,50,1); h,stats=cdfplot(X)h =3.0013stats = min: -1.8740 %样本最小值max: 1.6924 %最大值mean: 0.0565 %平均值median: 0.1032 %中间值std: 0.7559 %样本标准差3 最小二乘拟合直线最小二乘拟合直线函数 lsline格式 lsline %最小二乘拟合直线h = lsline %h为直线的句柄例4-51 X = 2 3.4 5.6 8 11 12.3 13.8 16 18.8 19.9; plot(X,+) lsline 4 绘制正态分布概率图形绘制正态分布概

50、率图形函数 normplot格式 normplot(X) %若X为向量,则显示正态分布概率图形,若X为矩阵,则显示每一列的正态分布概率图形。h = normplot(X) %返回绘图直线的句柄说明 样本数据在图中用“+”显示;如果数据来自正态分布,则图形显示为直线,而其它分布可能在图中产生弯曲。例 X=normrnd(0,1,50,1); normplot(X)5 绘制威布尔绘制威布尔(Weibull)概率图形概率图形函数 weibplot格式 weibplot(X) %若X为向量,则显示威布尔(Weibull)概率图形,若X为矩阵,则显示每一列的威布尔概率图形。h = weibplot(X)

51、 %返回绘图直线的柄说明 绘制威布尔(Weibull)概率图形的目的是用图解法估计来自威布尔分布的数据X,如果X是威布尔分布数据,其图形是直线的,否则图形中可能产生弯曲。例 r = weibrnd(1.2,1.5,50,1); weibplot(r)6 样本数据的盒图样本数据的盒图函数 boxplot格式 boxplot(X) %产生矩阵X的每一列的盒图和“须”图,“须”是从盒的尾部延伸出来,并表示盒外数据长度的线,如果“须”的外面没有数据,则在“须”的底部有一个点。boxplot(X,notch) %当notch=1时,产生一凹盒图,notch=0时产生一矩箱图。boxplot(X,notc

52、h,sym) %sym表示图形符号,默认值为“+”。boxplot(X,notch,sym,vert) %当vert=0时,生成水平盒图,vert=1时,生成竖直盒图(默认值vert=1)。boxplot(X,notch,sym,vert,whis) %whis定义“须”图的长度,默认值为1.5,若whis=0则boxplot函数通过绘制sym符号图来显示盒外的所有数据值。例x1 = normrnd(5,1,100,1);x2 = normrnd(6,1,100,1);x = x1 x2; boxplot(x,1,g+,1,0)数据样本的box图,另外的形式 x1=normrnd(5,1,10

53、0,1); x2=normrnd(6,1,100,1); x=x1 x2; boxplot(x,1)箱线图,又称作箱须图(box-whisker plot)是利用数据中的五个特征值最小值、第一四分位点、中值、第三四分位点、最大值来描述数据的图形。箱线图可以粗略的估计数据是否具有对称性,粗略观察数据的分散程度,特别可用于对几个样本的比较。箱线图美中不足之处在于它不能提供关于数据分布偏态和尾重程度的精确度量;对于批量较大的数据集,箱线图反映的形状信息更加模糊;用中位数代表总体平均水平有一定的局限性等等。所以,应用箱线图最好结合其它描述统计工具如均值、标准差、偏度、分布函数等来描述数据集的分布形状。

54、很多统计软件可以方便的绘制箱线图,比如SPSS和SAS等,而作为数学及工程界经常使用的MATLAB软件来说,它也提供了功能强大的统计工具箱,函数boxplot就可以用来方便的绘制箱线图。看一下箱线图的样式,及各部分的意义,如下图所示:看一下箱线图的样式,及各部分的意义,如下图所示:上图形象的说明了一幅箱线图的各种组分。使用箱线图可以上图形象的说明了一幅箱线图的各种组分。使用箱线图可以直观的识别数据批中的异常值,箱线图中的异常值被定为直观的识别数据批中的异常值,箱线图中的异常值被定为Q1-1.5*IQRQ3+1.5*IQR之外的值,具有一定的经验性。与其余之外的值,具有一定的经验性。与其余异常值

55、判别法比如异常值判别法比如3法不同的是,箱线图不用提前假设样本法不同的是,箱线图不用提前假设样本属于某种分布,依靠实际数据来直观显示。属于某种分布,依靠实际数据来直观显示。利用箱线图可以直观的判断数据的偏态和尾重。可以比较几利用箱线图可以直观的判断数据的偏态和尾重。可以比较几组数据的形态。组数据的形态。通过箱线图的绘制过程来了解箱线图的意义:通过箱线图的绘制过程来了解箱线图的意义:1.绘制数轴 2.计算上四分位数(Q3),中位数,下四分位数(Q1)。 3.计算上四分位数和下四分位数之间的差值(Q3-Q1),即四分位数差(IQR,interquartile range)。 4.绘制箱线图的矩形,

56、上限为上四分位数,下限为下四分位数。在矩形内部中位数的位置画一条横线(中位线)。 5.在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称为外限。处于内限以外位置的点所表示的数据都是异常值(outliers),其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。(注意:统计软件绘制的箱线图一般都没有标出内限和外限。) 6.在非异常值的数据中,最靠近上边缘和下边缘(即内限)的两个数值处,画横线,作为箱线图的触须。

57、 7.从矩形的两端向外各画一条线段直到不是异常值的最远点(即上一步的触须),表示该批数据正常值的分布区间。 8.温和的异常值(即处于1.5倍-3倍四分位数差之间的异常值)用空心点表示;极端的异常值(即超出四分位数差3倍距离的异常值)用实心点(也可以用星号*)表示。 7 给当前图形加一条参考线给当前图形加一条参考线函数 refline格式 refline(slope,intercept) % slope表示直线斜率,intercept表示截距refline(slope) slope=a b,图中加一条直线:y=b+ax。例y = 3.2 2.6 3.1 3.4 2.4 2.9 3.0 3.3 3

58、.2 2.1 2.6;plot(y,+)refline(0,3)8 在当前图形中加入一条多项式曲线在当前图形中加入一条多项式曲线函数 refcurve格式 h = refcurve(p) %在图中加入一条多项式曲线,h为曲线的环柄,p为多项式系数向量,p=p1,p2, p3,pn,其中p1为最高幂项系数。例: 火箭的高度与时间图形,加入一条理论高度曲线,火箭初速为100m/秒。h = 85 162 230 289 339 381 413 437 452 458 456 440 400 356;plot(h,+)refcurve(-4.9 100 0)9 样本的概率图形样本的概率图形函数 cap

59、aplot格式 p = capaplot(data,specs) %data为所给样本数据,specs指定范围,p表示在指定范围内的概率。说明 该函数返回来自于估计分布的随机变量落在指定范围内的概率例 data=normrnd (0,1,30,1); p=capaplot(data,-2,2)p =0.919910 附加有正态密度曲线的直方图附加有正态密度曲线的直方图函数 histfit格式 histfit(data) %data为向量,返回直方图和正态曲线。histfit(data,nbins) % nbins指定bar的个数,缺省时为data中数据个数的平方根。例r = normrnd (10,1,100,1);histfit(r)11 在指定的界线之间画正态密度曲线在指定的界线之间画正态密度曲线函数 normspec格式 p = normspec(specs,mu,sigma) %specs指定界线,mu,sigma为正态分布的参数p 为样本落在上、下界之间的概率。例normspec(10 Inf,11.5,1.25)http:/

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号