数据的统计分析与描述

上传人:宝路 文档编号:47916869 上传时间:2018-07-06 格式:PPT 页数:41 大小:514.05KB
返回 下载 相关 举报
数据的统计分析与描述_第1页
第1页 / 共41页
数据的统计分析与描述_第2页
第2页 / 共41页
数据的统计分析与描述_第3页
第3页 / 共41页
数据的统计分析与描述_第4页
第4页 / 共41页
数据的统计分析与描述_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《数据的统计分析与描述》由会员分享,可在线阅读,更多相关《数据的统计分析与描述(41页珍藏版)》请在金锄头文库上搜索。

1、*1数据的统计描述和分析实验目的实验内容2、掌握用数学软件包求解统计问题。1、直观了解统计基本内容。1、统计的基本理论。3、实验作业。2、用数学软件包求解统计问题。*3统计的基本概念参数估计假设检验数据的统计描述和分析*4统计工具箱中的基本统计命令1.数据的录入、保存和调用2.基本统计量3.常见概率分布的函数4.频 数 直 方 图 的 描 绘5.参数估计6.假设检验返回*5一、数据的录入、保存和调用例1 上海市区社会商品零售总额和全民所有制职工工资总额 的数据如下统计工具箱中的基本统计命令*61、年份数据以1为增量,用产生向量的方法输入。命令格式: x=a:h:bt=78:87 2、分别以x和

2、y代表变量职工工资总额和商品零售总额。x=23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4y=41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.03、将变量t、x、y的数据保存在文件data中。save data t x y4、进行统计分析时,调用数据文件data中的数据。load data*71、输入矩阵: data=78,79,80,81,82,83,84,85,86,87,88; 23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4; 41.

3、4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.02、将矩阵data的数据保存在文件data1中:save data1 data3、进行统计分析时,先用命令: load data1 调用数据文件data1中的数据,再用以下命令分别将矩阵 data的第一、二、三行的数据赋给变量t、x、y:t=data(1,:)x=data(2,:)y=data(3,:) 若要调用矩阵data的第j列的数据,可用命令:data(:,j)二、统计量mean(x)median(x)std(x)var(x)偏度:skewness(x) 峰度:kurtosis(x)n 矩的

4、计算1.随机变量的k阶中心矩-Bk=moment(X,k)2.随机变量的k阶原点矩-Ak=sum(X.k)/length(X)n 常见分布的期望和方差1.二项分布-E,D=binostat(n,p) 说明:n,p可以是标量,向量,矩阵,则E,D是对应的标量,向量,矩阵 2.超几何分布-E,D=hygestat(M,N,K) 3.泊松分布-E,D=poissstat(lambda) 4.均匀分布-E,D=unifstat(a,b) 5.指数分布-E,D=expstat(lambda) 6.正态分布-E,D=normstat(mu,sigma) 其他:gamstat(),tstat(),fstat

5、(),chi2stat()等等n 协方差与相关系数的计算1.随机变量的协方差-cov(X,Y)=E(X-EX)(Y-EY)2.随机变量的相关系数-=cov(X,Y)/sqrt(DX*DY) 3.统计数据的协方差 cov(X)-当X为向量时,cov(X)=var(X);当X为矩阵时,结果 为X的协方差矩阵.对角线是X每列的方差,Xij为X的第i列 和第j列的协方差值。 cov(X,Y)-计算向量X和Y的协方差值 4.统计数据的相关系数 corrcoef(X),corrcoef(X,Y)-说明与用法与cov()相同*13三、常见概率分布的函数Matlab工具箱对每一种分布都提供五类函数,其命令字符

6、为: 概率密度:pdf 概率分布:cdf 逆概率分布:inv 均值与方差:stat 随机数生成:rnd(当需要一种分布的某一类函数时,将以上所列的分布命令字符 与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵) 和参数即可.)*14在Matlab中输入以下命令: x=-6:0.01:6; y=normpdf(x); z=normpdf(x,0,2); plot(x,y,x,z)1、密度函数:p=normpdf(x,mu,sigma) (当mu=0,sigma=1时可缺省)如对均值为mu、标准差为sigma的正态分布,举例如下:*153、逆概率分布:x=norminv(P,mu,sig

7、ma). 即求出x ,使得 PX50),按中心极限定理, 它近似地服从正态分布;点估计举例n 正态分布 N (, 2) 中, 最大似然估计是 , 2 的最大似然估计是x=load(data1.txt); x=x(:); mu,sigma=normfit(x)例 6:已知例 1 中的数据服从正态分布 N (, 2) ,试求其参数 和 的值。使用 normfit 函数参数估计:区间估计q 构造样本 X 与某个统计量有关的两个函数,作为该统计量的下限估计与上限估计,下限与上限构成 一个区间,这个区间作为该统计量的估计,称为区 间估计。q Matlab 统计工具箱中,一般也采用最大似然估计法给出参数的

8、区间估计。区间估计举例x=load(data1.txt); x=x(:); mu,sigma,muci,sigmaci=normfit(x)例 7:已知例 1 中的数据服从正态分布 N (, 2) ,试求出 和 2 的置信度为 95% 的区间估计。x=load(data6.txt); x=x(:); mu,sigma,muci,sigmaci=normfit(x,0.01)例 8:从自动机床加工的同类零件中抽取16件,测得长度值见 data6.txt,已知零件长度服从正态分布 N (, 2) ,试求零件长度均值 和标准差 的置信度为 99% 的置信区间。假设检验q 对总体的分布律或分布参数作某

9、种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种 假设是否正确,从而决定接受假设或拒绝假设,这就 是假设检验问题。q 以正态假设检验为例,来说明假设检验的基本过程。假设检验 在Matlab中,假设检验问题都提出两种假设:即原 假设和备择假设。对于正态总体均值的假设检验给 出了检验函数: ztest 已知 ,检验正态总体均值 ; ttest 未知 ,检验正态总体均值 ; ttest2 两个正态总体均值比较。1 单个正态总体N( )的假设检验已知,对期望 的假设检验Z检验法调用函数 H=ztest(X,m,sigma)H=ztest(X,m,sigma,alpha)H,sig,ci=

10、ztest(X,m,sigma,alpha,tail) 说明:X:样本;m:期望值;sigma:正态总体标准差; alpha:经验水平 ;tail:备择假设的选项,若tail=0(缺省),则 ;若tail=1,则 ;若tail=-1,则 。即tail=0(缺省)为双边检验,其余为单边检验问题。H:检验结果,分两种情况:若H=0,则在水平 下,接 受原假设;若H=1,则在水平 下,拒绝原假设。sig为当原假设为真时(即 成立),得到观察值 的概率,当sig为小概率时,则对原假设提出质疑。Ci:均值 的1-alpha置信区间。应用举例 例71 某车间用一台包装机包装葡萄糖, 包得的袋装糖重是一个随

11、机变量,它服从正 态分布。当机器正常时,其均值为0.5公斤 ,标准差为0.015。某日开工后检验包装机 是否正常,随机地抽取所包装的糖9袋,称 得净重为:(公斤)0.497 0.518 0.524 0.498 0.511 0.52 0.515 0.512 问机器是否正常? 解: 已知,在水平 =0.05下检验假设: 原假设: 备择假设: 程序: X=0.497,0.506,0.518,0.524,0.498,0.511,0.52,0.515,0. 512; H,SIG=ztest(X,0.5,0.015,0.05,0) 运行后显示结果如下:H=1SIG=0.0248 结果表明:H=1,说明在水

12、平=0.05下,可拒绝原 假设,即认为包装机工作不正常。1 单个正态总体N( )的假设检验未知,对期望 的假设检验t检验法 调用函数 H=ttest(X,m,sigma) %在水平 =sigma下检验是否成立。 说明:X:样本;m:期望值;alpha:经验水平 ;tail:备择假设的选项,若tail=0(缺省),则备择假设为 ;若tail=1,则 ;若tail=-1,则 。即 tail=0(缺省)为双边检验,其余为单边检验问题。H:检验结果,分两种情况:若H=0,则在水平 下,接 受原假设;若H=1,则在水平 下,拒绝原假设。sig为当原假设为真时(即 成立),得到观察值 的概率,当sig为小

13、概率时,则对原假设提出质疑。Ci:均值 的1-alpha置信区间。应用举例 例7.2 某种电子元件的寿命X(以小时计 )服从正态分布, 均未知,现测得 16只元件寿命如下: 159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170 问是否有理由认为元件的平均寿命大于 225(小时)? 解: 未知,在水平 =0.05下检验假设: 程序: X=159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170; H,SIG=ttest(X,225,0.05,1) 运行后

14、显示结果如下:H=0SIG=0.2570 结果表明:H=0,说明在水平=0.05下,应接受原 假设,即认为元件的平均寿命不大于225小时。2、两个正态总体均值差的检验(t检验) 调用函数 h,sig,ci=ttest(X,Y)h,sig,ci=ttest2(X,Y,alpha)h,sig,ci=ttest2(X,Y,alpha,tail) 说明:原假设为:当tail=0时,表示 (缺 省);当tail=1时,表示 ; 当tail=-1时,表示 。 为X,Y的期望, h,sig,ci与前面相同。应用举例 例7.3 在平炉上进行一项试验以确定改变操作方法 的建议是否会增加钢的得率,试验是在同一平炉

15、上 进行的。每炼一炉钢时除操作方法外,其它条件都 尽可能做到相同。先用标准方法炼一炉,然后用建 议的新方法炼一炉,以后交替进行,各炼10炉,其 得率分别为 标准方法:78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3 新方法:79.1 81.0 77.3 79.1 80.0 79.1 77.3 80.2 82.1 设这两个样本相互独立,且分别来自正态总体 N( )和N( ),均未知。问建议的新方法 能否提高得率?(取=0.05)解:两个总体方差不变时,在水平 =0.05下经验假 设: 程序: X=78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3; Y=79.1 81.0 77.3 79.1

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号