数据的统计分析与描述课件

上传人:我*** 文档编号:141796082 上传时间:2020-08-12 格式:PPT 页数:49 大小:821.50KB
返回 下载 相关 举报
数据的统计分析与描述课件_第1页
第1页 / 共49页
数据的统计分析与描述课件_第2页
第2页 / 共49页
数据的统计分析与描述课件_第3页
第3页 / 共49页
数据的统计分析与描述课件_第4页
第4页 / 共49页
数据的统计分析与描述课件_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《数据的统计分析与描述课件》由会员分享,可在线阅读,更多相关《数据的统计分析与描述课件(49页珍藏版)》请在金锄头文库上搜索。

1、2020/8/12,1,数学建模与数学实验,数据的统计描述和分析,实验目的,实验内容,2、掌握用数学软件包求解统计问题。,1、直观了解统计基本内容。,1、统计的基本理论。,3、实验作业。,2、用数学软件包求解统计问题。,2020/8/12,3,统计的基本概念,参数估计,假设检验,数据的统计描述和分析,2020/8/12,4,一、统计量,2020/8/12,5,2020/8/12,6,二、分布函数的近似求法,2020/8/12,7,三、几个在统计中常用的概率分布,1,正态分布,密度函数:,分布函数:,其中,m,为均值,,为方差,,.,标准正态分布:,N,(0,1),密度函数,,,分布函数,202

2、0/8/12,8,2020/8/12,9,2020/8/12,10,返回,F分布F(10,50)的密度函数曲线,2020/8/12,11,参数估计,2020/8/12,12,一、点估计的求法,(一)矩估计法,2020/8/12,13,(二)极大似然估计法,2020/8/12,14,二、区间估计的求法,2020/8/12,15,1、已知DX,求EX的置信区间,2 未知方差DX,求EX的置信区间,(一)数学期望的置信区间,(二)方差的区间估计,返回,2020/8/12,16,1.参数检验:如果观测的分布函数类型已知,这时构造出的 统计量依赖于总体的分布函数,这种检验称为参数检验. 参数检验的目的往

3、往是对总体的参数及其有关性质作出明 确的判断.,对总体X的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设.,假设检验,2.非参数检验:如果所检验的假设并非是对某个参数作出明 确的判断,因而必须要求构造出的检验统计量的分布函数 不依赖于观测值的分布函数类型,这种检验叫非参数检验. 如要求判断总体分布类型的检验就是非参数检验.,2020/8/12,17,假设检验的一般步骤是:,2020/8/12,18,(一)单个正态总体均值检验,一、参数检验,2020/8/12,19,2020/8/12,20,(二)单个正态总体方差检验,

4、(三)两个正态总体均值检验,(四)两个正态总体方差检验,2020/8/12,23,二、非参数检验,(二)概率纸检验法,概率纸是一种判断总体分布的简便工具.使用它们,可以很快地判断总体分布的类型.概率纸的种类很多.,返回,2020/8/12,24,统计工具箱中的基本统计命令,1.数据的录入、保存和调用,2.基本统计量,3.常见概率分布的函数,4.频 数 直 方 图 的 描 绘,5.参数估计,6.假设检验,7.综合实例,返回,2020/8/12,25,一、数据的录入、保存和调用,例1 上海市区社会商品零售总额和全民所有制职工工资总额的数据如下,统计工具箱中的基本统计命令,2020/8/12,26,

5、1、年份数据以1为增量,用产生向量的方法输入。 命令格式: x=a:h:b t=78:87,2、分别以x和y代表变量职工工资总额和商品零售总额。 x=23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4 y=41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0,3、将变量t、x、y的数据保存在文件data中。 save data t x y,4、进行统计分析时,调用数据文件data中的数据。 load data,To MATLAB(txy),方法1,2020/8/12,27,1、输入矩阵: dat

6、a=78,79,80,81,82,83,84,85,86,87,88; 23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4; 41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0,2、将矩阵data的数据保存在文件data1中:save data1 data,3、进行统计分析时,先用命令: load data1 调用数据文件data1中的数据,再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y: t=data(1,:) x=data(2,:) y=data(3,:) 若要调用

7、矩阵data的第j列的数据,可用命令: data(:,j),方法2,To MATLAB(data),返回,2020/8/12,28,二、基本统计量,对随机变量x,计算其基本统计量的命令如下: 均值:mean(x) 中位数:median(x) 标准差:std(x) 方差:var(x) 偏度:skewness(x) 峰度:kurtosis(x),例 对例1中的职工工资总额x,可计算上述基本统计量。,To MATLAB(tjl),返回,2020/8/12,29,三、常见概率分布的函数,Matlab工具箱对每一种分布都提供五类函数,其命令字符为: 概率密度:pdf 概率分布:cdf 逆概率分布:inv

8、 均值与方差:stat 随机数生成:rnd,(当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.),2020/8/12,30,在Matlab中输入以下命令: x=-6:0.01:6; y=normpdf(x); z=normpdf(x,0,2); plot(x,y,x,z),1、密度函数:p=normpdf(x,mu,sigma) (当mu=0,sigma=1时可缺省),To MATLAB(liti2),如对均值为mu、标准差为sigma的正态分布,举例如下:,2020/8/12,31,To MATLAB(liti3)

9、,3、逆概率分布:x=norminv(P,mu,sigma). 即求出x ,使得PXx=P.此命令可用来求分位数.,2、概率分布:P=normcdf(x,mu,sigma),To MATLAB(liti4),2020/8/12,32,To MATLAB(liti5),4、均值与方差:m,v=normstat(mu,sigma),例5 求正态分布N(3,52)的均值与方差. 命令为:m,v=normstat(3,5) 结果为:m=3,v=25,5、随机数生成:normrnd(mu,sigma,m,n).产生mn阶的正态分布随机数矩阵.,例6 命令:M=normrnd(1 2 3;4 5 6,0.

10、1,2,3) 结果为:M=0.9567 2.0125 2.8854 3.8334 5.0288 6.1191,To MATLAB(liti6),此命令产生了23的正态分布随机数矩阵,各数分别服从N(1,0.12), N(2,22), N(3, 32), N(4,0.12), N(5, 22),N(6, 32),返回,2020/8/12,33,1、给出数组data的频数表的命令为: N,X=hist(data,k) 此命令将区间min(data),max(data)分为k个小区间(缺省为10),返回数组data落在每一个小区间的频数N和每一个小区间的中点X.,2、描绘数组data的频数直方图的命

11、令为: hist(data,k),四、频 数 直 方 图 的 描 绘,返回,2020/8/12,34,五、参数估计,1、正态总体的参数估计,设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得: muhat,sigmahat,muci,sigmaci = normfit(X,alpha),此命令在显著性水平alpha下估计数据X的参数(alpha缺省时设定为0.05),返回值muhat是X的均值的点估计值,sigmahat是标准差的点估计值, muci是均值的区间估计,sigmaci是标准差的区间估计.,2020/8/12,35,2、其它分布的参数估计,有两种处理办法: 一.取容量充分

12、大的样本(n50),按中心极限定理,它近似地 服从正态分布; 二.使用Matlab工具箱中具有特定分布总体的估计命令.,(1)muhat, muci = expfit(X,alpha)- 在显著性水平alpha下,求指数分布的数据X的均值的点估计及其区间估计. (2)lambdahat, lambdaci = poissfit(X,alpha)- 在显著性水平alpha下,求泊松分布的数据X 的参数的点估计及其区间估计. (3)phat, pci = weibfit(X,alpha)- 在显著性水平alpha下,求Weibull分布的数据X 的参数的点估计及其区间估计.,返回,2020/8/1

13、2,36,六、假设检验,在总体服从正态分布的情况下,可用以下命令进行假设检验.,1、总体方差sigma2已知时,总体均值的检验使用 z-检验,h,sig,ci = ztest(x,m,sigma,alpha,tail) 检验数据 x 的关于均值的某一假设是否成立,其中sigma 为已知方差, alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值: tail = 0,检验假设“x 的均值等于 m ” tail = 1,检验假设“x 的均值大于 m ” tail =-1,检验假设“x 的均值小于 m ” tail的缺省值为 0, alpha的缺省值为 0.05.,返回值 h 为一个布

14、尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.,2020/8/12,37,例7 Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二月份的油价,单位为美分),它是容量为20的双样本.假设一月份油价的标准偏差是一加仑四分币(=4),试检验一月份油价的均值是否等于115.,解 作假设:m = 115. 首先取出数据,用以下命令: load gas 然后用以下命令检验 h,sig,ci = ztest(price1,115,4),返

15、回:h = 0,sig = 0.8668,ci = 113.3970 116.9030.,检验结果: 1. 布尔变量h=0, 表示不拒绝零假设. 说明提出的假设均值115 是合理的. 2. sig-值为0.8668, 远超过0.5, 不能拒绝零假设 3. 95%的置信区间为113.4, 116.9, 它完全包括115, 且精度很 高. .,To MATLAB(liti7),2020/8/12,38,2、总体方差sigma2未知时,总体均值的检验使用t-检验,h,sig,ci = ttest(x,m,alpha,tail) 检验数据 x 的关于均值的某一假设是否成立,其中alpha 为显著性水平

16、,究竟检验什么假设取决于 tail 的取值: tail = 0,检验假设“x 的均值等于 m ” tail = 1,检验假设“x 的均值大于 m ” tail =-1,检验假设“x 的均值小于 m ” tail的缺省值为 0, alpha的缺省值为 0.05.,返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.,2020/8/12,39,返回:h = 1,sig = 4.9517e-004,ci =116.8 120.2.,检验结果: 1. 布尔变量h=1, 表示拒绝零假设. 说明提出的假 设油价均值115是不合理的. 2. 95%的置信区间为116.8 120.2, 它不包括 115, 故不能接受假设. 3. sig-值为4.9517e-0

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号