数据的统计描述及其分析

上传人:luobi****88888 文档编号:92925390 上传时间:2019-07-14 格式:PPT 页数:84 大小:1.64MB
返回 下载 相关 举报
数据的统计描述及其分析_第1页
第1页 / 共84页
数据的统计描述及其分析_第2页
第2页 / 共84页
数据的统计描述及其分析_第3页
第3页 / 共84页
数据的统计描述及其分析_第4页
第4页 / 共84页
数据的统计描述及其分析_第5页
第5页 / 共84页
点击查看更多>>
资源描述

《数据的统计描述及其分析》由会员分享,可在线阅读,更多相关《数据的统计描述及其分析(84页珍藏版)》请在金锄头文库上搜索。

1、14.07.2019,数理系 袁国军,1,数据的统计描述和分析,皖西学院数理系 袁国军,14.07.2019,数理系 袁国军,2,一个有趣的现象,在全球最大的零售业巨头沃尔玛连锁商店里,就有这么一个有趣的现象,啤酒与婴幼儿尿布是摆设在一块的。这是什么原因呢?原来美国太太们总是要求其先生下班后给儿女们买尿布,而美国男士们又特爱喝啤酒,下班时总忘不了要到商店中买几罐啤酒,而这两样东西放在一块,既提醒做父亲的不要忘了买尿布同时又顺便把自己喜爱的啤酒带回了家。沃尔玛连锁商店通过周密的调查与细心的统计发现这两样看似毫无关系的东西却有着如此神奇的联系,从而把这两样表面看似毫不搭界的东西摆在了一起,结果,啤

2、酒与尿布的销量双双大增。可见,在细微之处入手,是会有意想不到的效果的。,14.07.2019,数理系 袁国军,3,统计的基本概念,参数估计,假设检验,数据的统计描述和分析,14.07.2019,数理系 袁国军,4,一、统计量,统计的基本概念,14.07.2019,数理系 袁国军,5,14.07.2019,数理系 袁国军,6,二、分布函数的近似求法,14.07.2019,数理系 袁国军,7,三、几个在统计中常用的概率分布,1,正态分布,密度函数:,分布函数:,其中,m,为均值,,为方差,,.,标准正态分布:,N,(0,1),密度函数,,,分布函数,14.07.2019,数理系 袁国军,8,14.

3、07.2019,数理系 袁国军,9,14.07.2019,数理系 袁国军,10,F分布F(10,50)的密度函数曲线,14.07.2019,数理系 袁国军,11,参数估计,14.07.2019,数理系 袁国军,12,一、点估计的求法,(一)矩估计法,14.07.2019,数理系 袁国军,13,(二)极大似然估计法,14.07.2019,数理系 袁国军,14,二、区间估计的求法,14.07.2019,数理系 袁国军,15,1、已知DX,求EX的置信区间,2 未知方差DX,求EX的置信区间,(一)数学期望的置信区间,(二)方差的区间估计,14.07.2019,数理系 袁国军,16,Matlab统计

4、工具箱的使用之一,一、常见统计量的Matlab命令,1.输出频数表:n,y=hist(x,k),k为等分区间数, n为频数行向量,x为原始数据行向量。,2.输出直方图:hist(x,k), k为等分区间数,默认值为10。,3.基本统计量:对随机变量x,计算其基本统计量 的命令如下: 均值:mean(x) 中位数:median(x) 标准差:std(x) 方差:var(x) 偏度:skewness(x) 峰度:kurtosis(x) k阶中心矩:monment(x,order),order是阶数,14.07.2019,数理系 袁国军,17,二、常见概率分布的函数,Matlab工具箱对每一种分布都

5、提供五类函数,其命令字符为: 概率密度:pdf 概率分布:cdf 逆概率分布:inv 均值与方差:stat 随机数生成:rnd,(当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.),14.07.2019,数理系 袁国军,18,如对均值为mu、标准差为sigma的正态分布,举例如下:,1、密度函数:p=normpdf(x,mu,sigma) (当mu=0,sigma=1时可缺省) 例 求正态分布N(1,22),x=1.8处的密度函数值 y=normpdf(1.8,1,2),得y=0.1841,在Matlab中输入以下命

6、令: x=-6:0.01:6; y=normpdf(x); z=normpdf(x,0,2); plot(x,y,x,z),14.07.2019,数理系 袁国军,19,14.07.2019,数理系 袁国军,20,2、概率分布(分布函数):P=normcdf(x,mu,sigma),求正态分布N(0,22),x=1.2处的分布函数值,即F(1.2)的值 P=normcdf(1.2,0,2),得p=0.7257 求二项分布B(20,0.3),x=6处的分布函数值 P=binocdf(6,20,0.3),得p=0.6080,14.07.2019,数理系 袁国军,21,3、逆概率分布:x=normin

7、v(P,mu,sigma). 即求出x ,使得PXx=P.此命令可用来求分位数(下侧) 求p=0.999的tf分布(自由度n=10)的分位数 y=tinv(0.999,10),得y =4.1437,14.07.2019,数理系 袁国军,22,4、均值与方差:,例5 求正态分布N(3,52)的均值与方差. 命令为:m,v=normstat(3,5) 结果为:m=3,v=25 计算F(2,5)的期望与方差 命令:m,v=fstat(2,5) 结果为:m=1.6667,v=13.8889,14.07.2019,数理系 袁国军,23,5、随机数生成:normrnd(mu,sigma,m,n).产生mn

8、阶的正态分布随机数矩阵.,例6 命令:M=normrnd(1 2 3;4 5 6,0.1,2,3) 结果为:M=0.9567 2.0125 2.8854 3.8334 5.0288 6.1191,此命令产生了23的正态分布随机数矩阵,各数分别服从N(1,0.12), N(2,22), N(3, 32), N(4,0.12), N(5, 22),N(6, 32),M=normrnd(1 2 3;4 5 6,0.1 2 3;2 4 6) 请思考此命令生成的是什么样的随机矩阵呢?,14.07.2019,数理系 袁国军,24,二、参数估计,1、正态总体的参数估计,设总体服从正态分布,则其点估计和区间估

9、计可同时由以下命令获得: muhat,sigmahat,muci,sigmaci = normfit(X,alpha),此命令在显著性水平alpha下估计数据X的参数(alpha缺省时设定为0.05),返回值muhat是X的均值的点估计值,sigmahat是标准差的点估计值, muci是均值的区间估计,sigmaci是标准差的区间估计.,14.07.2019,数理系 袁国军,25,例如:有一批糖果,从中随机的取16袋,称得重量如下: 506 508 499 503 504 510 497 512 514 505 493 496 506 502 509 496,假设糖果的重量近似服从正态分布,求

10、总体均值 、标准差的估计值和置信水平为0.95的置信区间。 x=506 508 499 503 504 510 497 512 514 505 493 496 506 502 509 496; mu,sigma,muci,sigmaci=normfit(x,0.05),得到mu =503.7500 sigma =6.2022 muci =500.4451,507.0549 sigmaci =4.5816,9.5990,14.07.2019,数理系 袁国军,26,2.常见的几种分布数据的点估计和区间估计 的matlab命令格式,1.均匀分布:ahat,bhat,aci,bci=unifit(x,

11、alpha),在 显著性水平alpha下,求均匀分布的数据X的均值 的点估计及其区间估计. 2.指数分布:muhat,muci,=expfit(x,alpha)在显著性 水平alpha下,求指数分布的数据X的均值的点估 计及其区间估计. 3.正态分布:mu,sigma,muci,sigmaci=normfit(x,alpha), 在显著性水平alpha下,求正态分布的数据X的均值 的点估计及其区间估计.,14.07.2019,数理系 袁国军,27,4.泊松分布:lambdahat,lambdaci=poissfit(x,alpha)在显著性水平alpha下,求正态分布的数据X的均值的点估计及其

12、区间估计. 5.二项分布:phat,pci=binofit(x,n,alpha)在显著性水平alpha下,求正态分布的数据X的均值 的点估计及其区间估计. 其中x是样本数组,alpha是显著性水平,输出有关参数的点估计和区间估计。,14.07.2019,数理系 袁国军,28,例如 假设下面的数据近似服从泊松分布,请求出分布 的参数及0.95的置信区间。 10 6 5 3 3 10 5 3 5 7 3 8 6 5 7 5 8 5 5 x=6 10 6 5 3 3 10 5 3 5 7 3 8 6 5 7 5 8 5 5; muhat,muci=poissfit(x,0.05),14.07.201

13、9,数理系 袁国军,29,练习:某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55,1)计算均值、标准差、极差、偏度、峰度,画出直方图; 2)若成绩近似服从正态分布,估计正态分布的参数.,14.07.2019,数理系 袁国军,30,1.参数检验:如果观测的

14、分布函数类型已知,这时构造出的 统计量依赖于总体的分布函数,这种检验称为参数检验. 参数检验的目的往往是对总体的参数及其有关性质作出明 确的判断.,对总体X的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设.,2.非参数检验:如果所检验的假设并非是对某个参数作出明 确的判断,因而必须要求构造出的检验统计量的分布函数 不依赖于观测值的分布函数类型,这种检验叫非参数检验. 如要求判断总体分布类型的检验就是非参数检验.,假设检验,14.07.2019,数理系 袁国军,31,假设检验的一般步骤是:,14.07.2019,数理系

15、袁国军,32,(一)单个正态总体均值检验,一、参数检验,14.07.2019,数理系 袁国军,33,14.07.2019,数理系 袁国军,34,(二)单个正态总体方差检验,14.07.2019,数理系 袁国军,35,(三)两个正态总体均值检验,14.07.2019,数理系 袁国军,36,(四)两个正态总体方差检验,14.07.2019,数理系 袁国军,37,二、非参数检验,前面讨论的是分布已知时的参数假设检验问题,称为参数假设 检验。一般说来,在进行参数假设检验之前,要对总体的分布 进行推断,即为总体分布的拟合检验问题,它属于非参数检验。 已知总体X的样本分布函数Fn(x),若选用某个分布函数

16、F0(x) 去拟合,则无论选择, F0(x) 与Fn(x)之间总会存在差异。这些 差异是由于试验的有限性而导致的随机性产生的呢,还是所选择 的分布函数F0(x)与样本函数Fn(x之间存在实质性差异而产生的呢?,14.07.2019,数理系 袁国军,38,此种方法主要是通过各组试验数据频数与理论频数差异性的大小 来推断经验分布是否服从任何一个预先给定的理论分布。其理论 依据就是用各组试验数据频数与理论频数的差异构造一个服从 分布的统计量,并用次统计量来进行假设检验。使用此法时要求 样本容量较大,并且在进行分组时,每组的理论频数不小于5。 具体的内容请参见有关概率论与数理统计教材,14.07.2019,数理系 袁国军,39,概率纸是一种判断总体分布的简便工具.使用它们,可以很快地判断总体分布的类型.概率纸的种类很多,以正态概率纸最为常见。正态概率纸的横坐标是均匀刻度,纵坐

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > IT计算机/网络 > 数据库

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号