《精编》数据的统计描述及其分析

上传人:tang****xu5 文档编号:133162926 上传时间:2020-05-24 格式:PPT 页数:83 大小:1.78MB
返回 下载 相关 举报
《精编》数据的统计描述及其分析_第1页
第1页 / 共83页
《精编》数据的统计描述及其分析_第2页
第2页 / 共83页
《精编》数据的统计描述及其分析_第3页
第3页 / 共83页
《精编》数据的统计描述及其分析_第4页
第4页 / 共83页
《精编》数据的统计描述及其分析_第5页
第5页 / 共83页
点击查看更多>>
资源描述

《《精编》数据的统计描述及其分析》由会员分享,可在线阅读,更多相关《《精编》数据的统计描述及其分析(83页珍藏版)》请在金锄头文库上搜索。

1、数据的统计描述及其分析 一个有趣的现象 在全球最大的零售业巨头沃尔玛连锁商店里 就有这么一个有趣的现象 啤酒与婴幼儿尿布是摆设在一块的 这是什么原因呢 原来美国太太们总是要求其先生下班后给儿女们买尿布 而美国男士们又特爱喝啤酒 下班时总忘不了要到商店中买几罐啤酒 而这两样东西放在一块 既提醒做父亲的不要忘了买尿布同时又顺便把自己喜爱的啤酒带回了家 沃尔玛连锁商店通过周密的调查与细心的统计发现这两样看似毫无关系的东西却有着如此神奇的联系 从而把这两样表面看似毫不搭界的东西摆在了一起 结果 啤酒与尿布的销量双双大增 可见 在细微之处入手 是会有意想不到的效果的 统计的基本概念 参数估计 假设检验

2、数据的统计描述和分析 一 统计量 统计的基本概念 二 分布函数的近似求法 三 几个在统计中常用的概率分布 1 正态分布 密度函数 分布函数 其中 m 为均值 为方差 标准正态分布 N 0 1 密度函数 分布函数 F分布F 10 50 的密度函数曲线 参数估计 一 点估计的求法 一 矩估计法 二 极大似然估计法 二 区间估计的求法 1 已知DX 求EX的置信区间 2 未知方差DX 求EX的置信区间 一 数学期望的置信区间 二 方差的区间估计 Matlab统计工具箱的使用之一 一 常见统计量的Matlab命令 1 输出频数表 n y hist x k k为等分区间数 n为频数行向量 x为原始数据行

3、向量 2 输出直方图 hist x k k为等分区间数 默认值为10 3 基本统计量 对随机变量x 计算其基本统计量的命令如下 均值 mean x 中位数 median x 标准差 std x 方差 var x 偏度 skewness x 峰度 kurtosis x k阶中心矩 monment x order order是阶数 二 常见概率分布的函数 Matlab工具箱对每一种分布都提供五类函数 其命令字符为 概率密度 pdf概率分布 cdf逆概率分布 inv均值与方差 stat随机数生成 rnd 当需要一种分布的某一类函数时 将以上所列的分布命令字符与函数命令字符接起来 并输入自变量 可以是

4、标量 数组或矩阵 和参数即可 如对均值为mu 标准差为sigma的正态分布 举例如下 1 密度函数 p normpdf x mu sigma 当mu 0 sigma 1时可缺省 例求正态分布N 1 22 x 1 8处的密度函数值y normpdf 1 8 1 2 得y 0 1841 在Matlab中输入以下命令 x 6 0 01 6 y normpdf x z normpdf x 0 2 plot x y x z 2 概率分布 分布函数 P normcdf x mu sigma 求正态分布N 0 22 x 1 2处的分布函数值 即F 1 2 的值P normcdf 1 2 0 2 得p 0 7

5、257求二项分布B 20 0 3 x 6处的分布函数值P binocdf 6 20 0 3 得p 0 6080 3 逆概率分布 x norminv P mu sigma 即求出x 使得P X x P 此命令可用来求分位数 下侧 求p 0 999的tf分布 自由度n 10 的分位数y tinv 0 999 10 得y 4 1437 4 均值与方差 例5求正态分布N 3 52 的均值与方差 命令为 m v normstat 3 5 结果为 m 3 v 25计算F 2 5 的期望与方差命令 m v fstat 2 5 结果为 m 1 6667 v 13 8889 5 随机数生成 normrnd mu

6、 sigma m n 产生m n阶的正态分布随机数矩阵 例6命令 M normrnd 123 456 0 1 2 3 结果为 M 0 95672 01252 88543 83345 02886 1191 此命令产生了2 3的正态分布随机数矩阵 各数分别服从N 1 0 12 N 2 22 N 3 32 N 4 0 12 N 5 22 N 6 32 M normrnd 123 456 0 123 246 请思考此命令生成的是什么样的随机矩阵呢 二 参数估计 1 正态总体的参数估计 设总体服从正态分布 则其点估计和区间估计可同时由以下命令获得 muhat sigmahat muci sigmaci

7、normfit X alpha 此命令在显著性水平alpha下估计数据X的参数 alpha缺省时设定为0 05 返回值muhat是X的均值的点估计值 sigmahat是标准差的点估计值 muci是均值的区间估计 sigmaci是标准差的区间估计 例如 有一批糖果 从中随机的取16袋 称得重量如下 506508499503504510497512514505493496506502509496 假设糖果的重量近似服从正态分布 求总体均值 标准差的估计值和置信水平为0 95的置信区间 x 506508499503504510497512514505493496506502509496 mu sig

8、ma muci sigmaci normfit x 0 05 得到mu 503 7500sigma 6 2022muci 500 4451 507 0549 sigmaci 4 5816 9 5990 2 常见的几种分布数据的点估计和区间估计的matlab命令格式 1 均匀分布 ahat bhat aci bci unifit x alpha 在显著性水平alpha下 求均匀分布的数据X的均值的点估计及其区间估计 2 指数分布 muhat muci expfit x alpha 在显著性水平alpha下 求指数分布的数据X的均值的点估计及其区间估计 3 正态分布 mu sigma muci s

9、igmaci normfit x alpha 在显著性水平alpha下 求正态分布的数据X的均值的点估计及其区间估计 4 泊松分布 lambdahat lambdaci poissfit x alpha 在显著性水平alpha下 求正态分布的数据X的均值的点估计及其区间估计 5 二项分布 phat pci binofit x n alpha 在显著性水平alpha下 求正态分布的数据X的均值的点估计及其区间估计 其中x是样本数组 alpha是显著性水平 输出有关参数的点估计和区间估计 例如假设下面的数据近似服从泊松分布 请求出分布的参数及0 95的置信区间 106533105357386575

10、855x 6106533105357386575855 muhat muci poissfit x 0 05 练习 某校60名学生的一次考试成绩如下 937583939185848277767795948991888683968179977875676968848381756685709484838280787473767086769089716686738094797877635355 1 计算均值 标准差 极差 偏度 峰度 画出直方图 2 若成绩近似服从正态分布 估计正态分布的参数 1 参数检验 如果观测的分布函数类型已知 这时构造出的统计量依赖于总体的分布函数 这种检验称为参数检验 参数

11、检验的目的往往是对总体的参数及其有关性质作出明确的判断 对总体X的分布律或分布参数作某种假设 根据抽取的样本观察值 运用数理统计的分析方法 检验这种假设是否正确 从而决定接受假设或拒绝假设 2 非参数检验 如果所检验的假设并非是对某个参数作出明确的判断 因而必须要求构造出的检验统计量的分布函数不依赖于观测值的分布函数类型 这种检验叫非参数检验 如要求判断总体分布类型的检验就是非参数检验 假设检验 假设检验的一般步骤是 一 单个正态总体均值检验 一 参数检验 二 单个正态总体方差检验 三 两个正态总体均值检验 四 两个正态总体方差检验 二 非参数检验 前面讨论的是分布已知时的参数假设检验问题 称

12、为参数假设检验 一般说来 在进行参数假设检验之前 要对总体的分布进行推断 即为总体分布的拟合检验问题 它属于非参数检验 已知总体X的样本分布函数Fn x 若选用某个分布函数F0 x 去拟合 则无论选择 F0 x 与Fn x 之间总会存在差异 这些差异是由于试验的有限性而导致的随机性产生的呢 还是所选择的分布函数F0 x 与样本函数Fn x之间存在实质性差异而产生的呢 此种方法主要是通过各组试验数据频数与理论频数差异性的大小来推断经验分布是否服从任何一个预先给定的理论分布 其理论依据就是用各组试验数据频数与理论频数的差异构造一个服从分布的统计量 并用次统计量来进行假设检验 使用此法时要求样本容量

13、较大 并且在进行分组时 每组的理论频数不小于5 具体的内容请参见有关概率论与数理统计教材 概率纸是一种判断总体分布的简便工具 使用它们 可以很快地判断总体分布的类型 概率纸的种类很多 以正态概率纸最为常见 正态概率纸的横坐标是均匀刻度 纵坐标是按正态分布律刻度 表示概率 二 概率纸检验法 统计工具箱中的基本统计命令 1 数据的录入 保存和调用 2 基本统计量 3 常见概率分布的函数 4 频数直方图的描绘 5 参数估计 6 假设检验 7 综合实例 一 数据的录入 保存和调用 例1上海市区社会商品零售总额和全民所有制职工工资总额的数据如下 统计工具箱中的基本统计命令 1 年份数据以1为增量 用产生

14、向量的方法输入 命令格式 x a h bt 78 87 2 分别以x和y代表变量职工工资总额和商品零售总额 x 23 8 27 6 31 6 32 4 33 7 34 9 43 2 52 8 63 8 73 4 y 41 4 51 8 61 7 67 9 68 7 77 5 95 9 137 4 155 0 175 0 3 将变量t x y的数据保存在文件data中 savedatatxy 4 进行统计分析时 调用数据文件data中的数据 loaddata ToMATLAB txy 方法1 1 输入矩阵 data 78 79 80 81 82 83 84 85 86 87 23 8 27 6

15、31 6 32 4 33 7 34 9 43 2 52 8 63 8 73 4 41 4 51 8 61 7 67 9 68 7 77 5 95 9 137 4 155 0 175 0 2 将矩阵data的数据保存在文件data1中 savedata1data 3 进行统计分析时 先用命令 loaddata1调用数据文件data1中的数据 再用以下命令分别将矩阵data的第一 二 三行的数据赋给变量t x y t data 1 x data 2 y data 3 若要调用矩阵data的第j列的数据 可用命令 data j 方法2 ToMATLAB data 二 基本统计量 对随机变量x 计算其

16、基本统计量的命令如下 均值 mean x 中位数 median x 标准差 std x 方差 var x 偏度 skewness x 峰度 kurtosis x 例对例1中的职工工资总额x 可计算上述基本统计量 ToMATLAB tjl 三 常见概率分布的函数 Matlab工具箱对每一种分布都提供五类函数 其命令字符为 概率密度 pdf概率分布 cdf逆概率分布 inv均值与方差 stat随机数生成 rnd 当需要一种分布的某一类函数时 将以上所列的分布命令字符与函数命令字符接起来 并输入自变量 可以是标量 数组或矩阵 和参数即可 在Matlab中输入以下命令 x 6 0 01 6 y normpdf x z normpdf x 0 2 plot x y x z 1 密度函数 p normpdf x mu sigma 当mu 0 sigma 1时可缺省 ToMATLAB liti2 如对均值为mu 标准差为sigma的正态分布 举例如下 x 6 0 01 6 y normpdf x z normpdf x 1 2 plot x y x z ToMATLAB liti3 3 逆概率分布

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号