matlab中数据的统计描述和分析

上传人:平*** 文档编号:12458402 上传时间:2017-10-19 格式:DOC 页数:18 大小:517.50KB
返回 下载 相关 举报
matlab中数据的统计描述和分析_第1页
第1页 / 共18页
matlab中数据的统计描述和分析_第2页
第2页 / 共18页
matlab中数据的统计描述和分析_第3页
第3页 / 共18页
matlab中数据的统计描述和分析_第4页
第4页 / 共18页
matlab中数据的统计描述和分析_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《matlab中数据的统计描述和分析》由会员分享,可在线阅读,更多相关《matlab中数据的统计描述和分析(18页珍藏版)》请在金锄头文库上搜索。

1、-122-第十章 数据的统计描述和分析数理统计研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计是以概率论为基础的一门应用学科。数据样本少则几个,多则成千上万,人们希望能用少数几个包含其最多相关信息的数值来体现数据样本总体的规律。描述性统计就是搜集、整理、加工和分析统计数据,使之系统化、条理化,以显示出数据资料的趋势、特征和数量关系。它是统计推断的基础,实用性较强,在统计工作中经常使用。面对一批数据如何进行描述与分析,需要掌握参数估计和假设检验这两个数理统计的最基本方法。我们将用 Matlab 的统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。1 统计

2、的基本概念1.1 总体和样本总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品(按合格品及废品分类) ,学校全体学生的身高。总体中的每一个基本单位称为个体,个体的特征用一个变量(如 )来表示,如x一件产品是合格品记 ,是废品记 ;一个身高 170(cm)的学生记 。0x1x 170从总体中随机产生的若干个个体的集合称为样本,或子样,如 件产品,100 名n学生的身高,或者一根轴直径的 10 次测量。实际上这就是从总体中随机取得的一批数据,不妨记作 , 称为样本容量。nx,21简单地说,统计的任务是由样本推断总体。1.2 频数表和直方图一组数据(样本)往往是杂乱无章的,作出它的频数表和

3、直方图,可以看作是对这组数据的一个初步整理和直观描述。将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次数,称为频数,由此得到一个频数表。以数据的取值为横坐标,频数为纵坐标,画出一个阶梯形的图,称为直方图,或频数分布图。若样本容量不大,能够手工作出频数表和直方图,当样本容量较大时则可-123-以借助 Matlab 这样的软件了。让我们以下面的例子为例,介绍频数表和直方图的作法。例 1 学生的身高和体重学校随机抽取 100 名学生,测量他们的身高和体重,所得数据如表身高 体重 身高 体重 身高 体重 身高 体重 身高 体重172 75 171 62 166 62 160 55

4、 155 57 173 58 166 55 170 63 167 53 173 60 178 60 173 73 163 47 165 66 170 60 163 50 172 57 182 63 171 59 177 64 169 55 168 67 168 65 175 67 176 64 168 50 161 49 169 63 171 61 178 64 177 66 170 58 173 67 172 59 170 62 172 59 177 58 176 68 175 68 184 70 169 64 165 52 164 59 173 74 172 69 169 52 173 5

5、7 173 61 166 70 163 57 170 56 160 65 165 58 177 66 169 63 176 60 177 67 172 56 165 56 166 49 171 65 169 62 170 58 172 64 169 58 167 72 175 76 164 59 166 63 169 54 167 54 179 62 176 63 182 69 186 77 166 76 169 72 173 59 169 65 171 71 167 47 168 65 165 64 168 57 176 57 170 57 158 51 165 62 172 53 169

6、66 169 58 172 50 162 52 175 75 174 66 167 63 166 50 174 64 168 62 170 59 (i) 数据输入数据输入通常有两种方法,一种是在交互环境中直接输入,如果在统计中数据量比较大,这样作不太方便;另一种办法是先把数据写入一个纯文本数据文件 data.txt 中,格式如例 1 的表格,有 20 行、10 列,数据列之间用空格键或 Tab 键分割,该数据文件 data.txt 存放在 matlabwork 子目录下,在 Matlab 中用 load 命令读入数据,具体作法是:-124-load data.txt这样在内存中建立了一个变量

7、data,它是一个包含有 个数据的矩阵。102为了得到我们需要的 100 个身高和体重各为一列的矩阵,应做如下的改变:high=data(:,1:2:9);high=high(:)weight=data(:,2:2:10);weight=weight(:)(ii)作频数表及直方图用 hist 命令实现,其用法是:N,X = hist(Y,M)数组(行、列均可)Y 的频数表。它将区间 min(Y),max(Y)等分为 M 份(缺省时 M设定为 10) ,N 返回 M 个小区间的频数,X 返回 M 个小区间的中点。hist(Y,M)数组 Y 的直方图。对于例 1 的数据,编写程序如下:load d

8、ata.txt;high=data(:,1:2:9);high=high(:);weight=data(:,2:2:10);weight=weight(:);n1,x1=hist(high)%下面语句与hist命令等价%n1=length(find(high=158.1&high=161.2&high=164.5&high=167.6&high=170.7&high=173.8&high=176.9&high=180&high=183.1)n2,x2=hist(weight)subplot(1,2,1)hist(high)subplot(1,2,2)hist(weight)-125-计算结果略

9、,直方图如下图所示:0 0 0 0 İ5 05 从直方图上可以看出,身高的分布大致呈中间高、两端低的钟形;而体重则看不出什么规律。要想从数值上给出更确切的描述,需要进一步研究反映数据特征的所谓“统计量” 。直方图所展示的身高的分布形状可看作正态分布,当然也可以用这组数据对分布作假设检验。例 2 统计下列五行字符串中字符 a、g、c、t 出现的频数1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggagg2.cggaggacaaacgggatggcggtattggaggtggcggactgttcgggga3.gggacggatacggatt

10、ctggccacggacggaaaggaggacacggcggacataca4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagctta5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggc解 把上述五行复制到一个纯文本数据文件 shuju.txt 中,放在 matlabwork 子目录下,编写如下程序:clcfid1=fopen(shuju.txt,r);i=1;while (feof(fid1)data=fgetl(fid1);a=length(find(data=97);b=leng

11、th(find(data=99);c=length(find(data=103);d=length(find(data=116);e=length(find(data=97&data=135&x=138&x=142&x=146&x=150&x=154) %各区间上出现的频数mu=mean(x),sigma=std(x) %均值和标准差fendian=135,138,142,146,150,154 %区间的分点p0=normcdf(fendian,mu,sigma) %分点处分布函数的值p1=diff(p0) %中间各区间的概率p=p0(1),p1,1-p0(6) %所有区间的概率chi=(fi

12、-84*p).2./(84*p) chisum=sum(chi) %皮尔逊统计量的值x_a=chi2inv(0.9,4) %chi2分布的0.9分位数求得皮尔逊统计量chisum=1.9723, ,故在7.94)()127(2.01.0水平0.1下接受 ,即认为数据来自正态分布总体。0H3.3.2 偏度、峰度检验(留作习题1)3.4 其它非参数检验Matlab还提供了一些非参数方法。3.4.1 Wilcoxon秩和检验在Matlab中,秩和检验由函数ranksum实现。命令为:p,h=ranksum(x,y,alpha)-138-其中x,y可为不等长向量,alpha为给定的显著水平,它必须为0

13、和1之间的数量。p返回产生两独立样本的总体是否相同的显著性概率,h返回假设检验的结果。如果x和y的总体差别不显著,则h为零;如果x和y的总体差别显著,则h为1。如果p接近于零,则可对原假设质疑。例7 某商店为了确定向公司 或公司 购买某种产品,将 公司以往各次进ABBA,货的次品率进行比较,数据如下所示,设两样本独立。问两公司的商品的质量有无显著差异。设两公司的商品的次品的密度最多只差一个平移,取 。05.:7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5A:5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 1

14、2.3B解 分别以 记公司 的商品次品率总体的均值。所需检验的假设是BA、 、, .H:0 BA:1Matlab实现如下:a=7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5;b=5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3;p,h=ranksum(a,b)求得p=0.8041,h=0,表明两样本总体均值相等的概率为0.8041,并不很接近于零,且h=0说明可以接受原假设,即认为两个公司的商品的质量无明显差异。3.5 中位数检验在假设检验中还有一种检验方法为中位数检验,在一般的教学中不一定介绍,但

15、在实际中也是被广泛应用到的。在Matlab中提供了这种检验的函数。函数的使用方法简单,下面只给出函数介绍。3.5.1 signrank函数signrank Wilcoxon符号秩检验p,h=signrank(x,y,alpha)其中p给出两个配对样本x和y的中位数相等的假设的显著性概率。向量x,y的长度必须相同,alpha为给出的显著性水平,取值为0和1之间的数。h返回假设检验的结果。如果这两个样本的中位数之差几乎为0,则h=0;若有显著差异,则h=1。3.5.2 signtest函数signtest 符号检验-139-p,h= signtest(x,y,alpha)其中p给出两个配对样本x和y的中位数相等的假设的显

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 试题/考题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号